Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
Technologie
Metas neues KI-Modell übersetzt direkt 200 Sprachen – und ist Open Source

Metas neues KI-Modell übersetzt direkt 200 Sprachen – und ist Open Source

Larissa Ceccio | 07.07.22

Das KI-Übersetzungs-Tool befindet sich derzeit in einer frühen Entwicklungsphase. Im Zielbild soll es als Universalübersetzer:in fungieren.

Meta könnte mit nur einem KI-Modell zukünftig 200 verschiedene Sprachen übersetzen, darunter viele, die von bisherigen Tools nicht unterstützt werden. Der Tech-Konzern plant, NLLB-200 als Open Source zu launchen – in der Hoffnung, dass mehr Unternehmen und Entwickler:innen die Arbeit fortführen.

Metas Ambitionen zur Realisation eines universellen Übersetzungs-Tools könnten sich hinsichtlich des Wachstums auszahlen. Darauf zumindest hofft das Unternehmen in Bezug auf Facebook und Instagram, aber auch sich entwickelnde Bereiche wie VR und AR, wie etwa das VR Headset des Project Cambria. In diesem Kontext soll die maschinelle Übersetzung dabei unterstützen, die User besser zu verstehen, um im zweiten Schritt Werbesysteme optimieren zu können. CEO Mark Zuckerberg schreibt dazu auf seinem Facebook-Profil:

Um ein Gefühl für die Größenordnung zu vermitteln: Das 200-Sprachen-Modell hat über 50 Milliarden Parameter, und wir haben es mit unserem neuen Research Supercluster trainiert, einem der schnellsten KI-Supercomputer der Welt. Die hier erzielten Fortschritte werden täglich mehr als 25 Milliarden Übersetzungen in unseren Apps ermöglichen.

Sind die Übersetzungen von Metas KI-Tool NLLB-200 fehlerfrei?

Gegenüber The Verge erklärten einige Expert:innen für maschinelle Übersetzung, dass die jüngsten Forschungen des Tech-Konzerns zwar ehrgeizig wie auch fundiert seien, sie jedoch feststellen mussten, dass die Qualität einiger Übersetzungen wahrscheinlich weit unter der einiger Konkurrenzprodukte, die auf weit verbreitete Sprachen wie Deutsch und Italienisch programmiert wurden, liegt.

Die Vorteile Metas Systems ergeben sich eher aus dem Umfang sowie Fokus der Forschung. Während also der Großteil an maschinellen Übersetzungsmodellen weniger Sprachen verarbeiten kann, ist dieses nahezu allumfassend. Es kann neben den 200 Sprachen in mehr als 40.000 Richtungen übersetzen. Zudem plant das Unternehmen sogenannte Low-Ressource-Sprachen mit weniger als einer Million öffentlich zugänglich übersetzten Satzpaaren aufzunehmen. Hierzu gehören viele afrikanische und indische Sprachen.

Wäre es auch möglich, eine Übersetzungstechnologie zu entwickeln, die wirklich für alle funktioniert?

Angela Fan, Meta-KI-Forscherin, arbeitet an dem KI-Übersetzungs-Tool und erklärte gegenüber The Verge, dass das Team von der mangelnden Aufmerksamkeit inspiriert wurde, die solchen ressourcenarmen Sprachen auf diesem Gebiet geschenkt wird. Sie sagte:

Translation doesn’t even work for the languages we speak, so that’s why we started this project. We have this inclusion motivation of like — ‚what would it take to produce translation technology that works for everybody?

Laut ihr befindet sich das Tool bereits in der Testphase. Hier werden Wikipedia-Redakteur:innen dabei unterstützt, Artikel in andere Sprachen zu übersetzen. Die Techniken sollen bereits in naher Zukunft in die Übersetzungswerkzeuge von Meta integriert werden.

Wie werden Übersetzungen beurteilt?

Bei einer übergreifenden Anwendung auf Metas Plattformen kann selbst eine kleine Anzahl an Fehlern zu schwerwiegenden Ergebnissen führen, wie zum Beispiels als Facebook einen Beitrag eines Palästinensers von „Guten Morgen“ in „ihm wehtun“ falsch übersetzte, was sogar zu einer Festnahme desjenigen von der israelischen Polizei führte. Um also die wichtige Qualität des neuen Modells zu bewerten, hat Meta einen Testdatensatz erstellt, der aus 3.001 Satzpaaren für jede der 200 Sprachen besteht, die jeweils von jemandem, der:die sowohl professionelle:r Übersetzer:in als auch Muttersprachler:in ist, aus dem Englischen in eine Zielsprache übersetzt wurden. Die Forscher:innen prüften diese und verglichen die maschinellen Übersetzungen mit den menschlichen Referenzsätzen unter Verwendung eines in der maschinellen Übersetzung üblichen Benchmarks namens BLEU (was für Bilingual Evaluation Understudy steht).

Christian Federmann, Forschungsmanager bei Microsoft, arbeitet im Bereich Übersetzung und erklärte, dass Metas Projekt als Ganzes „lobenswert“ in seinem Bestreben und Anwendungsbereichen sei. Er merkte jedoch an:

Translation is a creative, generative process which may result in many different translations which are all equally good (or bad). It is impossible to provide general levels of ‚BLEU score goodness’ as they are dependent on the test set used, its reference quality, but also inherent properties of the language pair under investigation.

Herausforderungen von KI-Übersetzungs-Tools bei ressourcenarmen Sprachen

Die Arbeit an KI-Übersetzung wird oft als vorteilhafte Entwicklung dargestellt, aber die Erstellung dieser Software ist für Sprecher:innen von Sprachen mit geringen Ressourcen mit besonderen Herausforderungen verbunden. Denn einige Gemeinschafen möchten nicht, dass die Mittel zur Bewahrung ihrer Sprache jemand anderes besitzt. Andere wiederum befürchten, dass KI-Sprachübersetzungs-Tools die Qualität mindern und den Einfluss der Sprache verändern könnten. Um diesen Herausforderungen auf den Grund zu gehen, führte Meta eine Untersuchung durch. Hierbei führten Meta-Ingenieur:innen Interviews mit 44 Sprecher:innen ressourcenarmer Sprachen.

Ein für Meta positives Ergebnis ist, dass solche Programme Redner:innen den Zugriff auf mehr Medien und Informationen ermöglichen. Sie können verwendet werden, um reichhaltige Ressourcen wie englischsprachige Wikipedia- und Bildungstexte zu übersetzen. Wenn Sprecher:innen von Sprachen mit geringen Ressourcen jedoch gleichzeitig mehr Medien konsumieren, die von Sprecher:innen besser unterstützter Sprachen erstellt wurden, könnte dies die Anreize verringern, solche Materialien in ihrer eigenen Sprache zu erstellen.

Das Ausbalancieren dieser Probleme ist eine Herausforderung, und die Komplikationen, die selbst bei diesem jüngsten Projekt aufgetreten sind, zeigen, warum. Die Forscher:innen von Meta stellen zum Beispiel fest, dass von den 44 ressourcenarmen Sprecher:innen, die sie befragten, die Mehrheit dieser „Imigrant:innen waren, die in den USA und Europa leben, und etwa ein Drittel von ihnen identifiziert sich als Tech-Arbeiter:innen“. Das heißt, ihre Perspektiven unterscheiden sich wahrscheinlich von denen ihrer Heimatgemeinden und sind von Anfang an voreingenommen.

Professor Alexander Fraser, Experte für Computerlinguistik an der LMU München in Deutschland, erklärte, dass die Forschung trotzdem „in einer Weise durchgeführt wurde, die immer mehr Muttersprachler:innen einbezieht“ und dass solche Bemühungen „lobenswert“ seien.

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*