Meta veröffentlicht ein KI-Modell, das fast 100 Sprachen transkribieren und übersetzen kann
SeamlessM4T ist zusammen mit SeamlessAlign, einem neuen Übersetzungsdatensatz, als Open Source verfügbar. Meta behauptet, dass SeamlessM4T einen "bedeutenden Durchbruch" auf dem Gebiet der KI-gestützten Sprache-zu-Sprache und Sprache-zu-Text darstellt.
"Unser einziges Modell bietet On-Demand-Übersetzungen, die es Menschen, die verschiedene Sprachen sprechen, ermöglichen, effektiver zu kommunizieren", schreibt Meta in einem Blogpost. "SeamlessM4T erkennt implizit die Ausgangssprachen, ohne dass ein separates Spracherkennungsmodell erforderlich ist."
SeamlessM4T basiert auf einem gigantischen Datensatz
SeamlessM4T ist so etwas wie der geistige Nachfolger von Metas No Language Left Behind, einem maschinellen Text-zu-Text-Übersetzungsmodell, und Universal Speech Translator, einem der wenigen direkten Sprach-zu-Sprache-Übersetzungssysteme, welches die Sprache Hokkien unterstützt. Ferner baut es auf Massively Multilingual Speech auf, dem Meta-Framework, das Spracherkennung, Sprachidentifizierung und Sprachsynthese in mehr als 1.100 Sprachen ermöglicht.
SeamlessM4T gehört jedoch zu den ehrgeizigsten Bemühungen, die bisher unternommen wurden, um Übersetzungs- und Transkriptionsfunktionen in einem einzigen Modell zu kombinieren. Bei der Entwicklung der Software hat Meta nach eigenen Angaben öffentlich zugängliche Text- (in der Größenordnung von "Milliarden" Sätzen) und Sprachdaten (4 Millionen Stunden) aus dem Internet ausgewertet. Meta betont hierbei, dass die gesammelten Daten - die nach Angaben des Unternehmens personenbezogene Daten enthalten könnten - nicht urheberrechtlich geschützt waren und hauptsächlich aus Open-Source- oder lizenzierten Quellen stammten.
Meta verwendete die gesammelten Text- und Sprachdaten, um den Trainingsdatensatz für SeamlessM4T, genannt SeamlessAlign, zu erstellen. Die Forscher glichen 443.000 Stunden Sprache mit Texten ab und erstellten 29.000 Stunden "Speech-to-Speech"-Abgleiche, die SeamlessM4T beibrachten, wie man Sprache in Text transkribiert, Text übersetzt, Sprache aus Text generiert und sogar in einer Sprache gesprochene Wörter in Wörter einer anderen Sprache übersetzt. Meta behauptet, dass SeamlessM4T bei einem internen Benchmark besser gegen Hintergrundgeräusche und "Sprechervariationen" bei Sprache-zu-Text-Aufgaben abschneidet als die Konkurrenz.
SeamlessM4T hat noch Schwachstellen
In einem Whitepaper, das zusammen mit dem Blogpost veröffentlicht wurde, dass das Modell bei der Übersetzung von neutralen Begriffen zu männlichen Formen etwas "übergeneralisiert". Darüber hinaus bevorzugt SeamlessM4T bei fehlenden Geschlechtsinformationen in etwa 10 % der Fälle die Übersetzung der männlichen Form - vielleicht aufgrund einer "Überrepräsentation männlicher Lexika" in den Trainingsdaten, vermutet Meta.
Meta ist der Meinung, dass SeamlessM4T keine übermäßige Menge an "toxischem" Text in seine Übersetzungen einfügt, ein häufiges Problem bei Übersetzungen und generativen KI-Textmodellen im Allgemeinen. Dennoch gibt es einigen Sprachen hasserfüllte oder profane Übersetzungen, meistens im sozioökonomischen und kulturellen Kontext. Im Allgemeinen ist SeamlessM4T bei Übersetzungen, die sich mit sexueller Orientierung und Religion befassen, etwas "toxischer". Meta weist darauf hin, dass die öffentliche Demo für SeamlessM4T einen Filter für toxische Spracheingaben sowie einen Filter für potenziell toxische Sprachausgaben enthält. Dieser Filter ist jedoch in der Open-Source-Version des Modells nicht standardmäßig vorhanden.
Bisher rät Meta davon ab, SeamlessM4T für lange Übersetzungen zu verwenden. Auch soll sie noch nicht für medizinische oder juristische Zwecke eingesetzt werden, vermutlich, um sich für den Fall einer Fehlübersetzung abzusichern.