AudioPalm: Google schafft multimodale KI, indem Palm2 und AudioLM fusioniert werden

Bildherkunft: YASUTAKA OTSUKI - stock.adobe.com

Das Beste aus beiden Welten

Google hat kürzlich zwei KI-Modelle zusammengeführt, um Übersetzungen mit Originalstimmen zu ermöglichen. Es geht um die Modelle AudioLM, das auf Ton basierend ist, und Palm-2, das auf Text basierend ist. Aus dieser Fusion entstand ein neues Modell namens Audiopalm, das nicht nur Texte schreiben und übersetzen, sondern auch in der gewünschten Stimme wiedergeben kann.

Wenn jemand auf Deutsch etwas sagt, wiederholt Googles Sprachmodell es in einer anderen Sprache, aber mit einer Stimme, die sehr nah am Original liegt. Google wiederholt dieses Beispiel in seinem Forschungspapier zu AudioPalm mit mehreren Sprachen und Inhalten, um zu erklären, wie das neu geschaffene Sprachmodell (Large Language Model, LLM) mit einer multimodalen Architektur funktioniert.

Drei Sekunden einer Audioaufnahme sind für AudioPalm ausreichend, um eine Originalstimme nachzuahmen. Die Zeitspanne, die Microsoft und Meta für ihre Sprachmodelle zur Übersetzung benötigen, entspricht ungefähr dieser Zeitspanne.

Echtzeit, Transkripte und Intonation

Wie seine Konkurrenten kann AudioPalm Sprache plausibel weiterführen, wenn eine Aufnahme endet oder gestört wird. Es gibt Übersetzungen von Sprache zu Text, die in Echtzeit erfolgen. Google behauptet, dass Sprachkombinationen, die nicht im Training verwendet werden, dennoch effektiv sind. AudioPalm hat die Fähigkeit, Texte in die Ausgangssprache oder direkt in eine andere Sprache zu transkribieren. Google könnte solche Dienste nutzen, um Untertitel für Youtube-Videos zu erstellen oder die Originalstimme zu verwenden, um sie zu synchronisieren. Es besteht die Möglichkeit, dass dies auch für die Filmindustrie und andere Anwendungen von Bedeutung sein könnte.

Ein weiterer Schritt für KI-Übersetzungen

Audiopalm ist ein wichtiger Fortschritt in der KI-Übersetzungstechnologie. In Bereichen wie Voiceover-Technik oder der Unterhaltungsindustrie eröffnet die Fähigkeit, Texte mit originalgetreuen Stimmen wiederzugeben, neue Möglichkeiten. Es ist ungewiss, wie Audiopalm in der Praxis eingesetzt und welche Auswirkungen es auf die Sprachtechnologie haben wird. Jedoch wird es entscheidend sein, wann die Technologie einsatzbereit ist.

Alphabet Inc.
US02079K3059 A14Y6F
- -
Tipp: 200 Alphabet Inc. Aktien für nur 2,00 USD handeln über die CapTrader: TraderFox-Edition
0 €

Gebührenfreier Handel mit
finanzen.net zero & Profi-Tools von TraderFox

Diese Kooperation wirbelt die TraderFox-Welt durcheinander.
Wir verknüpfen unsere Profi-Tools mit dem gebührenfreien Handel von finanzen.net Zero
Depot eröffnen (Unbedingt diesen Link verwenden, um in den Genuss der TraderFox-Vorteile zu kommen)

Lesermeinungen zu diesem Artikel

Kunden unserer Börsenmagazine können Artikel kommentieren, Rückfragen an die Autoren stellen und mit anderen Börsianern darüber diskutieren!

Bereits Kunde? Jetzt einloggen
aktien Flatrate mit der Trader-Zeitung
3 Monate Laufzeit
147,- Euro
Alle Börsendienste von aktien
zu einem unschlagbar günstigen Preis