Wie Alphabet mit der Gemini-KI den Marktführer Chat-GPT attackiert
Alphabet (NASDAQ: GOOG) versucht mit Gemini, einer neuen generativen KI-Plattform, die kürzlich ihr großes Debüt hatte, Wellen zu schlagen. Gemini wurde von Googles KI-Forschungslabors DeepMind und Google Research entwickelt. Es gibt drei Varianten: Das Flaggschiff-Modell Gemini Ultra, das "Lite”-Modell Gemini Pro und ein kleineres Modell namens Gemini Nano, das auf mobilen Endgeräten läuft. Alle Gemini-Modelle wurden darauf trainiert, "nativ multimodal” zu sein. Sie können demnach mehr als nur mit Text arbeiten und diesen verwenden. Sie wurden auf eine Vielzahl von Audio-, Bild- und Videodaten sowie Texten in verschiedenen Sprachen vorbereitet und verfeinert. Das unterscheidet Gemini von Modellen wie Googles eigenem großen Sprachmodell LaMDA, das nur auf Textdateien trainiert wurde. LaMDA kann nichts anderes als Text verstehen oder generieren (z. B. Essays, E-Mail-Entwürfe, usw.) - das trifft jedoch nicht auf die Gemini-Modelle zu. Ihre Fähigkeit, Bilder, Audio und andere Dinge zu verstehen, ist immer noch begrenzt, aber besser als nichts.
Der Unterschied zwischen Bard und Gemini
Google hat von Anfang an nicht klargemacht, dass Gemini separat und anders als Bard ist. Bard ist einfach eine Schnittstelle, über die bestimmte Gemini-Modelle aufgerufen werden können. Es ist sozusagen wie eine App oder ein Client für Gemini und andere generative KI-Modelle. Gemini hingegen ist eine Modell-Familie und keine App- oder Benutzeroberfläche. Es gibt keine eigenständige Gemini-Erfahrung und es wird wahrscheinlich auch nie eine geben. Wenn man es mit den Produkten von OpenAI vergleicht, entspricht Bard ChatGPT und Gemini entspricht dem Sprachmodell, das etwas antreibt wie ChatGPT-3.5 oder 4.
Google hat beim ursprünglichen Bard-Launch ziemlich enttäuscht. Und vor kurzem hat es mit einem Video, das angeblich die Fähigkeiten von Gemini zeigen sollte, für Aufregung gesorgt. Es stellte sich heraus, dass das Video stark bearbeitet wurde und mehr oder weniger ambitioniert war. Gemini ist aktuell nur in einer begrenzten Form verfügbar.
Die Modelle Ultra, Pro und Nano
Gemini Ultra ist das Grundmodell der Familie und bisher nur für ausgewählte Kunden in einigen Google-Apps und -Diensten verfügbar. Eine breitere Einführung ist erst später im Jahr geplant. Ultra wird als unterstützendes Werkzeug für Physik-Hausaufgaben und schrittweises Problemlösen auf Arbeitsblättern beworben. Es kann auch wissenschaftliche Arbeiten identifizieren, relevante Informationen extrahieren und Diagramme mit aktuellen Daten aktualisieren. Obwohl Gemini Ultra technisch die Generierung von Bildern unterstützt, wird diese Funktion zum Start der Produktversion nicht verfügbar sein.
Gemini Pro ist im Gegensatz zur Ultra-Version bereits heute öffentlich verfügbar. Die Fähigkeiten variieren je nach Einsatzort. In Bard übertrifft Pro laut Google LaMDA in den Bereichen Denkfähigkeit, Planung und Verständnis. Allerdings kämpft das Modell wie alle großen Sprachmodelle mit Mathematikaufgaben und neigt zu Fehlern. Über die API von Vertex AI kann Gemini Pro für individuelle Anwendungen in verschiedenen Kontexten feinabgestimmt werden.
Gemini Nano ist eine kleinere Version der Modelle Ultra und Pro und kann effizient auf einigen Smartphones ausgeführt werden, ohne die Aufgaben an einen Server zu senden.
Die Kosten von Gemini
Es ist noch nicht möglich, eine Aussage zu treffen, wie sich die Gemini-Familie wirklich schlägt, bis Google das Ultra-Modell später in diesem Jahr veröffentlicht. Das Unternehmen geht von Verbesserungen im Vergleich zum Stand von OpenAIs GPT-4 aus. Alphabet sagt auch, dass Gemini Pro in Aufgaben wie Zusammenfassung von Inhalten, Brainstorming und Schreiben leistungsfähiger als GPT-3.5 sei. Nutzer und Akademiker haben jedoch darauf hingewiesen, dass Gemini Pro dazu neige, grundlegende Fakten falsch zu verstehen, Probleme mit Übersetzungen habe und schlechte Codierungsvorschläge liefere.
Gemini Pro kann in Bard und vorerst auch in AI Studio und Vertex AI kostenlos verwendet werden. Sobald Gemini Pro seine Preview in Vertex verlässt, wird das Modell 0,0025 USD pro Zeichen kosten, während die Ausgabe 0,00005 USD pro Zeichen kosten wird. Die Zusammenfassung eines 500-Wörter Artikels mit 2.000 Zeichen würde 5 USD kosten. Das Generieren eines Artikels ähnlicher Länge würde 0,1 USD kosten.