Google will mit seinem KI-Modell eine „neuen Ära“ einleiten
Am 06.12.2023 hat Google seine neue KI "Gemini" vorgestellt, um im KI-Wettrennen weiter voranzukommen. Google erwähnte das neue Modell erstmals auf seiner Entwicklerkonferenz im Frühjahr, aber die Veröffentlichung wurde verzögert. Gemini ist selbst jetzt noch nicht ganz fertig. Der schwierige Beginn passt zu der Tatsache, dass Google bei KI-Anwendungen hinter OpenAI und Microsoft zurückbleibt.
Gemini soll sich vor allem durch Multimodalität auszeichnen
Ein Beispiel, das zeigt, wie Gemini im täglichen Leben unterstützen könnte, richtet sich an überforderte Eltern, die von Physik und Mathe ähnlich unerfahren sind wie ihre Kinder. Die neue KI versteht nicht nur die ausgedruckten Fragen in den Schulbüchern, sondern auch die handgeschriebenen und möglicherweise falschen Antworten. Mit diesem Anwendungsbeispiel möchte Google einen bedeutenden Fortschritt im Bereich von KI demonstrieren. Und zwar Multimodalität. Laut den Entwicklern ist Gemini von Natur aus multimodal, was bedeutet, dass es sowohl mit Text als auch mit Bildern, Audio- und Videoinhalten umgehen kann. In der Ankündigung von Google wird regelmäßig das englische Wort reasoning genannt, welches logisches Denken oder Schlussfolgerungen bedeutet. Gemini sollen hier besonders erfolgreich sein. Die Hausaufgabenhilfe zeigt diese Reihe von Schritten, die aus dem Verstehen von Text und Bild, dem Prüfen und dem Schlussfolgern bestehen. "Das ist ein signifikanter Meilenstein in der Entwicklung von KI und der Beginn einer neuen Ära für uns", teilt Google mit.
Gemini ist eine Art Modell, welche in Google-Anwendungen im Hintergrund läuft
Gemini ist ein Modell wie GPT-4 des Konkurrenten OpenAI und nicht eine vollständige Anwendung wie bspw. ChatGPT. Früher oder später wird Gemini in verschiedenen Google-Produkten im Hintergrund laufen. Nano, Pro und Ultra sind die drei Größen der ersten Gemini-Generation 1.0. Die geringste Version ist speziell auf Effizienz ausgelegt und soll sogar auf mobilen Geräten wie Smartphones betrieben werden können. Insbesondere auf den spezifischen KI-Chips für diese Geräte. Die Tatsache, dass Gemini Nano keine Verbindung zu Googles Servern benötigt, ist ein Vorteil dieser Konstruktion im Vergleich zu einer Cloudanbindung an ein größeres Modell. Aus diesem Grund ist es möglich, auch in vertraulichen Chats wie WhatsApp zu arbeiten, um Vorschläge für Antworten zu machen oder Grammatikfehler zu korrigieren. Das Google Pixel 8 Pro ist das erste Smartphone, für das Gemini Nano zur Verfügung steht.
In Europa muss man sich noch gedulden
Auch Gemini Pro ist sofort nutzbar, weil es bereits in Googles Chatbot Bard enthalten ist. Google gab bekannt, dass Bard bisher das größte Update erhalten hat. Zuerst ist es jedoch nur auf Englisch in über 170 Ländern und Territorien verfügbar. Europa gehört noch nicht dazu. Die Ultra-Version wird in Googles Rechenzentren laufen und stellt das leistungsfähigste Modell dar. Es ist das erste Modell, das im MMLU-Test (massive multitask language understanding) menschliche Experten in Mathematik, Physik, Geschichte, Recht, Medizin und Ethik übertrumpft. Laut Google hat Gemini Ultra in nahezu allen Vergleichstests besser abgeschnitten. Auch gegenüber GPT-4, das derzeit als State-of-the-art-Modell gilt, sei man überlegen.
Die Konkurrenz schläft nicht
Gemini wird jedoch noch nicht in anderen Produkten des Unternehmens verwendet werden, in denen es nützlich sein könnte. Es wird noch Monate dauern, bis es in der Google-Suche, im Browser Chrome und auch in den Werbediensten funktioniert. Die Ultra-Version wird zunächst nur ausgewählten Kunden, Entwicklern, Partnern und Sicherheitsfachleuten zur Verfügung stehen, um erste Tests durchzuführen. Ab Anfang des Jahres wird ein breiteres Publikum das Modell nutzen können. Vorher hat Google Maßnahmen zur Sicherheit ergriffen. Das Unternehmen gab bekannt, dass interne und externe Experten Gemini bereits gründlich gehackt haben, um mögliche Sicherheitsrisiken bis hin zu autonomen KI-Aktivitäten zu erkennen. Gemini sollte auch keine gefährlichen, einseitigen oder tatsächlich falschen Inhalte erstellen oder akzeptieren. Das Modell soll durch Feintuning und menschliches Feedback, wie es auch bei OpenAI üblich ist, zuverlässiger und alltagstauglicher werden.
Es ist unklar, ob und in welchem Zeitraum Google mit Gemini einen Vorsprung gegenüber OpenAI erringen könnte. Die Einführung von ChatGPT vor mehr als einem Jahr wird oft als "iPhone-Moment der KI" bezeichnet, Google hängt hier massiv hinterher. Microsoft gab außerdem bekannt, dass es bald ein bedeutendes Upgrade für seinen KI-Copiloten geben wird. Dahinter wird das neue OpenAI-Modell GPT-4 Turbo stecken, das es ermöglicht, noch multimodaler zu arbeiten.