GPT-4o: Das neue multimodale KI-Modell

OpenAI hat mit GPT-4o ("o" für "omni") ein Modell vorgestellt, das Text-, Audio- und Bildverarbeitung kombiniert. GPT-4o reagiert auf Audioeingaben in durchschnittlich 320 Millisekunden und verbessert die Leistung im Vergleich zu GPT-4 Turbo bei Text in Nicht-Englisch sowie bei Vision- und Audioverarbeitung. Hiermit ist die direkte Audio-Konversation nach Vorbild der AI im 2013er Film "Her" schon sehr nah. Nicht umsonst sind in den Demos von OpenAI einige Anleihen auf das Filmwerk zu entdecken.

Die wichtigsten neuen Funktionen

  1. Multimodale Eingaben und Ausgaben: GPT-4o verarbeitet und generiert Text, Audio und Bilder aus einem einzigen neuronalen Netzwerke, was eine natürlichere Interaktion ermöglicht. Es werden also nicht mehrere parallele Modelle benutzt.

  2. Echtzeit-Fähigkeiten: Schnelle Reaktionszeiten ähnlich wie bei einem Menschen.

  3. Verbesserte Sprachverarbeitung: Höhere Genauigkeit bei mehrsprachigen Texten und effizientere Tokenisierung.

  4. Neue Anwendungen: Echtzeit-Übersetzungen, visuelles Lernen, Kundenservice und vieles mehr.

  5. Verbesserte Bildgenerierung Die Bildgenerierung ist deutlich präziser, insbesondere bei Texten und Buchstaben in Grafiken. Außerdem ist es möglich, einmal erstellte Bilder oder auch eigene Bilder nachträglich zu "bearbeiten", also Elemente wiederzuverwenden oder anzupassen.

Anwendungsbeispiele

  • Interaktive Gespräche: GPT-4o kann in Echtzeit auf sprachliche Nuancen wie Tonfall und Emotionen reagieren.

  • Multilinguale Unterstützung: Signifikante Leistungssteigerung in mehreren Sprachen, besonders bei gering verfügbaren Sprachen. Der Babelfisch ist wirklich da.

  • Visuelle und auditive Projekte: Erstellen von Bildern, Videoanalysen und mehr.

GPT-4o steht sowohl in der freien Version von ChatGPT zur Verfügung (mit limiterter Anzahl von Anfragen) und wird bald auch in erweiterten Voice-Modi und für API-Nutzer zugänglich sein.

Alle weiteren Informationen gibt es auf der OpenAI-Webseite.