KI-generiertes Bild in Split-Screen-Ästhetik: Ein Roboter ist in der Mitte geteilt bzw. befindet sich in zwei Räumen gleichzeitig. Im Hintergrund sieht man diverse Geräte und Bücher.
Bildquelle: Generiert mit DALL·E: Illustrate a digital assistant named 'GPT-4o' that embodies the convergence of the analog and digital realms. This assistant is visualized as a humano

Multimodal heißt, es können neben Text auch Audio und Bild eingegeben werden. Dies ging zwar schon für zahlende Nutzer mit GPT-4, hat aber mit GPT-4o noch mal ein höheres Niveau erreicht. Das „o“ steht übrigens für „omni“ und meint, dass das Modell Text, Audio, Bild und Video versteht. Dieses Modell steht frei für jeden angemeldeten Nutzer zur Verfügung, allerdings hat man ein tägliches Limit.

Wie kann man diese neuen Modalitäten nun nutzen? Zum Beispiel zum Digitalisieren von Notizen oder schnellen Scannen von Dokumenten. In meinem Test habe ich die ChatGPT-App von OpenAI benutzt, um schnell Fotos in den Chat mit ChatGPT laden zu können und ich bin durch meinen Notizblock durchgegangen.

Die Genauigkeit und Geschwindigkeit sind beeindruckend, selbst Tabellen und Smilies wurden erkannt. Kombiniert man das jetzt mit der Fähigkeit von ChatGPT, Worddokumente zu erstellen, sind in Windeseile Ihre Notizen digitalisiert. (Wer nicht mag, dass OpenAI seine Daten speichert, kann bei der Modellauswahl in der oberen rechten Ecke auf „Provisorischer Chat“ drücken)