KI-Glossar ·Llm

Multimodal

Auch: Multimodalität, Vision

Multimodal heißt: Ein Modell verarbeitet mehrere Eingabearten — nicht nur Text, sondern auch Bilder, Audio oder Video.

Was es kann

Ein multimodales Modell kann etwa ein Bild beschreiben, Fragen zu einem Foto beantworten, aus Text ein Bild erzeugen oder gesprochene Sprache verstehen. Die verschiedenen Eingaben werden in eine gemeinsame Darstellung übersetzt, mit der das Modell rechnet.

Warum es zählt

Die Welt ist nicht nur Text. Multimodale Modelle öffnen Anwendungen von der Dokumentanalyse mit Screenshots bis zur Bildbeschreibung für Sehbehinderte — und sind ein Schritt hin zu Assistenten, die ihre Umgebung umfassender erfassen.

Im Wissensnetz ansehen