KI-Glossar ·LLM

Multimodal

Auch: Multimodalität, Vision

Multimodal nennt man ein Modell, das mehrere Eingabearten verarbeitet — neben Text etwa Bilder, Audio oder Video.

Fähigkeiten

Ein multimodales Modell kann etwa ein Bild beschreiben, Fragen zu einem Foto beantworten, aus Text ein Bild erzeugen oder gesprochene Sprache verstehen. Die verschiedenen Eingaben werden in eine gemeinsame Darstellung übersetzt, mit der das Modell rechnet.

Bedeutung

Die Welt ist nicht nur Text. Multimodale Modelle öffnen Anwendungen von der Dokumentanalyse mit Screenshots bis zur Bildbeschreibung für Sehbehinderte — und sind ein Schritt hin zu Assistenten, die ihre Umgebung umfassender erfassen.

Im Netz verbunden

setzt voraus

LLM

nutzt

Computer Vision

Im Wissensnetz ansehen