Microsoft Research: Effizientes Text-zu-Bild-Modell mit deutlich weniger Parametern

Microsoft Research zeigt mit Lens, wie sich Bildmodelle effizienter trainieren lassen
6/10 The Decoder (DE) 08.06.2026 Frontier-Modelle Infrastruktur Multimodal Open Source Research

Microsoft Research präsentiert Lens, ein Text-zu-Bild-Modell mit nur 3,8 Milliarden Parametern, das deutlich größere Modelle mit 80 Milliarden Parametern in Benchmarks schlägt – bei nur einem Fünftel des Trainingsaufwands. Der Schlüssel liegt in 800 Millionen detaillierten, von GPT-4 generierten Bildunterschriften anstatt vager Web-Alt-Texte. Das zeigt, dass die Datenqualität mindestens so wichtig ist wie die Modellgröße. Code und vortrainierte Gewichte sind unter MIT-Lizenz offen verfügbar.

Zum Originalartikel