Microsoft Research präsentiert Lens, ein Text-zu-Bild-Modell mit nur 3,8 Milliarden Parametern, das deutlich größere Modelle mit 80 Milliarden Parametern in Benchmarks schlägt – bei nur einem Fünftel des Trainingsaufwands. Der Schlüssel liegt in 800 Millionen detaillierten, von GPT-4 generierten Bildunterschriften anstatt vager Web-Alt-Texte. Das zeigt, dass die Datenqualität mindestens so wichtig ist wie die Modellgröße. Code und vortrainierte Gewichte sind unter MIT-Lizenz offen verfügbar.