Google hat DiffusionGemma vorgestellt, ein 26-Milliarden-Parameter-Modell, das einen radikal anderen Weg zur Textgenerierung einschlägt: statt Token für Token wie herkömmliche LLMs zu erzeugen, nutzt es Diffusion – ein Verfahren, das sonst bei Bild-KI eingesetzt wird. Das Modell generiert damit bis zu 1.000 Tokens pro Sekunde auf einer H100-GPU, etwa viermal schneller als vergleichbare autoregressive Modelle. Der Geschwindigkeitsvorteil geht allerdings mit niedrigerer Ausgabequalität einher, weshalb Google es zunächst als Experimentierwerkzeug für Entwickler positioniert. Das ist ein interessanter Forschungsansatz, der zeigt, dass die Community noch nach Alternativen zur dominierenden Auto-Regessions-Architektur sucht.