Multimodal · KI-News

Frontier-Modelle Gemini 3.1 Flash Lite Image: Googles schnellstes und günstigstes Bildgenerator-Modell

Google hat Gemini 3.1 Flash Lite Image veröffentlicht – ein optimiertes Bildgenerator-Modell, das für Geschwindigkeit und Skalierbarkeit ausgelegt ist.

30.06.2026 · Simon Willison

Frontier-Modelle Google startet schnellstes Bildmodell Nano Banana 2 Lite und Videogenerierung mit Gemini Omni Flash

Google veröffentlicht zwei neue Modelle: Nano Banana 2 Lite generiert Bilder in vier Sekunden für 0,034 Dollar pro Bild, Gemini Omni Flash bringt Videogenerierung erstmals in die API.

30.06.2026 · The Decoder (DE)

Frontier-Modelle Gemini Omni Flash jetzt über API nutzbar

Googles neues Spitzenmodell Gemini Omni Flash ist über eine API verfügbar und ermöglicht Entwicklern die Integration von Video-Verarbeitungs- und Conversational-Fähigkeiten in ihre Anwendungen.

30.06.2026 · Sam Witteveen (YT)

Frontier-Modelle Gemini Omni Flash: Googles neues Videoverarbeitungs-Modell mit Echtzeit-Editing

Google stellt Gemini Omni Flash vor – ein Video-Modell, das Echtzeit-Konversation und interaktives Video-Editing in einem ermöglicht.

30.06.2026 · Sam Witteveen (YT)

Dev-Tools Seedance 2.0: KI-Videogenerierung jetzt in nativem 4K

Das neue Video-KI-Tool Seedance 2.0 erzeugt native 4K-Videos ohne Hochskalierung – ein praktisches Tutorial zeigt, wie man dabei Kosten spart.

26.06.2026 · Julian Ivanov (YT)

Agenten & Tool-Use Qwen: Chinesisches Frontier-Modell wagt sich in die Robotik

Das Frontier-Modell Qwen integriert embodied-AI-Fähigkeiten und erweitert damit seinen Einsatzbereich deutlich.

25.06.2026 · The Sequence

Frontier-Modelle ByteDance präsentiert Sora-Konkurrenz: Seedance 2.5 generiert Videos bis 30 Sekunden

ByteDance stellt sein verbessertes Videomodell Seedance 2.5 vor, das Videos von bis zu 30 Sekunden Länge erzeugen kann – ein Meilenstein im Wettbewerb um Text-to-Video-KI.

23.06.2026 · The Decoder (DE)

Enterprise Google DeepMind investiert 75 Millionen Dollar in Filmstudio A24

Google DeepMind gründet eine langfristige Forschungspartnerschaft mit dem Filmstudio A24 und investiert knapp 75 Millionen Dollar in das Unternehmen.

22.06.2026 · The Decoder (DE)

Frontier-Modelle ChatGPT antwortet auf Gesundheitsfragen jetzt besser als Ärzte – OpenAI zeigt neue Fähigkeiten von GPT-5.5 Instant

OpenAI macht mit GPT-5.5 Instant grosse Fortschritte bei medizinischen Fragen und behauptet, dass ChatGPT Ärzte beim Thema Genauigkeit und Verständlichkeit übertrifft – mit einer um 71 Prozent gesunkenen Fehlerrate.

18.06.2026 · The Decoder (DE)

Dev-Tools Gemma 4 12B: Googles neues multimodales Lokal-Modell im Praxistest

Google Gemma 4 12B versteht Text, Bilder und Audio – läuft kostenlos offline auf dem eigenen Rechner und wird von der Community gefeiert.

17.06.2026 · IchBinFabian (YT)

Architektur-Innovation MolmoMotion: Sprachgesteuerte 3D-Bewegungsvorhersage

Ein neues Modell kombiniert Sprachverständnis mit 3D-Bewegungsvorhersage und kann komplexe menschliche Bewegungen aus natürlichsprachlichen Beschreibungen vorhersagen.

17.06.2026 · HuggingFace Blog

Architektur-Innovation Mirage: Wie Video-KI räumliches Langzeitgedächtnis bekommt

Microsoft-Forschung zeigt, wie Video-Modelle räumliche Szenen im latenten Raum speichern können – effizienter und stabiler als bisherige Ansätze.

14.06.2026 · The Decoder (DE)

Frontier-Modelle «Count Anything»: KI-Modell zählt Objekte in Bildern halb so fehlerhaft

Ein neues KI-Modell kann per Texteingabe Objekte in beliebigen Bildern zählen – von Menschenmengen bis zu Zellen – und halbiert dabei die Fehlerrate bestehender Systeme.

13.06.2026 · The Decoder (DE)

Dev-Tools OpenAI WebRTC mit Dokumentkontext: Voice-Chats im Browser über eigene Daten

Ein experimentelles Web-Tool ermöglicht Sprachkonversationen mit OpenAIs neuem GPT-Realtime-2-Modell – jetzt auch mit der Möglichkeit, Dokumente hochzuladen und darüber zu sprechen.

12.06.2026 · Simon Willison

Dev-Tools HeyGen: KI-Videogenerator mit digitalen Avataren und Echtzeit-Übersetzung

HeyGen ermöglicht es Kreativen, aus kurzen Clips digitale Avatar-Zwillinge zu erstellen und Videos in über 175 Sprachen zu übersetzen – ohne jeden Take neu zu filmen.

12.06.2026 · Wes Roth (YT)

Dev-Tools Preply setzt auf KI-Tutoren: Persönalisiertes Lernen mit OpenAI

Die Lernplattform Preply nutzt OpenAI, um automatisch Zusammenfassungen zu generieren und personalisiertes Feedback im Sprachenunterricht zu geben.

12.06.2026 · OpenAI Blog

Frontier-Modelle Higgsfield Supercomputer: Nächste Generation der KI-Videogenerierung

Ein neues Video-Generierungs-Tool namens Higgsfield Supercomputer soll den Stand der Technik weiterbringen – Test und Details in einer neuen Demo.

10.06.2026 · Matthew Berman (YT)

Agenten & Tool-Use Können Voice Agents mit zweisprachigen Kunden umgehen? Benchmark für Spracherkennung mit Code-Switching

Neue Benchmark-Studie prüft, wie gut moderne ASR-Systeme mit gemischten Sprachen in realen Kundenkommunikationen zurechtkommen.

09.06.2026 · HuggingFace Blog

Frontier-Modelle Google stellt Echtzeit-Sprachübersetzung mit Gemini 3.5 vor

Googles neues Audio-Modell Gemini 3.5 Live Translate übersetzt Sprache in Echtzeit in über 70 Sprachen und bewahrt dabei Tonfall, Tempo und Stimmeigenschaften.

09.06.2026 · The Decoder (DE)

Agenten & Tool-Use Apples neue Siri AI: Gemini-Modelle auf Private Cloud Compute

Apple zeigt auf der WWDC 2026 ein überarbeitetes Siri mit lizenzierten Gemini-Modellen, Vision-LLMs für Screen-Verständnis und eine neue Core AI Library für Entwickler – doch die Skepsis nach 2024 bleibt.

08.06.2026 · Simon Willison