12 Artikel · 2026-06
Agenten & Tool-Use Apples neue Siri AI: Gemini-Modelle auf Private Cloud Compute

Apple zeigt auf der WWDC 2026 ein überarbeitetes Siri mit lizenzierten Gemini-Modellen, Vision-LLMs für Screen-Verständnis und eine neue Core AI Library für Entwickler – doch die Skepsis nach 2024 bleibt.

08.06.2026 · Simon Willison
Frontier-Modelle Microsoft Research: Effizientes Text-zu-Bild-Modell mit deutlich weniger Parametern

Lens schlägt größere Konkurrenten mit einem Fünftel des Trainingsaufwands – Erfolgsgeheimnis sind hochwertige GPT-4-generierte Bildtexte statt vager Web-Daten.

08.06.2026 · The Decoder (DE)
Dev-Tools NVIDIA Nemotron 3.5 ASR – Spracherkennung mit Live-Streaming und Speaker-Diarization

NVIDIAs neues Spracherkennungs-Modell Nemotron 3.5 ASR unterstützt multilinguales Live-Streaming, Word Boosting und automatische Sprechererkennung.

07.06.2026 · Sam Witteveen (YT)
Frontier-Modelle Audio-Interaction: Sprachmodell hört kontinuierlich zu und antwortet in Echtzeit

Ein neues Modell verarbeitet Sprache vollständig im Stream und entscheidet alle 0,4 Sekunden autonom, ob es antworten soll – ohne auf Sprechpausen zu warten.

06.06.2026 · The Decoder (DE)
Agenten & Tool-Use Alibabas Qwen3.7-Plus: Multimodaler Agent programmiert eigenständig Apps

Alibabas neues Frontier-Modell Qwen3.7-Plus verbindet visuelle Wahrnehmung, Bildschirmbedienung und Code-Generierung in einem agentengestützten System und baute in einer Demo autonom eine App mit über 10.000 Zeilen Code.

06.06.2026 · The Decoder (DE)
Enterprise Nvidia Nemotron 3.5: Anpassbare Sicherheit für Enterprise-KI

Nvidia stellt ein neues Sicherheitsmodell für multimodale KI-Systeme vor, das Unternehmen weltweit an ihre Anforderungen anpassen können.

04.06.2026 · HuggingFace Blog
Frontier-Modelle xAIs Grok Imagine Video 1.5: Von Standbildern zu filmischen Videos

xAI veröffentlicht ein Bild-zu-Video-Modell, das Standbilder per Text in filmische 720p-Videos verwandelt und verkettbar macht.

04.06.2026 · The Decoder (DE)
Frontier-Modelle Googles Gemma 4 12B: Multimodale KI für den Laptop

Google DeepMind veröffentlicht ein Open-Source-Modell mit Text-, Bild- und Audio-Verarbeitung, das auf handelsüblichen Laptops mit 16 GB RAM läuft.

03.06.2026 · The Decoder (DE)
Benchmarks & Evals Ideogram 4.0: Neues Open-Weight-Bildmodell mit nativer 2K-Auflösung

Ideogram veröffentlicht sein Text-zu-Bild-Modell 4.0 als Open-Weight-Modell mit 2K-Auflösung und präziser Textdarstellung – führend unter offenen Systemen.

03.06.2026 · The Decoder (DE)
Frontier-Modelle GPT-Rosalind: Neue Fähigkeiten für die Biowissenschaften

OpenAI erweitert GPT-Rosalind um spezialisierte Fähigkeiten für biologische Forschung, Medikamentenchemie und Genomik.

03.06.2026 · OpenAI Blog
Frontier-Modelle Cosmos 3: NVIDIAs omnimodales Weltmodell für physikalische KI

NVIDIA stellt Cosmos 3 vor – ein Foundation Model, das fünf verschiedene Eingabe- und Ausgabeformate verarbeitet und generiert.

01.06.2026 · Sam Witteveen (YT)
Architektur-Innovation MiniMax M3: Open-Weight-Modell mit einer Million Token Kontext und Coding-Fähigkeiten

Das chinesische Unternehmen MiniMax stellt M3 vor – ein offenes Modell, das Coding-Leistungen auf Spitzenniveau mit massivem Kontextfenster, Multimodalität und deutlich besserer Effizienz kombiniert.

01.06.2026 · The Decoder (DE)