9 Artikel
Architektur-Innovation Warum große Sprachmodelle seltene Aufgaben lernen und kleine nicht

Eine neue Studie erklärt, warum kleine Sprachmodelle an seltenen Aufgaben scheitern: Häufige Tasks überschreiben das Gelernte – und wie man das ohne Modell-Vergrößerung lösen kann.

07.06.2026 · The Decoder (DE)
Agenten & Tool-Use Fünf Labs, fünf Köpfe: Ein Finance-Drama mit kleinen Modellen

Ein Experiment, wie mehrere kleinere KI-Modelle zusammen komplexe Finanzszenarien bewältigen können – mit Fokus auf Multi-Agent-Systeme und Kooperationsmuster.

06.06.2026 · HuggingFace Blog
Agenten & Tool-Use Thousand Token Wood: Multi-Agent-Ökonomie auf 3-Milliarden-Parameter-Modell

Ein Forschungsprojekt demonstriert, wie ein kompaktes 3B-Sprachmodell ein komplexes Multi-Agent-System mit eigener Ökonomie und emergenten Verhaltensweisen betreiben kann.

05.06.2026 · HuggingFace Blog
Agenten & Tool-Use NVIDIA Nemotron 3 Ultra: 550B-Modell mit Agenten-Fokus

NVIDIA veröffentlicht das Open-Source-Sprachmodell Nemotron 3 Ultra mit 550 Milliarden Parametern und spezieller Optimierung für KI-Agenten.

04.06.2026 · Sam Witteveen (YT)
Architektur-Innovation Mit Axiom Math über Intuitive KI hinaus: Verifizierte Generierung im Fokus

Carina Hong präsentiert KI-Ansätze jenseits informaler Methoden mit Schwerpunkt auf verifizierten Outputs und iterativer Intelligenz.

03.06.2026 · Latent Space
Architektur-Innovation Direct Preference Optimization jenseits von Chatbots

Neue Forschung erweitert die DPO-Methode zur KI-Ausrichtung über Sprachmodelle hinaus auf andere Aufgaben und Modellklassen.

03.06.2026 · HuggingFace Blog
Architektur-Innovation Liquid Models: Die Suche nach einer Post-Transformer-Architektur

Eine Analyse einer der vielversprechendsten Alternativen zu Transformer-Architekturen.

02.06.2026 · The Sequence
Architektur-Innovation MiniMax M3: Open-Weight-Modell mit einer Million Token Kontext und Coding-Fähigkeiten

Das chinesische Unternehmen MiniMax stellt M3 vor – ein offenes Modell, das Coding-Leistungen auf Spitzenniveau mit massivem Kontextfenster, Multimodalität und deutlich besserer Effizienz kombiniert.

01.06.2026 · The Decoder (DE)
Agenten & Tool-Use Die unterschätzte Schicht: Warum Software-Infrastruktur der echte Engpass von KI-Agenten ist

Forscher argumentieren, dass nicht das Sprachmodell selbst, sondern die umgebende Infrastruktur-Schicht (Tools, Speicher, Kontrollen) entscheidend für autonome KI-Agenten ist – ein Paradigmenwechsel, den auch DeepSeek mit einem neuen "Harness"-Team umsetzt.

29.05.2026 · The Decoder (DE)