10 Artikel · 2026-05
Agenten & Tool-Use Große Gender-Lücke bei KI-Coding-Tools: Männer nutzen Agenten doppelt so häufig

Eine Anthropic-Studie zeigt: Forscher mit männlichen Namen verwenden Coding-Agenten wie Claude Code mehr als doppelt so oft wie Kolleginnen – auch bei gleicher Fachkompetenz.

31.05.2026 · The Decoder (DE)
Benchmarks & Evals KI-Suchagenten "googeln" oft nur, was sie ohnehin schon wissen

Führende KI-Suchagenten recherchieren auf etablierten Benchmarks kaum wirklich – sie bestätigen mit Websuche vor allem ihr bereits vorhandenes Trainings-Wissen.

31.05.2026 · The Decoder (DE)
Coding-Modelle Python-Apps direkt im Browser – mit Pyodide und Service Workers

Entwickler Simon Willison zeigt, wie man Python ASGI-Anwendungen vollständig im Browser via Pyodide und WebAssembly laufen lässt – mit Hilfe von Claude Opus als Coding-Partner.

30.05.2026 · Simon Willison
Frontier-Modelle Das hilfreiche KI-Dilemma: Nützlicher Training macht Chatbots weniger menschlich

Eine Großstudie mit über 200.000 Teilnehmern zeigt einen paradoxen Effekt: Genau das Training, das Sprachmodelle zu guten Assistenten macht, verschlechtert ihre Fähigkeit, menschliches Verhalten vorherzusagen.

30.05.2026 · The Decoder (DE)
Frontier-Modelle Terence Tao: KI revolutioniert Mathematik durch Arbeitsteilung

Der Fields-Medalist Terence Tao sieht KI-gestützte Teamarbeit statt Einzelgenies als Zukunft der mathematischen Forschung.

30.05.2026 · The Decoder (DE)
Agenten & Tool-Use Anthropic stellt Claude Opus 4.8 vor – mit verbesserter Ehrlichkeit und Multi-Agent-Workflows

Anthropic bringt Claude Opus 4.8 mit gestärkter Selbstverifizierung und Multi-Agent-Fähigkeiten, während sich die Leistung Benchmarks OpenAIs GPT-5.5 annähert.

30.05.2026 · AI Daily Brief (YT)
Frontier-Modelle Claude Opus 4.8 im Detail: 15 versteckte Features und Capabilities

Anthropics neues Flaggschiff-Modell ist da – doch vieles in den 244 Seiten der System Card und den Benchmarks dürfte Nutzer überraschen.

29.05.2026 · AI Explained (YT)
Agenten & Tool-Use Die unterschätzte Schicht: Warum Software-Infrastruktur der echte Engpass von KI-Agenten ist

Forscher argumentieren, dass nicht das Sprachmodell selbst, sondern die umgebende Infrastruktur-Schicht (Tools, Speicher, Kontrollen) entscheidend für autonome KI-Agenten ist – ein Paradigmenwechsel, den auch DeepSeek mit einem neuen "Harness"-Team umsetzt.

29.05.2026 · The Decoder (DE)
Frontier-Modelle OpenAI veröffentlicht Leitfaden für unabhängige KI-Evaluationen

OpenAI gibt Richtlinien für externe Bewertungen von KI-Modellen ab – mit Fokus auf aussagekräftige Sicherheitstests bei Frontier-Systemen.

29.05.2026 · OpenAI Blog
Dev-Tools Monty: Pydantic untersucht die sichere Python-Sandbox

Simon Willison hat mit Claude die neueste Version von Monty analysiert – einer in Rust implementierten sandboxed Python-Umgebung mit strikten Ressourcenlimits.

22.05.2026 · Simon Willison