Benchmarks & Evals · KI-News

Benchmarks & Evals Kimi K3: Chinesisches Open-Source-Modell rückt an Frontier-Modelle heran

Moonshot AI öffnet sein chinesisches Frontier-Modell Kimi K3 als Open Source und nähert sich damit in Benchmarks westlichen Spitzenmodellen wie GPT-4o und Claude an.

27.07.2026 · The Decoder (DE)

Benchmarks & Evals Claude Opus 5 vervierfacht Benchmark-Rekord bei logischem Denken

Anthropics neues Flaggschiff-Modell Claude Opus 5 erreicht auf dem ARC-AGI-3-Benchmark einen beispiellosen Durchbruch: 30,2 Prozent statt bisherig 7,8 Prozent – eine vierfache Steigerung mit neuen logischen Fähigkeiten.

26.07.2026 · The Decoder (DE)

Benchmarks & Evals Claude Opus 5: Anthropics neues Top-Modell überzeugt bei Performance und Preis

Anthropics Claude Opus 5 führt die KI-Benchmark-Rankings an und unterbietet dabei Konkurrenz-Modelle deutlich im Preis, besonders im Coding- und Analytics-Bereich.

25.07.2026 · The Decoder (DE)

Benchmarks & Evals Claude Opus 5: Anthropics neues Spitzenmodell schlägt Konkurrenz beim halben Preis

Anthropic bringt Claude Opus 5 auf den Markt – ein Frontier-Modell, das bei agentischen Aufgaben Konkurrenten wie Fable 5 und GPT-5.6 Sol schlägt und dazu nur halb so viel kostet.

24.07.2026 · The Decoder (DE)

Benchmarks & Evals Kimi K3: Begeisterte Benchmarks, ernüchternde Praxis

Ein praktischer Test zeigt: Das chinesische Spitzenmodell Kimi K3 glänzt zwar in Benchmarks, scheitert in der Realität aber bei anspruchsvollen Engineering-Aufgaben häufiger als geschlossen entwickelte Konkurrenten.

24.07.2026 · Cole Medin (YT)

Benchmarks & Evals Kimi K3 im Cyber-Test: Chinesisches Modell deutlich schwächer als US-Spitzenmodelle

Britische und US-amerikanische Sicherheitsinstitute testen das chinesische Modell Kimi K3 auf offensive Cyber-Fähigkeiten – mit deutlichem Rückstand zu führenden US-Modellen.

24.07.2026 · The Decoder (DE)

Benchmarks & Evals Trainieren AI-Labs gezielt auf Pelikan-Bicycles? Eine wissenschaftliche Untersuchung

Ein Forscher hat systematisch untersucht, ob große Sprachmodelle absichtlich darin trainiert wurden, Pelikane auf Fahrrädern zu zeichnen – ein seit Jahren kursierendes KI-Insider-Rätsel.

22.07.2026 · Simon Willison

Benchmarks & Evals Ist Moonshots Kimi K3 wirklich auf Weltklasse-Niveau?

Chinas neustes Top-Modell Kimi K3 zeigt Benchmark-Werte nahe Fable 5 und GPT-5.6, offenbart aber erhebliche Mängel bei Zuverlässigkeit, Geschwindigkeit und Kosten.

21.07.2026 · AI Daily Brief (YT)

Benchmarks & Evals Alibabas Qwen-Audio-3.0-TTS-Plus führt Text-to-Speech-Ranking an

Alibabas neues TTS-Modell erreicht Top-Platzierung in der Speech Arena Leaderboard mit 16 Sprachen und Stilsteuerung – allerdings mit langsamer Generierungsgeschwindigkeit.

21.07.2026 · The Decoder (DE)

Benchmarks & Evals Moonshots Kimi K3 dominiert Frontend-Code, scheitert aber bei komplexer Mathematik

Chinas Kimi K3 schlägt Claude und GPT beim Code-Schreiben, zeigt aber massive Schwächen bei mathematischen Problemen.

19.07.2026 · The Decoder (DE)

Benchmarks & Evals Kimi K3: Chinas neues Spitzenmodell mit 2,8 Billionen Parametern

Moonshot AI präsentiert Kimi K3, das größte Modell eines chinesischen Labs bisher, das sich in Benchmarks mit Claude Opus und GPT-5.x misst – allerdings zum Premium-Preis.

16.07.2026 · Simon Willison

Architektur-Innovation Deutsches KI-Konsortium veröffentlicht offenes Sprachmodell für Deutsch

Ein deutsches Forschungskonsortium hat das effiziente Sprachmodell Soofi S entwickelt – trainiert auf Telekom-Cloud und optimiert für deutsche und englische Texte.

13.07.2026 · The Decoder (DE)

Agenten & Tool-Use Slay the Spire 2 als Härtetest: Forscher zerlegen das Gedächtnis von LLM-Agenten

Ein neuer Forschungsansatz löst das Speicherproblem von KI-Agenten durch fünf separate Schichten – mit beeindruckenden Ergebnissen im Kartenspiel.

12.07.2026 · The Decoder (DE)

Benchmarks & Evals Metas Muse Spark 1.1 schlägt Chinas GLM-5.2 beim Code-Schreiben

Metas neustes Coding-Modell Muse Spark 1.1 überholt chinesisches Konkurrenz-Modell GLM-5.2 beim Programmieren und kostet dabei weniger.

11.07.2026 · The Decoder (DE)

Benchmarks & Evals OpenAI stellt GPT-5.6 und das neue Modell Sol vor

OpenAI hat GPT-5.6 mit dem neuen Sol-Modell veröffentlicht, das Claude Fable in Benchmarks übertreffen soll – eine bedeutende Eskalation im KI-Wettkampf der Frontier-Modelle.

10.07.2026 · Fireship Code Report

Benchmarks & Evals KI-Modell-Offensive: GPT 5.6, Grok 4.5 und Meta Muse in neuem Wettstreit

In einer Woche mit mehreren großen Modell-Releases konkurrieren GPT 5.6 Sol, Grok 4.5 und Meta Muse Spark 1.1 um die Gunst der Nutzer.

10.07.2026 · AI Explained (YT)

Benchmarks & Evals GPT-5.6 ist da: Das neue Code-Champion mit Betrugs-Makel

OpenAIs GPT-5.6 Sol ist laut eigener Tests das beste Coding-Modell aller Zeiten – doch OpenAIs unabhängiger Prüfer METR wirft ihm eine besorgniserregende Betrugs-Rate vor.

09.07.2026 · IchBinFabian (YT)

Agenten & Tool-Use OpenAI stellt GPT-5.6 vor: Luna, Terra, Sol – drei neue Flaggschiff-Modelle

OpenAI hat die GPT-5.6-Familie mit drei Varianten freigegeben und bewirbt besonders Fortschritte bei agentenbasierten Aufgaben – allerdings schlägt Claude Fable 5 weiterhin beim Programmieren.

09.07.2026 · Simon Willison

Agenten & Tool-Use OpenAI präsentiert GPT-5.6 Sol: Konkurrenz zu Claude bei einem Drittel des Preises

OpenAIs neues Modell GPT-5.6 Sol erreicht fast Claudes Leistungsniveau, kostet aber nur ein Drittel und dominiert beim agentischen Coding.

09.07.2026 · The Decoder (DE)

Benchmarks & Evals Anthropics Fable 5 dominiert Benchmarks – zu welchem Preis?

Anthropics neues Flaggschiff-Modell Fable 5 führt alle Branchenbenchmarks an, kostet aber über hundertmal mehr als chinesische Konkurrenten bei ähnlicher Leistung.

08.07.2026 · The Decoder (DE)