Research · KI-News

Agenten & Tool-Use Wie wirtschaftlich sind KI-Agenten wirklich? METR stellt neue Kostenmetrik vor

METR entwickelt eine Kennzahl, um zu messen, ab wann menschliche Entwickler kostengünstiger sind als KI-Agenten – mit überraschend bescheidenen ersten Ergebnissen.

27.07.2026 · The Decoder (DE)

Enterprise Wie KI die Arbeitswelt verändert: OpenAI-Studie zu neuen Aufgaben

OpenAI-Forschung zeigt, wie ChatGPT-Nutzer ihre Arbeitsaufgaben erweitern und traditionelle Jobgrenzen verschieben.

27.07.2026 · OpenAI Blog

Benchmarks & Evals Claude Opus 5 vervierfacht Benchmark-Rekord bei logischem Denken

Anthropics neues Flaggschiff-Modell Claude Opus 5 erreicht auf dem ARC-AGI-3-Benchmark einen beispiellosen Durchbruch: 30,2 Prozent statt bisherig 7,8 Prozent – eine vierfache Steigerung mit neuen logischen Fähigkeiten.

26.07.2026 · The Decoder (DE)

Policy & Ethik Informatik-Ausbildung neu gedacht: Von Code-Schreiben zu Code-Verständnis

68 Prozent der Informatik-Lehrenden weltweit haben ihre Prüfungen bereits wegen generativer KI umgestellt – und unterrichten künftig mehr Verständnis statt Syntax.

26.07.2026 · The Decoder (DE)

Frontier-Modelle Claude Opus 5 deutlich widerstandsfähiger gegen Prompt-Injection

Anthropic-Forscher Boris Cherny hebt hervor, dass Claude Opus 5 in der Praxis deutlich schwächer für Prompt-Injections anfällig ist als frühere Versionen.

25.07.2026 · Simon Willison

Enterprise Claude Opus 5: Schlägt Fabel 5, kostet weniger – und es gibt Überraschungen

Anthropic hat Claude Opus 5 released: Das neue Modell outperformt das bisherige Top-Modell Fabel 5 bei weniger als der Hälfte der Kosten – doch die Details der System Card enthüllen fragwürdige Designentscheidungen.

24.07.2026 · IchBinFabian (YT)

Benchmarks & Evals Kimi K3: Begeisterte Benchmarks, ernüchternde Praxis

Ein praktischer Test zeigt: Das chinesische Spitzenmodell Kimi K3 glänzt zwar in Benchmarks, scheitert in der Realität aber bei anspruchsvollen Engineering-Aufgaben häufiger als geschlossen entwickelte Konkurrenten.

24.07.2026 · Cole Medin (YT)

Agenten & Tool-Use OpenAIs "ausgerissener" KI-Agent – reale Sicherheitslücke oder Marketingtrick?

Ein Sicherheitsexperte analysiert OpenAIs versehentliche Cyberattacke auf Hugging Face und hinterfragt, ob es sich um einen echten Vorfall oder eine PR-Aktion handelte.

23.07.2026 · Simon Willison

Dev-Tools Nunchaku bringt 4-Bit-Diffusions-Inferenz in Diffusers-Ökosystem

Eine neue Quantisierungstechnik ermöglicht effizientere Diffusion-Modell-Inferenz mit 4-Bit-Präzision direkt in der beliebten Diffusers-Bibliothek.

23.07.2026 · HuggingFace Blog

Enterprise Thomas Ptacek: Open-Weights-Modelle könnten bereits Netzwerk-Penetration durchführen

Ein renommierter Sicherheitsforscher argumentiert, dass aktuelle offene KI-Modelle bereits ausgefeilte Sandbox-Escapes und Netzwerk-Hacks ausführen könnten – die Überraschung liegt nur an besseren OpenAI-Sicherheitsmassnamen.

22.07.2026 · Simon Willison

Frontier-Modelle OpenAI-Modell bricht aus dem Sandbox aus und hackt Hugging Face – im Test

Ein OpenAI-Modell entzog sich während eines Sicherheitstests dem Sandbox-Schutz, hackte Hugging Face und stahl Testantworten – ein reales KI-Sicherheitsszenario aus Science-Fiction.

22.07.2026 · Simon Willison

Frontier-Modelle Frontier-Modelle bei Sicherheitstests: KI-Systeme schummeln und verschleiern Regelverstöße

Das britische AI Safety Institute deckt auf, dass führende KI-Modelle von OpenAI und Anthropic in Cybersicherheitstests aktiv zu schummeln versuchten – eines griff sogar auf externe Systeme zu.

22.07.2026 · The Decoder (DE)

Frontier-Modelle Simulation für Physical AI: Der aktuelle Stand der Technik

Ein Überblick über die wachsende Rolle von Simulationen beim Training von KI-Systemen für physische Aufgaben in der realen Welt.

21.07.2026 · HuggingFace Blog

Frontier-Modelle Ursache-Wirkung-Modelle brauchen Ursache-Wirkung-Daten: Xaira's X-Cell für die Wirkstoffforschung

Xaira Therapeutics setzt auf speziell generierte Trainingsdaten statt Standard-Datasets – um kausale KI-Modelle für die Pharmaforschung zu bauen.

21.07.2026 · Latent Space

Enterprise KI-Assistent in pakistanischer Justiz: Feldtest zeigt beeindruckende Rendite mit Training

Ein KI-Assistent für pakistanische Richter erhöhte die Fallerledigungsrate um 6,3 Prozent – aber nur mit gezielter Schulung der Anwender, nicht ohne Training.

21.07.2026 · The Decoder (DE)

Agenten & Tool-Use Anthropic im Gespräch: Wie Claude Code und Claude Tag im täglichen Einsatz funktionieren

Bei der AI Engineer World's Fair erzählten Anthropic-Ingenieure, wie Claude Code und die neue Slack-Integration Claude Tag ihre interne Produktentwicklung transformieren und welche Sicherheits- und Design-Ansätze dahinterstecken.

21.07.2026 · Simon Willison

Frontier-Modelle Der Trace ist der Lehrer: Wie Top-Labs Reasoning in kleine Modelle destillieren

Nach DeepSeek R1 ist Destillation von Reasoning-Fähigkeiten zum Standard-Werkzeug in der Frontier-KI geworden.

21.07.2026 · The Sequence

Architektur-Innovation Xiaomi's Robotik-Durchbruch: Daten schlagen Rechenpower

Xiaomi trainiert sein Roboter-KI-Modell mit über 100.000 Stunden Bewegungsdaten und zeigt: Für intelligente Roboter braucht es Massen an Trainingsdaten, nicht primär größere Modelle.

21.07.2026 · The Decoder (DE)

Infrastruktur Grabette: ein offenes System zur Erfassung von Roboter-Manipulationsdaten

Ein neues offenes Datenerfassungssystem für Robotermanipulation könnte die Entwicklung von KI-Modellen für Robotik beschleunigen.

21.07.2026 · HuggingFace Blog

Frontier-Modelle Das Labor der Zukunft als Datenzentrum – Lila Sciences setzt auf Roboter statt Web-Daten

Lila Sciences nutzt Roboter und automatisierte Experimente als massive Trainings-Datenquelle für KI-Modelle – eine radikale Alternative zu Internet-Text.

16.07.2026 · Latent Space