KI News der Woche: Benchmarks, Pannen und gefundene Lücken

Hinweis: Dieser Artikel ist eine Zusammenfassung der aktuellen Folge der Sendung „KI News" vom developers club mit Steve Haupt und Gastgeber. Alle Inhalte, Einordnungen und Beispiele stammen aus der Sendung — die Verdienste gehören den Autoren. Originalvideo: youtube.com/watch?v=iIrGUBb5Hhs.

Eine ruhigere Woche ohne ganz große Releases — dafür mit einigen sehr lehrreichen Geschichten aus dem Agenten-Alltag.

ProgramBench: 0 % für alle

Das Team hinter SWE-Bench hat einen neuen Benchmark veröffentlicht. 200 existierende Programme müssen von KI-Agenten ohne Internetzugang von Grund auf nachgebaut werden — nur mit Dokumentation und Binary als Referenz. Das Ergebnis: alle Modelle landen bei 0 %, weil schon kleinste Verhaltensabweichungen zum Fehlschlag führen.

Schaut man auf die Heatmap der Einzelaufgaben, sieht das Bild differenzierter aus: Manche Programme werden zu über 90 % korrekt nachgebaut, andere überhaupt nicht. Claude Opus 4.7 führt das Leaderboard an und erreicht gleichzeitig die niedrigsten Kosten pro Task — Intelligenz zahlt sich offenbar auch monetär aus.

GPT-5.5 Instant: Schub für die Free-Tier-Nutzer

OpenAI hat GPT-5.5 Instant veröffentlicht — das neue Standardmodell für kostenlose ChatGPT-Nutzer. Es ersetzt GPT-5.3 Instant und ist deutlich besser, ohne dabei teurer zu sein. Der Trick: weniger Reasoning-Tokens. Ein Router entscheidet, wann das Modell wirklich nachdenken muss und wann eine direkte Antwort reicht.

Über die API ist das Modell als chat-latest verfügbar (5 $ Input / 30 $ Output pro Mio. Tokens). Da rund 96 % der ChatGPT-Nutzer im kostenlosen Plan sind, ist das ein erhebliches Upgrade für die breite Masse.

PocketOS: Wenn der Agent die Produktionsdatenbank löscht

Eine Geschichte mit echten Konsequenzen: PocketOS, ein Anbieter von Software für Mietauto-Unternehmen, hat öffentlich gemacht, wie ein KI-Agent ihre Produktionsdatenbank gelöscht hat. Der Agent arbeitete in Cursor (mit Opus 4.6) an einem Authentication-Problem, fand einen Railway-API-Key und entschied, eine vermeintliche Staging-Umgebung zu löschen — es war Production.

Drei Probleme kamen zusammen:

Der API-Key konnte nicht nur erstellen, sondern auch löschen
Die Backups lagen auf demselben Volume — also auch weg
Der System-Prompt-Guard für „Destructive Operations require Confirmation" wurde vom Agenten ignoriert

Das älteste verfügbare Backup war drei Monate alt. Filialen hatten plötzlich keine Buchungsdaten mehr. Lehre: Guardrails im Prompt reichen nicht — kritische Aktionen müssen physisch abgesichert sein, und Backups gehören niemals auf dasselbe Volume wie die Produktionsdaten.

copy.fail: KI findet kritische Linux-Lücke

Eine Sicherheitsfirma hat einen KI-Agenten eine Stunde lang auf verdächtige Linux-Kernel-Module angesetzt. Das Ergebnis: copy.fail, eine Privilege-Escalation-Lücke, die alle Linux-Distributionen betrifft. Ein lokaler Benutzer ohne Root-Rechte kann mit nur vier Bytes Root werden.

Das Vorgehen ist bemerkenswert: Die Forscher hatten den Verdacht, dass mehrere für sich genommen harmlose Änderungen in Kombination problematisch sein könnten — und stießen den Agenten in diese Richtung. Der Rest war Fleißarbeit. Passend dazu die Analogie aus dem Video: Software ist gerade wie ein prächtig gefüllter Apfelbaum nach Jahrzehnten angesammelter Bugs — und KI macht das Pflücken plötzlich trivial.

Anthropic Project Deal: Agenten verhandeln untereinander

Ein internes Experiment von Anthropic: Rund 70 Mitarbeiter wurden von KI-Agenten zu Kaufwünschen und Verkaufsangeboten interviewt (Budget je 100 $). Anschließend handelten die Agenten eigenständig untereinander aus, was wo gekauft, getauscht oder verkauft werden sollte. Am Ende trafen sich die Menschen physisch zum Austausch.

Bewertung im Schnitt: fair für beide Seiten. Über die Hälfte der Teilnehmer würde für so einen Service zahlen. Spannend ist die Richtung: Während ChatGPT heute schon Produkte recherchieren kann, geht es hier um den automatisierten Handel selbst — inklusive Preisverhandlung. Modellunterschiede sind übrigens deutlich messbar: Ein Haiku verhandelt anders als ein Opus.

Quellen

Originalsendung: „KI News" vom developers club — Folge auf YouTube mit Steve Haupt (andrena objects).

Im Video erwähnte Quellen:

ProgramBench: programbench.com
GPT-5.5 Instant: openai.com/index/gpt-5-5-instant · System Card
PocketOS Vorfall: Original-Thread auf X
copy.fail: copy.fail · Analyse bei xint.io
OpenAI Cybersecurity Action Plan: PDF
Anthropic Project Deal: anthropic.com/features/project-deal

KI News der Woche: Benchmarks, Pannen und gefundene Lücken (developers club YT channel)