Übersicht
Benchmarks für Multi-Agenten-Systeme (MAS) messen die Fähigkeit von Gruppen autonomer Agenten, komplexe Aufgaben kollaborativ zu lösen. Im Fokus stehen dabei Emergenz-Phänomene, Skalierungseffekte und praktische Koordinationsprobleme in wachsenden Agent-Ökosystemen.
Kollektive Intelligenz und Emergenz
Ein zentrales Forschungsthema ist, ob und wann große Agent-Gesellschaften emergente kollektive Intelligenz entwickeln – also Fähigkeiten, die einzelne Agenten nicht aufweisen.
Superminds Test
Der Superminds Test ist ein hierarchisches Evaluations-Framework zur Messung kollektiver Intelligenz mit drei Leistungsebenen:
- Basic Interaction: Einfache Agent-zu-Agent-Kommunikation
- Information Synthesis: Aggregation und Verarbeitung verteilter Informationen
- Joint Reasoning: Koordinierte Problemlösung über Agenten hinweg
Eine 2026 veröffentlichte Studie mit über zwei Millionen Agenten auf der MoltBook-Plattform zeigte überraschend, dass eine Agent-Gesellschaft in standardisierten Tests nicht besser performt als einzelne Top-Agenten. Dieses Ergebnis hinterfragt bisherige Annahmen über automatische Skalierungseffekte und deutet darauf hin, dass Koordination und Information Synthesis komplexer sind als erwartet.
Kernfinding: Reine Skalierung führt nicht automatisch zu besserer Leistung. Kooperationsmechanismen müssen explizit designt und getestet werden. Emergenz ist nicht garantiert, sondern ein Resultat gezielter Koordinationsarchitektur.
Agent-Auffindung und Komposition
Mit wachsendem Agent-Ökosystem entsteht ein neues Evaluierungsproblem: die Agent-Suche in realen Umgebungen. Agenten-Fähigkeiten sind oft kompositorisch und ausführungsabhängig – sie lassen sich nicht einfach aus Textbeschreibungen erkennen.
AgentSearchBench
AgentSearchBench (2026) formalisiert Agent-Suche als Retrieval-Problem und bietet einen großflächigen Benchmark mit knapp 10.000 realen Agenten von mehreren Providern. Der Test adressiert ein praktisches Problem: Wie findet man den richtigen Agenten für eine gegebene Aufgabe in einem heterogenen Ökosystem?
Die zentrale Erkenntnis: Agent-Fähigkeiten sind oft nicht statisch beschreibbar, sondern nur durch tatsächliche Ausführung oder kompositorische Tests erkennbar. Traditionelle Retrieval-Methoden (Textsuche über Beschreibungen) reichen daher nicht aus.
Dies ist zentral für die Automatisierung von Agent-Komposition und Agent-Orchestrierung in skalierten MAS-Szenarien.
Implikationen für Systementwicklung
- Reine Skalierung führt nicht automatisch zu besserer Leistung; Emergenz ist nicht garantiert
- Kooperationsmechanismen müssen explizit designt und getestet werden
- Benchmarks sollten gezielt Emergenz-Eigenschaften (vs. Einzelagenten-Performance) messen
- Agent-Suche und Komposition erfordern spezialisierte Benchmarks, da statische Fähigkeitsbeschreibungen nicht ausreichen
- Praktische MAS-Systeme benötigen Lösungen für die Agenten-Auffindung bei großen, heterogenen Agent-Pools
- Ausführungsabhängige Fähigkeitsbewertung wird relevanter als Selbst-Deklarationen
Quellen
- Superminds Test: Messung kollektiver Intelligenz in Agent-Gesellschaften — arXiv cs.AI, 2026-04-27
- AgentSearchBench: Benchmark für Agent-Auffindung in realen Szenarien — arXiv cs.AI, 2026-04-27