Benchmarks für Multi-Agenten-Systeme

Übersicht

Benchmarks für Multi-Agenten-Systeme (MAS) messen die Fähigkeit von Gruppen autonomer Agenten, komplexe Aufgaben kollaborativ zu lösen. Im Fokus stehen dabei Emergenz-Phänomene, Skalierungseffekte und praktische Koordinationsprobleme in wachsenden Agent-Ökosystemen.

Kollektive Intelligenz und Emergenz

Ein zentrales Forschungsthema ist, ob und wann große Agent-Gesellschaften emergente kollektive Intelligenz entwickeln – also Fähigkeiten, die einzelne Agenten nicht aufweisen.

Superminds Test

Der Superminds Test ist ein hierarchisches Evaluations-Framework zur Messung kollektiver Intelligenz mit drei Leistungsebenen:

  • Basic Interaction: Einfache Agent-zu-Agent-Kommunikation
  • Information Synthesis: Aggregation und Verarbeitung verteilter Informationen
  • Joint Reasoning: Koordinierte Problemlösung über Agenten hinweg

Eine 2026 veröffentlichte Studie mit über zwei Millionen Agenten auf der MoltBook-Plattform zeigte überraschend, dass eine Agent-Gesellschaft in standardisierten Tests nicht besser performt als einzelne Top-Agenten. Dieses Ergebnis hinterfragt bisherige Annahmen über automatische Skalierungseffekte und deutet darauf hin, dass Koordination und Information Synthesis komplexer sind als erwartet.

Kernfinding: Reine Skalierung führt nicht automatisch zu besserer Leistung. Kooperationsmechanismen müssen explizit designt und getestet werden. Emergenz ist nicht garantiert, sondern ein Resultat gezielter Koordinationsarchitektur.

Agent-Auffindung und Komposition

Mit wachsendem Agent-Ökosystem entsteht ein neues Evaluierungsproblem: die Agent-Suche in realen Umgebungen. Agenten-Fähigkeiten sind oft kompositorisch und ausführungsabhängig – sie lassen sich nicht einfach aus Textbeschreibungen erkennen.

AgentSearchBench

AgentSearchBench (2026) formalisiert Agent-Suche als Retrieval-Problem und bietet einen großflächigen Benchmark mit knapp 10.000 realen Agenten von mehreren Providern. Der Test adressiert ein praktisches Problem: Wie findet man den richtigen Agenten für eine gegebene Aufgabe in einem heterogenen Ökosystem?

Die zentrale Erkenntnis: Agent-Fähigkeiten sind oft nicht statisch beschreibbar, sondern nur durch tatsächliche Ausführung oder kompositorische Tests erkennbar. Traditionelle Retrieval-Methoden (Textsuche über Beschreibungen) reichen daher nicht aus.

Dies ist zentral für die Automatisierung von Agent-Komposition und Agent-Orchestrierung in skalierten MAS-Szenarien.

Implikationen für Systementwicklung

  • Reine Skalierung führt nicht automatisch zu besserer Leistung; Emergenz ist nicht garantiert
  • Kooperationsmechanismen müssen explizit designt und getestet werden
  • Benchmarks sollten gezielt Emergenz-Eigenschaften (vs. Einzelagenten-Performance) messen
  • Agent-Suche und Komposition erfordern spezialisierte Benchmarks, da statische Fähigkeitsbeschreibungen nicht ausreichen
  • Praktische MAS-Systeme benötigen Lösungen für die Agenten-Auffindung bei großen, heterogenen Agent-Pools
  • Ausführungsabhängige Fähigkeitsbewertung wird relevanter als Selbst-Deklarationen

Quellen

Weitere Sub-Topics zu „Benchmarks & Evals"