Der Artikel untersucht, wie man offene Large Language Models darauf testet, ob sie als Agenten taugen – also autonome Aufgaben mit Tools ausführen können. Statt abstrakte Benchmarks zu nutzen, geht es darum, Modelle gegen die eigene Tooling-Infrastruktur zu prüfen. Das ist relevant, weil agentic KI ein Schlüsseltrend ist und viele Teams selbst evaluieren müssen, welche Open-Source-Modelle für ihre spezifischen Use-Cases reichen. Das Thema verbindet praktische Entwickler-Anforderungen mit dem wachsenden Interesse an Agency und Autonomie in KI-Systemen.