«Count Anything»: KI-Modell zählt Objekte in Bildern halb so fehlerhaft

KI-Modell "Count Anything" löst ein Problem, an dem multimodale KI-Modelle bisher scheitern
6/10 The Decoder (DE) 13.06.2026 Frontier-Modelle Multimodal Research

Das KI-Modell «Count Anything» adressiert ein bisher kniffliges Problem multimodaler Systeme: das präzise Zählen von Objekten in Bildern auf Basis von Textanfragen. Im Vergleichstest reduziert das Modell die Fehlerquote um etwa 50 Prozent gegenüber bisherigen Lösungen und funktioniert über sehr unterschiedliche Bildtypen – von Fotos von Menschenmengen über Satellitenbilder bis zu Mikroskopaufnahmen. Allerdings zeigen sich bei extremer Objektdichte und mehrdeutigen Begriffen noch Grenzen des Ansatzes, was auf verbleibende Herausforderungen bei der semantischen Interpretation hindeutet.

Zum Originalartikel