Das KI-Modell «Count Anything» adressiert ein bisher kniffliges Problem multimodaler Systeme: das präzise Zählen von Objekten in Bildern auf Basis von Textanfragen. Im Vergleichstest reduziert das Modell die Fehlerquote um etwa 50 Prozent gegenüber bisherigen Lösungen und funktioniert über sehr unterschiedliche Bildtypen – von Fotos von Menschenmengen über Satellitenbilder bis zu Mikroskopaufnahmen. Allerdings zeigen sich bei extremer Objektdichte und mehrdeutigen Begriffen noch Grenzen des Ansatzes, was auf verbleibende Herausforderungen bei der semantischen Interpretation hindeutet.