Audio-Interaction: Sprachmodell hört kontinuierlich zu und antwortet in Echtzeit

Streaming-Sprachmodell hört dauerhaft mit und entscheidet selbst, wann es spricht
7/10 The Decoder (DE) 06.06.2026 Frontier-Modelle Multimodal Open Source Produkt-Launch

Das KI-Modell „Audio-Interaction" repräsentiert einen Fortschritt in der natürlichen Audio-Verarbeitung: Es hört permanent zu und trifft eigenständig Entscheidungen darüber, wann es spricht, statt auf das Ende einer Aufnahme zu warten. Im Gegensatz zu Modellen wie GPT-4o oder Qwen3.5-Omni kann es in einem einzigen Datenstrom gleichzeitig transkribieren, übersetzen, chatten und Umgebungsgeräusche wie Husten erkennen. Code und Gewichte sind auf GitHub verfügbar, was die Technologie der Community zugänglich macht und weitere Entwicklungen ermöglicht.

Zum Originalartikel