Überblick
Audio und Sprache sind zentrale Komponenten in multimodalen KI-Systemen. Sie ermöglichen natürliche Interaktion, Sprechererkennung und kontextbasierte Informationsverarbeitung neben Text und Bild.
Speech-to-Text
VibeVoice – Whisper-Alternative mit Speaker Diarization
Microsoft veröffentlichte Januar 2026 VibeVoice als Open-Source-Alternative zu Whisper. Das Modell (17,3GB, MIT-lizenziert) bietet native Speaker Diarization – automatische Redner-Identifikation im Audio-Stream, relevant für Meeting-Transkription und Multi-Speaker-Szenarien.
Praktische Eigenschaften: - MLX-Konvertierungen (5,71GB) für effiziente Inferenz auf Mac-Hardware - Tools wie mlx-audio ermöglichen Command-Line-Interface-Inferenz - Lokal einsetzbar, datenschutzkonform, mit Speaker-Kontexturierung
Gut geeignet für Entwickler:innen, die lokale Audio-Verarbeitung mit Redner-Zuordnung ohne Cloud-Abhängigkeit benötigen.
Echtzeit-Sprachübersetzung
Google Meet – Mobile Echtzeit-Übersetzung
Google aktiviert seit April 2026 die Sprachübersetzung in Google Meet auch auf mobilen Geräten. Die Funktion ermöglicht simultane Zwei-Wege-Kommunikation: Audio wird erkannt, übersetzt und mit stimmimitierender Synthese in der bevorzugten Sprache ausgegeben.
Unterstützte Sprachen: Englisch, Spanisch, Französisch, Deutsch, Portugiesisch, Italienisch.
Status: Frühe Alpha-Phase mit bekannten Stabilitätsproblemen bei plattformübergreifender Nutzung. Die Technologie kombiniert Speech-to-Text, Sprachmodelle für Übersetzung und Sprachsynthese mit Stimm-Kloning.
Architektur-Muster
Typische Pipelines: - Audio-Encoding (Mel-Spektrogramm oder Rohwaveform) - Speech-to-Text mit optionaler Diarization - Integration mit Sprachmodellen für Kontextverständnis und ggf. Übersetzung - Speaker-Embedding für Sprechererkennung - Text-to-Speech für Voice-Ausgabe bei Übersetzungsszenarien
Use Cases
- Meeting-Transkription mit Redner-Zuordnung
- Voice-AI-Assistenten
- Echtzeit-Sprachübersetzung in Videocalls
- Audio-indizierte Suche
- Barrierefreie Untertitelung
- Multi-Speaker Dialogue Systems
Einzelnachweise
Quellen
- Microsoft veröffentlicht VibeVoice – Whisper-Alternative mit Speaker Diarization — Simon Willison, 2026-04-27
- Echtzeit-Sprachübersetzung in Google Meet kommt auf mobile Geräte — Simon Willison, 2026-04-27