NVIDIA Nemotron 3.5 ASR – Spracherkennung mit Live-Streaming und Speaker-Diarization · KI-News

NVIDIA hat Nemotron 3.5 ASR released, ein spezialisiertes Spracherkennungs-Modell, das für echtzeitfähiges, mehrsprachiges Streaming optimiert ist. Das Modell bietet praktische Features wie Word Boosting (Priorisierung bestimmter Begriffe) und Speaker Diarization (automatische Sprechererkennung). Mit einer Größe von nur 0,6B Parametern in der Streaming-Version ist es auch auf weniger leistungsstarken Systemen einsetzbar. Das ist relevant für Entwickler von Sprachassistenten, Live-Transkription und konversationalen KI-Systemen, die auf performante, ressourceneffiziente Lösungen angewiesen sind.

Zum Originalartikel