Mellum2: JetBrains stellt kompaktes 12B-Mixture-of-Experts-Modell vor · KI-News

JetBrains hat Mellum2 vorgestellt, ein spezialisiertes Mixture-of-Experts-Modell mit 12 Milliarden Parametern. Das Modell konzentriert sich auf Coding-Aufgaben und soll eine gute Balance zwischen Modellgröße und Performance bieten. Mit der MoE-Architektur nutzt das Modell nur einen Teil seiner Expertise pro Anfrage, was es effizienter macht als größere dense Models. Für Entwickler und Unternehmen mit spezialisierten Code-Anforderungen könnte dies eine interessante Alternative zu größeren, kostspieligeren Sprachmodellen sein.

Zum Originalartikel