Mixture of Experts (MoE) ist eine Architektur, bei der pro Anfrage nur ein Teil des Modells ('Experten') aktiv wird, statt des ganzen.
Die Idee
Statt für jedes Token das komplette Riesenmodell zu durchlaufen, gibt es viele spezialisierte Teilnetze ('Experten'). Ein kleiner 'Router' wählt pro Token einige wenige aus, die rechnen — der Rest bleibt untätig und damit günstig.
Der Vorteil
Man bekommt die Fähigkeit eines sehr großen Modells (viele Parameter insgesamt), zahlt aber pro Token nur für die aktiven Experten. Das senkt die Rechenkosten je Anfrage deutlich.
Der Haken
MoE-Modelle sind komplexer zu trainieren und zu betreiben, und sie brauchen trotzdem viel Speicher, weil alle Experten vorgehalten werden müssen — auch wenn pro Token nur wenige rechnen.