KI-Glossar ·Llm

Quantisierung

Auch: Quantization, Q4, Q8

Quantisierung verkleinert ein Modell, indem seine Parameter mit weniger Bits gespeichert werden (etwa Q4 = 4 Bit) — das spart Speicher, bei meist geringem Qualitätsverlust.

Das Prinzip

Standardmäßig werden Gewichte mit 16 oder 32 Bit gespeichert. Quantisierung rundet sie auf gröbere Stufen mit z. B. 8 oder 4 Bit. Das Modell wird dadurch deutlich kleiner und schneller, weil weniger Daten bewegt werden müssen.

Der Kompromiss

Die gröbere Speicherung kostet etwas Genauigkeit — bei moderater Quantisierung ist der Verlust meist klein, bei sehr starker wächst er. Es ist eine Abwägung zwischen Größe und Güte.

Wozu es dient

Quantisierung macht große Modelle auf Laptops, Handys oder günstigen Servern überhaupt erst lauffähig. Formate wie GGUF speichern Modelle direkt quantisiert.

Im Wissensnetz ansehen