KI-Glossar ·LLM

Quantisierung

Auch: Quantization, Q4, Q8

Quantisierung verkleinert ein Modell, indem seine Parameter mit weniger Bits gespeichert werden (etwa Q4 = 4 Bit) — das spart Speicher, bei meist geringem Qualitätsverlust.

Das Prinzip

Standardmäßig werden Gewichte mit 16 oder 32 Bit gespeichert. Quantisierung rundet sie auf gröbere Stufen mit z. B. 8 oder 4 Bit. Das Modell wird dadurch deutlich kleiner und schneller, weil weniger Daten bewegt werden müssen.

Der Kompromiss

Die gröbere Speicherung kostet etwas Genauigkeit — bei moderater Quantisierung ist der Verlust meist klein, bei sehr starker wächst er. Es ist eine Abwägung zwischen Größe und Güte.

Zweck

Quantisierung macht große Modelle auf Laptops, Handys oder günstigen Servern überhaupt erst lauffähig. Formate wie GGUF speichern Modelle direkt quantisiert.

Im Netz verbunden

setzt voraus

Parameter

wird genutzt von

Inferenz

Im Wissensnetz ansehen