Modellgewichte

Definition

Modellgewichte sind die trainierten numerischen Parameter (Floating-Point-Werte oder Integers nach Quantisierung) eines neuronalen Netzes, die in einer Transformation y = W·x + b die Feature-Mappings definieren. Sie bestimmen fast vollständig, wie ein Modell Input verarbeitet und Vorhersagen trifft — ihre Grösse (7B, 13B, 70B Parameter) ist das Hauptmaß für Modellkapazität und Inference-Kosten.

Mechanik

Während des Training werden Gewichte via Backpropagation mit Gradienten aktualisiert, um einen Loss zu minimieren. Nach dem Training sind diese Gewichte im Wesentlichen "eingefroren" und definieren das Verhalten des Modells — ein 70B-Modell speichert etwa 70 Milliarden einzelne Float32/Float16/Int8-Werte. Diese werden beim Inference sequenziell geladen und angewendet; moderne Techniken wie Quantisierung reduzieren die Speichergröße auf 10–20 % der Originalgröße, indem Werte in niedrigere Präzision konvertiert werden.

Beispiel

Ein kleines Transformer-Modell hat z. B. 1000 Token Embeddings × 768 Dimensionen + 12 Attention-Layer × (Query-Project, Key-Project, Value-Project, Output-Project) + Feed-Forward-Layer. Jede dieser Matrizen speichert Millionen von Gewichten. Mit llama.cpp oder ollama ladet man eine .gguf-Datei (quantisierte Gewichte) und füttert sie in einen Inference-Engine:

ollama pull llama3.2:1b

Die heruntergeladene Datei enthält diese trainierten Gewichte; ohne sie würde das Modell nur Zufallsrauschen erzeugen. Bei der Quantisierung (z. B. Q4_K_M-Format) werden 70B Float32-Gewichte auf ~14 GB reduziert, aber die Vorhersagequalität bleibt meist erhalten.

Definition

Mechanik

Beispiel

Quellen