Distillation trainiert ein kleines Modell darauf, die Antworten eines großen Modells nachzuahmen — das „Wissen“ des großen wird in das kleine destilliert.
Statt ein Modell aufwendig auf Rohdaten zu trainieren, befragt man ein starkes, großes Modell massenhaft und nutzt dessen Antworten als Trainingsdaten für ein kleineres. Das kleine Modell lernt, sich so zu verhalten wie das große — bei einem Bruchteil der Größe und Kosten.
Kleine Modelle sind billiger und schneller zu betreiben und laufen teils lokal auf normaler Hardware. Distillation ist der schnellste Weg, ihnen Fähigkeiten zu geben, die sonst nur Spitzenmodelle haben.
Wer fremde Modelle als Datenquelle abschöpft, spart sich das Teuerste am KI-Geschäft: Rohdaten und Training. Die Nutzungsbedingungen der großen Anbieter verbieten das ausdrücklich, und die Anbieter verdächtigen sich gegenseitig, es trotzdem zu tun. Anthropic ging 2026 bei Fable 5 so weit, vorgeschaltete Guardrails gegen mutmaßliche Destillations-Anfragen einzubauen.
Beim Fine-Tuning wird ein bestehendes Modell mit eigenen Daten weitertrainiert; bei der Distillation ist ein anderes Modell die Datenquelle.