Kleine Sprachmodelle haben ein fundamentales Problem: Sie vergessen seltene Aufgaben, weil häufigere Trainingsbeispiele das Gelernte ständig überschreiben. Eine neue Studie analysiert diesen Mechanismus systematisch mit Modellen zwischen 4 Millionen und 4 Milliarden Parametern und zeigt: Das Problem liegt nicht an der Modellgröße allein, sondern an der Trainings-Datenverteilung. Die gute Nachricht ist pragmatisch – statt Modelle zu vergrößern, reicht oft schon eine gezielte Erhöhung der Häufigkeit der Zielaufgabe in den Trainingsdaten. Das eröffnet neue Wege für effizientere, spezialisierte Modelle.