Die GPU (Grafikprozessor) ist ein Prozessor, der tausende einfache Rechnungen parallel ausführt. Da neuronale Netze im Kern aus solchen Rechnungen bestehen, ist sie die wichtigste Hardware für Training und Betrieb von KI-Modellen.
GPUs wurden für 3D-Grafik gebaut: Millionen Bildpunkte gleichzeitig berechnen. Das ist mathematisch dieselbe Sorte Arbeit wie in neuronalen Netzen — massenhafte Matrixmultiplikationen. Was für Spiele entwickelt wurde, erwies sich als ideale KI-Hardware.
Eine CPU hat wenige, schnelle Kerne für vielfältige Aufgaben nacheinander. Eine GPU hat tausende einfache Kerne für gleichartige Aufgaben gleichzeitig. Neuronale Netze bestehen fast nur aus solchen gleichartigen Rechnungen.
Erst GPUs machten Deep Learning praktikabel — der Durchbruch ab etwa 2012 beruht wesentlich auf dieser Hardware. Das Training großer Modelle läuft heute auf tausenden GPUs; ihr Speicher (VRAM) ist die knappe Ressource, an der sich entscheidet, welches Modell wo laufen kann. Quantisierung drückt den Speicherbedarf, damit Modelle auch auf kleiner Hardware laufen.
Beides braucht GPUs, aber ungleich: Das Training ist der Großeinsatz, die Inferenz der Dauerbetrieb — millionenfach, deshalb zählt dort jede Effizienz.