Ein CNN (Convolutional Neural Network, deutsch etwa „Faltungsnetz") ist ein neuronales Netz für Daten mit Gitterstruktur, vor allem Bilder. Sein Kernbaustein ist die Faltung: Kleine Filter werden über die Eingabe geschoben und erkennen lokale Muster — unabhängig davon, wo sie auftreten.
In einem Bild steckt Bedeutung in lokalen Nachbarschaften: Eine Kante, eine Ecke, ein Auge sind Muster aus wenigen benachbarten Pixeln. Ein CNN nutzt das aus. Statt jedes Pixel mit jedem Neuron zu verbinden, schiebt es einen kleinen Filter (etwa 3×3 Pixel groß) Schritt für Schritt über das ganze Bild — die namensgebende Faltung (englisch convolution). An jeder Position misst der Filter, wie stark „sein" Muster dort ausgeprägt ist; das Ergebnis ist eine Merkmalskarte (Feature Map).
Eine Faltungsschicht enthält viele solcher Filter, von denen jeder ein anderes Muster erkennt. Dazwischen verkleinern Pooling-Schichten die Merkmalskarten, indem sie benachbarte Werte zusammenfassen (etwa zu ihrem Maximum) — das macht die Erkennung robuster gegen kleine Verschiebungen. Über die Schichten hinweg entsteht die Merkmals-Hierarchie des Deep Learning: Frühe Schichten erkennen Kanten, mittlere Formen und Objektteile, späte ganze Objekte. Am Ende ordnen vollverbundene Schichten das Ergebnis einer Klasse zu („Katze", „Auto").
Zwei Eigenschaften unterscheiden ein CNN von einem vollvernetzten neuronalen Netz. Erstens die Gewichts-Teilung: Derselbe Filter wird auf jede Bildposition angewendet, das Netz braucht daher weit weniger Parameter. Zweitens die Verschiebungstoleranz: Ein gelerntes Muster wird erkannt, gleich wo im Bild es erscheint — eine Katze oben links ist dieselbe wie unten rechts.
Yann LeCun wandte Faltungsnetze ab 1989 auf die Erkennung handgeschriebener Ziffern an (LeNet). Der Durchbruch kam 2012: Das CNN AlexNet gewann den ImageNet-Bildklassifikations-Wettbewerb mit großem Vorsprung — trainiert auf GPUs — und löste damit die Deep-Learning-Welle des folgenden Jahrzehnts aus. CNNs wurden zum Standard der Bildverarbeitung, von der Objekterkennung bis zur medizinischen Bildanalyse. Seit etwa 2020 bekommen sie Konkurrenz durch Transformer-basierte Bildmodelle (Vision Transformer); wegen ihrer Effizienz und ihres geringeren Datenbedarfs bleiben sie verbreitet. Für Folgen wie Text war das RNN das Gegenstück: CNNs erfassen Muster im Raum, RNNs Muster in der Abfolge.
Ein CNN ist eine Architektur-Spezialisierung, kein eigenes Lernverfahren: Trainiert wird es wie jedes neuronale Netz per Backpropagation. Spezialisiert ist es auf räumliche Struktur — für Sequenzen entstanden RNNs, für beides zunehmend der Transformer.