Unüberwachtes Lernen ist maschinelles Lernen ohne vorgegebene richtige Antworten: Das Modell findet Strukturen und Muster selbst in ungelabelten Daten.
Statt Beispielen mit Lösung bekommt das Modell nur die Daten — und die Aufgabe, darin Ordnung zu finden: Welche Datenpunkte gehören zusammen? Welche Struktur steckt im Ganzen? Was fällt aus dem Rahmen?
Clustering (Gruppen entdecken, etwa Kundensegmente oder Themen in Dokumentsammlungen), Dimensionsreduktion (hochdimensionale Daten auf das Wesentliche reduzieren, etwa zum Visualisieren von Embeddings) und Anomalie-Erkennung (Ungewöhnliches aufspüren, etwa Betrugsfälle).
Ungelabelte Daten gibt es im Überfluss, Labels sind knapp. Auch das Pretraining von Sprachmodellen lernt aus rohem Text — die 'richtige Antwort' (das nächste Token) steckt dabei in den Daten selbst, weshalb man genauer von selbstüberwachtem Lernen spricht.
Beim Überwachten Lernen gibt der Mensch die richtigen Antworten vor; hier findet das Modell die Struktur allein.