Clustering bezeichnet das Gruppieren ähnlicher Datenpunkte ohne vorgegebene Kategorien. Das Verfahren findet die Gruppen (Cluster) selbst und gehört zum unüberwachten Lernen.
Beim Clustering gibt es keine bekannten Klassen und keine richtigen Antworten. Das Verfahren misst, wie ähnlich sich die Datenpunkte sind, und fasst nahe beieinanderliegende zu Clustern zusammen. Welche Gruppen es gibt und wofür sie stehen, ergibt sich erst aus dem Ergebnis — die Deutung bleibt dem Menschen überlassen.
Kundensegmente im Marketing, thematisch verwandte Dokumente, Gruppen ähnlicher Gene oder das Erkennen von Ausreißern. Ein bekanntes Verfahren ist k-Means, das die Daten in eine vorgegebene Zahl von Clustern aufteilt.
Beide ordnen Daten Gruppen zu, aber unter umgekehrten Voraussetzungen: Die Klassifikation kennt die Kategorien vorab und lernt aus beschrifteten Beispielen (überwacht); das Clustering kennt sie nicht und findet die Gruppen selbst (unüberwacht).