Unüberwachtes
Lernen (engl. Unsupervised Learning) ist eine Methode des maschinellen
Lernens, bei der ein Algorithmus mit unbeschrifteten Daten arbeitet. Das
bedeutet, dass keine Zielwerte oder vorher definierten Kategorien vorgegeben
sind. Ziel ist es, Muster, Strukturen oder Zusammenhänge innerhalb der Daten
eigenständig zu identifizieren.
Typische
Verfahren des unüberwachten Lernens sind das Clustering (Gruppierung
ähnlicher Datenpunkte) und die Dimensionsreduktion (Reduktion komplexer
Datenräume auf wesentliche Merkmale). Diese Methoden ermöglichen es, große
Datenmengen zu strukturieren und zu analysieren, ohne dass menschliche
Annotationen erforderlich sind.
Unüberwachtes
Lernen findet vor allem in Anwendungsfeldern mit umfangreichen, nicht
gelabelten Daten Anwendung – beispielsweise in der Kundensegmentierung,
der Anomalieerkennung oder als Vorverarbeitungsschritt für
überwachtes Lernen. Es bietet insbesondere dann Vorteile, wenn die Erstellung
gelabelter Datensätze kosten- oder zeitintensiv ist.
Ein
praktisches Beispiel ist das Vortraining großer Sprachmodelle wie GPT
(Generative Pre-trained Transformer) von OpenAI. Diese Modelle wurden mit Hilfe
unüberwachten Lernens auf umfangreichen Textsammlungen trainiert, etwa Büchern
und Online-Artikeln. Dabei lernten sie, Sprachmuster zu erkennen, ohne dass
einzelne Datenpunkte manuell annotiert wurden. Dieses Verfahren bildet die
Grundlage für das Sprachverständnis moderner KI-Systeme wie ChatGPT.
Im Vergleich zu überwachten
Lernverfahren benötigt unüberwachtes Lernen keine expliziten Zielvorgaben.
Dadurch eignet es sich besonders für explorative Analysen und die Erschließung
bisher unbekannter Datenstrukturen. Es gilt als zentrale Technik für die
Weiterentwicklung skalierbarer KI-Anwendungen – insbesondere dort, wo
annotierte Trainingsdaten nur begrenzt verfügbar sind.