Unüberwachtes Lernen (Unsupervised Learning)

Beim unüberwachten Lernen lernt die KI ohne Lehrperson. Wir geben ihr unmarkierte Daten (Unlabeled Data) und lassen sie selbstständig Muster, Strukturen und Ähnlichkeiten in den Daten finden.

Die KI: Bekommt einen Haufen verschiedener Obstbilder ohne Namen. Sie gruppiert die Bilder selbst in Gruppen basierend auf ähnlichen Merkmalen (z.B. Rot & Rund, Gelb & Gebogen, Grün & Klein).

Das Ziel: Verborgene Strukturen in den Daten aufdecken und die Daten organisieren.

Grafische Darstellung Unüberwachtes Lernen

Quelle: https://computingeducation.de/proj-ml-uebersicht/

K-Means Algorithmus

Um das Prinzip vom unüberwachtem Lernen zu veranschaulichen, schauen wir uns nun eine Variante, den K-Means Algorithmus, an. Dies ist einer der Algorithmen, der von Maschinen verwendet wird, um von allein Ähnlichkeiten zwischen verschiedenen Objekten zu finden.

Stell dir vor, K-Means ist ein Sortierroboter, der einen Haufen unsortierter Dinge (deine Daten) hat und sie in K (z.B. 3 oder 4) Behälter aufteilen soll.

Das Ziel ist, dass alle Dinge in einem Behälter möglichst ähnlich sind.

So funktioniert K-Means in 3 Schritten

Zufällig starten (Die K-Punkte): Der Roboter wählt K zufällige Startpunkte (die sogenannten Zentroiden) in den Daten. Das sind die vorläufigen Mittelpunkte deiner zukünftigen Gruppen.

Gruppen bilden (Zuordnen): Jeder Datenpunkt im Haufen schaut, welchem Zentroid er am nächsten liegt. Er ordnet sich diesem zu. Das sind die ersten Gruppen!

Verbessern (Zentroide verschieben): Der Roboter berechnet den neuen, echten Mittelpunkt jeder Gruppe und verschiebt die Zentroiden dorthin.

Diese Schritte werden so lange wiederholt, bis sich die Mittelpunkte nicht mehr bewegen. Dann ist die Sortierung abgeschlossen und du hast deine optimalen Gruppen gefunden!

Aktivität: Unüberwachtes Lernen mit K-Means visualisieren

Gehe auf https://clustering-visualizer.web.app/kmeans
Zeichne im Webinterface zufällig verschiedene Punkte auf die Karte. Die Punkte sind eine vereinfachte (vektorisierte) 2D-Darstellung unsere verschiedenen Objekte mit ihren Attributen (z.B. Farbe, Grösse, etc.).
Je nachdem wie viele Gruppen du identifizieren möchtest, wähle deinen Wert für K.
Klicke auf «Run K-Means».
Beobachte, wie der Algorithmus die Datenpunkte ohne Vorwissen in K Gruppen (Cluster) einteilt. Die Punkte werden farbig.
Lies dir nochmal die Beschreibung vom K-Means Algorithmus durch und verwende die Visualisierung, um die Schritte zu verfolgen.
Wiederhole das Experiment mit verschiedenen Punktanordnungen, die für den Menschen recht einfach auseinanderzuhalten sind: Drei verschiedene Punktgruppen, ein äusserer Kreis und ein innerer Kreis, “verschlungene Muster” wie z.B. das Yin und Yang-Zeichen
Versuche dann die untenstehenden Reflexionsfragen zu beantworten.

Reflektionsfragen

Woran erkennst du, welche Punkte zu einer Gruppe gehören?

Sie haben die gleiche Farbe und liegen meist räumlich nahe beieinander.

Verändert sich die Gruppeneinteilung, wenn du den Wert von K änderst?

Ja. Mehr Cluster teilen die Daten feiner auf, weniger Cluster fassen mehr Punkte zusammen.

Warum gehört K-Means zum unüberwachten Lernen?

Weil keine richtigen Antworten oder Labels vorgegeben sind. Der Algorithmus findet die Gruppen selbst. Wir geben nur die Anzahl von erwarteten Clustern vor – es gibt aber auch andere Varianten des unüberwachten Lernens, z.B. DBSCAN, welche selbständig die Anzahl der Cluster anhand der Punktedichte ermittelt.

Was passiert, wenn du Kreisformen oder verschlungene Muster zeichnest?

K-Means teilt die Daten oft „falsch“ auf, weil es keine runden oder komplex verschachtelten Strukturen erkennt, obwohl diese für den Menschen offensichtlich sind. K-Means misst nur Entfernungen und bevorzugt die Einteilung in einfache, kompakte Gruppen. Bei komplexeren Strukturen sind Methoden wie DBSCAN im Vorteil, welcher auf Punktedichten basiert. Der Algorithmus ist ebenfalls im Tool verfügbar – wenn du neugierig bist, kannst du ihn direkt ausprobieren!

Zurück

Weiter