Zum Hauptinhalt springen

A7 | Unüberwachtes Lernen visualisiert

  1. Gehe auf https://clustering-visualizer.web.app/kmeans 
  2. Zeichne im Webinterface zufällig verschiedene Punkte auf die Karte. Die Punkte sind eine vereinfachte (vektorisierte) 2D-Darstellung unsere verschiedenen Objekte mit ihren Attributen (z.B. Farbe, Grösse, etc.). 
  3. Je nachdem wie viele Gruppen du identifizieren möchtest, wähle deinen Wert für K. 
  4. Klicke auf «Run K-Means».  
  5. Beobachte, wie der Algorithmus die Datenpunkte ohne Vorwissen in K Gruppen (Cluster) einteilt. Die Punkte werden farbig. 
  6. Lies nochmal die Beschreibung vom K-Means Algorithmus durch und verwende die Visualisierung, um die Schritte zu verfolgen.
  7. Wiederhole das Experiment mit verschiedenen Punktanordnungen, die für den Menschen recht einfach auseinanderzuhalten sind: Drei verschiedene Punktgruppen, ein äusserer Kreis und ein innerer Kreis, “verschlungene Muster” wie z.B. das Yin und Yang-Zeichen 
  8. Versuche dann die untenstehenden Reflexionsfragen zu beantworten.

Zum Überlegen

Woran erkennst du, welche Punkte zu einer Gruppe gehören?

Sie haben die gleiche Farbe und liegen meist räumlich nahe beieinander.

Verändert sich die Gruppeneinteilung, wenn du den Wert von K änderst?

Ja. Mehr Cluster teilen die Daten feiner auf, weniger Cluster fassen mehr Punkte zusammen.

Warum gehört K-Means zum unüberwachten Lernen?

Weil keine richtigen Antworten oder Labels vorgegeben sind. Der Algorithmus findet die Gruppen selbst. Wir geben nur die Anzahl von erwarteten Clustern vor – es gibt aber auch andere Varianten des unüberwachten Lernens, z.B. DBSCAN, welche selbständig die Anzahl der Cluster anhand der Punktedichte ermittelt.

Was passiert, wenn du Kreisformen oder verschlungene Muster zeichnest?

K-Means teilt die Daten oft „falsch“ auf, weil es keine runden oder komplex verschachtelten Strukturen erkennt, obwohl diese für den Menschen offensichtlich sind. K-Means misst nur Entfernungen und bevorzugt die Einteilung in einfache, kompakte Gruppen. Bei komplexeren Strukturen sind Methoden wie DBSCAN im Vorteil, welcher auf Punktedichten basiert. Der Algorithmus ist ebenfalls im Tool verfügbar – wenn du neugierig bist, kannst du ihn direkt ausprobieren!