A13 | Deep Learning visualisiert

Im Folgenden schauen wir uns die Funktionsweise eines Deep Learning Modells mal im Detail an. Dazu betrachten wir eine Architektur die besonders in der Bilderkennung beliebt ist: das Convolutional Neural Network (kurz CNN).

Gehe auf https://poloclub.github.io/cnn-explainer/
Wähle eines der Bilder in der oberen Leiste aus
Das Tool visualisiert, wie die Inputs (die drei Farbkanäle des ausgewählten Bildes) über mehrere Schichten verarbeitet werden und so an der Ausgabeschicht eine Vorhersage getroffen wird, was auf dem Bild zu sehen ist.
Wenn du die verschiedenen Schichten anklickst, kannst du die mathematischen Operationen sehen, welche durchgeführt werden.
Klicke dich durch die verschiedenen Schichten und versuche nachzuvollziehen, wie das Netz funktioniert und wie die oben erklärten Konzepte umgesetzt wurden.
Wenn du im Tool runterscrollst, findest du auch eine detaillierte Erklärung auf Englisch.
Versuche dann, die untenstehenden Reflexionsfragen zu beantworten.

Reflexionsfragen

Was macht der Filter mit dem Bild (vereinfacht gesagt)?

Der Filter bewegt sich über das Bild und berechnet für jeden Bildbereich neue Werte. Dabei verstärkt er bestimmte Muster (z. B. Kanten) und schwächt andere Informationen ab. So entsteht ein neues Bild, das nur ausgewählte Merkmale hervorhebt.

Kurz gesagt: Der Filter sucht gezielt nach bestimmten Strukturen.

Welche Art von Merkmal erkennt das Netz besonders gut?

Je nach Filter zum Beispiel:

Strukturen in einer bestimmten Richtung
horizontale oder vertikale Kanten
Kontraste zwischen hell und dunkel
Linien oder Übergänge

Warum sind solche einfachen Merkmale für ein neuronales Netz hilfreich?

Komplexe Objekte bestehen aus vielen einfachen Strukturen. Wenn ein Netz zuerst einfache Muster erkennt, kann es diese später zu Formen, Teilen und ganzen Objekten kombinieren. Dadurch wird Lernen schrittweise aufgebaut.

Warum braucht ein Deep-Learning-Modell viele Schichten, um Objekte zu erkennen?

Jede Schicht erkennt ein höheres Abstraktionsniveau:

frühe Schichten → einfache Merkmale (Kanten, Linien)
mittlere Schichten → Formen oder Objektteile
späte Schichten → ganze Objekte

Komplexe Erkennung entsteht schrittweise über mehrere Ebenen.

Zurück

Weiter