Schau dir zum Einstieg das folgende Video an:
Du hast nun eine grundlegende Vorstellung davon erhalten, wie ein Large Language Model (LLM) funktioniert. Dieses Prinzip soll im Folgenden anhand eines Songs von Mani Matter exemplarisch aufgezeigt werden.
Ziel ist es, ein vereinfachtes Modell – eine eigene „MatterGPT“ – zu konstruieren. Die Grundidee eines LLM besteht darin, auf Basis sehr grosser Textmengen zu berechnen, welches Wort mit der höchsten Wahrscheinlichkeit auf ein gegebenes Wort oder eine Wortfolge folgt.
Zu diesem Zweck analysieren wir den vollständigen Liedtext von I han es Zündhölzli azündt und untersuchen, wie häufig bestimmte Wörter jeweils auf andere folgen. Für die erste Liedzeile (I han es Zündhölzli azündt ) ergibt sich daraus folgender Möglichkeiten Baum:
| Aktuelles Wort | Mögliches nächstes Wort | Häufigkeit im Songtext | Wörter Wahrscheinlichkeit |
| I | han | 4 | 40% |
| Teppich | 2 | 20% | |
| dr | 2 | 20% | |
| de | 1 | 10% | |
| eim | 1 | 10% | |
| han | es | 5 | 100% |
| es | Zündhölzli | 2 | 25% |
| hätt | 4 | 45% | |
| Loch | 1 | 15% | |
| Wältchrieg | 1 | 15% | |
| Zündhölzli | azündt | 2 | 100% |


Daraus kann folgendes geschlossen werden: Auf das Wort I folgt 4 mal das Wort “han”, als Wahrscheinlichkeit ausgedrückt mit 40% Wahrscheinlichkeit folgt einem «I» ein «han».
Mit diesem Wissen können wir uns nun unseren eigenen Mani Mattersong basteln, der in den ersten Zeilen wie folgt lauten könnte
I han es Loch azündt,
Und das het e Wältchrieg gäh.

Praxisaufgabe
Auf der Seite Behind ChatGPT – Wie funktionieren LLMs? kannst du die Idee selbst ausprobieren. Grundlagen dieser GPT Anwendung sind Texte aus dem Internet.