Du möchtest Sprachaufnahmen automatisch transkribieren, zum Beispiel ein schriftliches Transkript eines Podcasts erstellen? Oder du filmst Unterricht und willst die Videoaufnahme transkribieren, um diese auszuwerten? Mit Hilfe des Spracherkennungsmodells Whisper und Tools wie noScribe lassen sich solche Arbeiten effizient erledigen.
In Kürze zum Hören
Was ist noScribe und was Whisper?
Das Tool noScribe nutzt die KI-Modelle von Whisper, um gesprochene Sprache zu verschriften. Es bietet eine schnelle und effiziente Möglichkeit, Transkripte zu erstellen. Zuerst analysiert das Tool die Anzahl der verschiedenen Sprecher:innen, danach beginnt die Transkription. Die Software noScribe ist eine Open-Source-Software und frei erhältlich. Auch die in noScribe integrierten KI-Modelle zur Spracherkennung sind frei erhältlich, aber die Quellen dazu sind nicht öffentlich.
KI-Modell Whisper
Whisper (1) ist ein universell einsetzbares Spracherkennungsmodell von OpenAI, liegt mittlerweile in Version 3 vor und wurde mit über 680’000 Stunden unterschiedlicher Audiodaten trainiert. Whisper ist ein Multitasking-Modell, das mehrsprachige Spracherkennung, Sprachübersetzung und Sprachidentifikation durchführen kann. Das Tool wandelt also gesprochene Sprache in Text um und bietet eine vielversprechende Lösung für die Transkription von Sprachaufnahmen wie Podcasts, Meeting-Aufnahmen oder Videountertitelung. Whisper selbst kann nicht komfortabel genutzt werden, da es ein Toolkit ist, und keine fertige Anwendung. Um es effizient und komfortabel zu nutzen, gibt es Tools wie noScribe, welches die Whisper-Modelle integriert hat.
Whisper versteht Schweizerdeutsch, kann jedoch keine schweizerdeutschen Transkriptionen erzeugen, sondern nur schriftdeutsche.
Mundart-Texte transkribieren
Whisper «versteht» Schweizerdeutsch, kann aber keine schweizerdeutschen Transkriptionen erzeugen, sondern nur schriftdeutsche. Bei der Konvertierung wird eine sprachliche Glättung vorgenommen. Die Transkription ist eine Klarschrift oder eine semantisch-inhaltliche Transkription, aber keine wortwörtliche Transkription mit Füllwörtern, Satz- und Wortabbrüchen. In der Folge muss also Zeit für die sorgfältige Überarbeitung des automatisch erstellten Transkripts aufgewendet werden.
Aus Datenschutzgründen Online-Tools vermeiden
Bei der Auswahl eines Tools ist darauf zu achten, dass die Daten lokal verarbeitet werden, um Datenschutzrisiken zu minimieren. Gerade Interviews sind datenschutzrechtlich sehr heikel. Deshalb ist von der Verwendung von Online-Tools für die Transkription abzuraten. Ein Tool, bei dem die komplette Verarbeitung lokal geschieht, ist noScribe, ein kostenloses Open-Source-Tool, das von Forscher:innen an der Hochschule Luzern und dem Institut für Sozialforschung in Frankfurt am Main entwickelt wurde.
Wichtig ist, dass das Tool deine Daten sicher und lokal verarbeitet, um Datenschutzrisiken zu minimieren.
noScribe: Ein vielversprechendes Tool
automatisierten Transkription bleiben die Tonaufnahmen und das Transkript auf dem eigenen Computer. Aus datenschutzrechtlicher Sicht müssen daher keine Vereinbarungen mit einem Cloud-Dienstleister geschlossen werden, dennoch muss der Datenschutz beachtet und die erforderlichen Einwilligungen für die Anfertigung und gegebenenfalls die KI-gestützte Auswertung von Audioaufnahmen müssen eingeholt werden.
noScribe ist sowohl für Mac wie auch für Windows erhältlich, die Installation ist einfach und das Tool enthält einen nützlichen Editor zum anschliessenden Überprüfen und Korrigieren des Transkripts. Die Geschwindigkeit der Spracherkennung ist abhängig von der Leistung der Prozessoren und Speicherchips des Computers.
Download und Installation erfolgen gemäss der englischen oder deutschen Installationsanweisung (3). Der Download unter Windows erfolgt am besten über Firefox oder Chrome. Die notwendigen Schritte sind in der Installationsanleitung beschrieben.
Erster Start und Transkriptionsversuch
Beim ersten Start muss eventuell noch eine Sicherheitswarnung bestätigt werden. Dann kann es losgehen mit der ersten Transkription. Eine eigene Sprachaufnahme oder irgendeine Audioaufnahme, z.B. ein heruntergeladener Podcast zum Ausprobieren, kann beim Menüpunkt «Audio file» ausgewählt werden. Ausserdem muss bei «Save transript as …» ein Dateiname vergeben werden, um das Transkript abzuspeichern.
Screenshot Einstellungen «noScribe»
«Language» muss auf «Auto» belassen werden für Aufnahmen in Schweizerdeutsch. Die Option «Disfluencies» führt manchmal zu unerwünschten Glättungen; diese eventuell deaktivieren. Bei langen Aufnahmen empfiehlt es sich, zuerst nur wenige Minuten zu transkribieren, um zu testen, ob die Einstellungen passen. Mit «Start» und «Stop» kann dies eingeschränkt werden.
Nach der Transkriptionsarbeit öffnet sich automatisch der noScribe-Editor. Dies ist das zweite Tool, das installiert wurde, und dient der Überarbeitung des Transkripts. Das Transkript ist aufgeteilt in Segmente der verschiedenen Sprecher:innen. S00, S02 usw. markieren die Segmente. Durch Markieren einer Position und Drücken des Buttons «Play/Pause Audio» kann die Aufnahme an genau dieser Stelle abgehört und korrigiert werden.
Screenshot Editor «noScribe»
Im blau markierten Satz hat Whisper beispielsweise das schweizerdeutsche Wort «glustig» falsch interpretiert und mit «lustig» transkribiert. Es empfiehlt sich immer, das Transkript zu überarbeiten, um solche Fehler zu korrigieren. Nach der Überarbeitung wird das Transkript im HTML-Format abgespeichert. Die Datei lässt sich anschliessend in andere Anwendungen wie eine Textverarbeitung oder ein LMS importieren.
Im Hinblick auf eine barrierefreie Gestaltung von Lernsettings ist die automatische Transkription eine grosse Hilfe für die Lehrkräfte und die Lernenden.
Fazit
Noch nie war es einfacher, Sprachaufnahmen zu transkribieren. Die Technologie dahinter findet mehr und mehr Eingang in Tools und Geräte, die wir im Alltag nutzen werden. Gerade im Hinblick auf die barrierefreie Gestaltung von Lernsettings, bietet die automatische Transkription eine grosse Hilfe für die Lehrkräfte und für Lernende mit Beeinträchtigung. (4)
Autor: Christoph Steigmeier, HfH
1.10.25
Zur Vertiefung
- Was ist Whisper? (OpenAI)
- noScribe: Quellcode, Dokumentation und Download (englisch) (Kai Dröge auf Github)
- noScribe: Instruktionen und Installationsanleitung (deutsche Übersetzung) (PH Bern)
- Automatische Transkriptionssoftware – ein Erfahrungsbericht (Rebecca Schmidt)
Feedback
Vielen Dank für deine Bewertung.