Hilfe, ich werde ersetzt! Oder werde ich entlastet? Ich mache einen Selbstversuch mit einem KI-Sprachtool. Ich, Medienproduzent und ausgebildeter Sprecher mit Schwerpunkt Video- und Audioproduktion, werde mich in die Tiefen der KI-generierten Stimmen begeben. Ich will herausfinden, ob KI meine Profession in Bedrängnis bringt oder mich von unliebsamen Aufgaben befreit.
In Kürze zum Hören
Jahrzehntelang klangen generierte Stimmen wie der Sprachcomputer von Stephen Hawkins oder die Systemsprachausgabe «Anna» von Apple. Aber seit die KI-Tools wie Pilze aus dem Boden schiessen, sind auch in diesem Bereich grosse Fortschritte erzielt worden. Ich teste ein KI-Sprachtool, das von ElevenLabs (1) entwickelt wurde. ElevenLabs deshalb, weil das Tool neben einer Vielzahl an bereitgestellten Stimmen auch «Voice Cloning» (2) anbietet. D.h. der Klang meiner Stimme kann nachgebildet und wiedergegeben werden (3).
Stimmen generieren leicht gemacht
Zwei Optionen stehen zur Auswahl: Instant Voice Cloning und Professional Voice Cloning. Ich will schnellstmöglich ein Resultat, deshalb nehme ich «Instant Voice Cloning». Alles, was ich tun muss: ein Audiofile mit meiner Stimme hochladen und ein wenig warten. Eine Stunde später kehre ich zur Webseite zurück, «meine» Stimme ist bereit für den Einsatz.
Weil ich grad Freude an KI habe, lasse ich ChatGPT ein poetisches Textlein kreieren: «Der Frühling brachte eine sanfte Brise und die Blüten begannen, in prächtigen Farben zu erstrahlen. Während die Sonne höher am Himmel stand, erwachten die Vögel mit fröhlichem Gesang und erfüllten die Luft mit ihrem Zwitschern».
In der Welt von ChatGPT erwachen die Vögel erst wenn die Sonne hoch steht. – Egal, ich kopiere die Binärcode-Poesie ins Textfeld und klicke auf «Generate Speech». Vier Sekunden später erklingt meine digitale Stimme aus dem Lautsprecher. Faszinierend und befremdlich zugleich: Ich stamme sprachlich nicht mehr aus Zürich, sondern aus Norddeutschland. In meinem Kopf erscheint ein Bild von mir: Mit vollem Bart, Tabakpfeife und Wollmütze und steuere einen Kahn durch den Hamburger Hafen. Moin moin.
Ich verlasse mein stereotypisches Gedankenspielchen und höre mir die Aufnahme nochmals an. Hm, so ganz überzeugt mich das Ergebnis nicht. Es vermag zwar den Klang meiner Stimme zu imitieren, aber Aussprache, Rhythmik und Idiom sind verfälscht.
In Anbetracht dessen, dass so etwas bis vor Kurzem nicht oder nur mit enormem Aufwand möglich war, sind wir hier doch schon im Si-Fi-Zeitalter. Man denke an Terminator 2: «Your foster parents are dead.»
Es geht auch professioneller
Ich teste die zweite Option «Professional Voice Cloning». Damit ElevenLabs meine Stimme synthetisieren kann, müssen diesmal mindestens drei Stunden Sprachmaterial bereitgestellt werden, besser sind fünf (!). Vor meinem geistigen Auge sehe ich mich The Lord oft he Rings in ein Mikrofon einsprechen … Glücklicherweise existieren bereits viele Sprachaufnahmen von mir, die ich aus dem Archiv holen kann. Ich lade vier Stunden Audiomaterial hoch und nenne meine digitale Stimmkopie «AIoli». Meine Stimme wird nun mit Deep Learning synthetisiert. Ab jetzt beginnt die Warterei. Elevenlabs stellt das Ergebnis in etwa vier Wochen in Aussicht. Es werden zehn …
Was aus meinem Lautsprecher erklingt, haut mich um. Das bin wirklich ich! Ein metaphysisches Gruseln überkommt mich.
Dann die E-Mail von Elevenlabs: «Ihre Stimme ist bereit.» Ich kann es kaum erwarten! KI-Poesie ins Textfeld und Go. Was aus meinem Lautsprecher erklingt, haut mich um. Das bin wirklich ich! Ein metaphysisches Gruseln überkommt mich. – Alles, was ich noch an der einfachen Version kritisiert hatte, ist nun (erschreckend) gut umgesetzt. Was mich vor allem beeindruckt: Der Schweizer Akzent im Hochdeutschen ist klar erkennbar. Ich bin begeistert und gegruselt. Ich werde neue Bereiche der Resilienz aufbauen müssen …
Ende der Fahnenstange?
Wird mich KI ersetzen? Sind meine Zeiten als Sprecher bald vorbei? – Nun, ich sehe es eher als Entlastung und als Chance zur Weiterentwicklung meiner Professionalität. Ich kann mich auf anspruchsvolle Sprechaufträge in Medienproduktionen von Dauer konzentrieren. Und irgendwie spornt mich die Konkurrenz der KI-generierten Stimmen auch an, meine eigene Sprechkompetenz weiterzuentwickeln.
Der Bedarf an Humanstimmen für einfache Medienproduktionen wird wohl zurückgehen, dies könnte zum Problem für Sprecher:innen werden, welche ihr Geld hauptsächlich mit Sprechaufträgen verdienen. Trotzdem, professionelle Humanstimmen werden in absehbarer Zeit weiterhin gefragt sein. Die Tonalität der generierten Texte ist zwar gut, aber jede Aufnahme tönt ähnlich. Die Einstellmöglichkeiten für die Emotionalität sind sehr begrenzt. Für ein Hörspiel zum Beispiel sind sie untauglich.
Was beim intensiven Testen ebenfalls auffällt: Manche Wörter werden teilweise falsch ausgesprochen. Ich teste weiter und plage meinen Sprachzwilling mit einem Text, der mit Helvetismen gespickt ist: «Ich fahre mit dem Zug von Luzern nach Aarau mit dem Halbtax und einem Sparbillett. Dort treffe ich Beat Zgraggen. Ich will ihm eine Garette, eine Gelte und einen Harass abkaufen. Er zügelt und muss ausmisten. Auf der Höhe Ebikon ruf ich ihn auf dem Natel an. Er sitzt gern in der Beiz oder im Bahnhofsbuffet. Vor allem bei der Metzgete, da nimmt er auch gerne einen Pflümli zum Apéro.» Hier hat es deutlich «Luft nach oben».
Wohin führt das?
Mit einer Zukunftsprognose bin ich zurückhaltend. Oft projizieren wir gegenwärtige Begeisterung oder Befürchtungen in die Zukunft, woraus falsche Prognosen entstehen können. Dennoch: Die KI-basierte Sprachausgabe ist ein bedeutender Fortschritt, Veränderungen sind sehr wahrscheinlich. So hat zum Beispiel die Funktion «Text to Speech» grosses Potenzial und sie wird bereits eingesetzt, etwa zum Vorlesen von Zeitungsartikeln. KI-generierte Stimmen sind kostengünstig und schneller produziert. Vieles wird daher in Zukunft wahrscheinlich durch eine KI erledigt.
Wem gehört die Stimme? Ähnlich wie bei geistigen Schöpfungen stellen sich rechtliche und ethische Fragen.
Wo ich meine KI-generierte Stimme bestimmt einsetzen werde: Bei einfachen Erklärvideos oder Reportagen mit wenigen Off-Stimmen. Dies ermöglicht meinen Kollegen in der Medienproduktion, «mich zu verwenden», ohne mich zu behelligen. Win-Win, irgendwie, oder?
Eine zentrale Frage wird zu klären sein: Wem gehört die Stimme? Ähnlich wie bei geistigen Schöpfungen stellen sich rechtliche und ethische Fragen, wie dieses Beispiel zeigt: Hollywood-Star Scarlett Johansson verlangt von OpenAI Aufklärung darüber, warum eine von ChatGPT verwendete KI-Stimme ihrer eigenen verblüffend ähnelt (4).
Was mich betrifft. Ich bleibe entspannt und bin zuversichtlich, dass ich auch in Zukunft spannende Sprechaufträge ausführen darf.
Autor: Oliver Müller, Multimedia-Produzent PHZH
15.12.2024
Zur Vertiefung
- Elevenlabs – Text-to-Speech AI-Tool
- Elevenlabs Voice Cloning
- Wikipedia Sprachsynthese – was ist das
- Watson Newsartikel ChatGPT-Stimme: Scarlett Johansson schaltet ihre Anwälte gegen OpenAI ein
Feedback
Vielen Dank für deine Bewertung.