Audiobox Studio U7, PHZH
Bild: Oliver Müller, PHZH

#KünstlicheIntelligenz
Wie ich KI meine Stimme gab

Hilfe, ich werde ersetzt! Oder werde ich entlastet? Ich mache einen Selbstversuch mit einem KI-Sprachtool. Ich, Medienproduzent und ausgebildeter Sprecher mit Schwerpunkt Video- und Audioproduktion, werde mich in die Tiefen der KI-generierten Stimmen begeben. Ich will herausfinden, ob KI meine Profession in Bedrängnis bringt oder mich von unliebsamen Aufgaben befreit.

In Kürze zum Hören

Jahrzehntelang klangen generierte Stimmen wie der Sprachcomputer von Stephen Hawkins oder die Systemsprachausgabe «Anna» von Apple. Aber seit die KI-Tools wie Pilze aus dem Boden schiessen, sind auch in diesem Bereich grosse Fortschritte erzielt worden. Ich teste ein KI-Sprachtool, das von ElevenLabs (1) entwickelt wurde. ElevenLabs deshalb, weil das Tool neben einer Vielzahl an bereitgestellten Stimmen auch «Voice Cloning» (2) anbietet. D.h. der Klang meiner Stimme kann nachgebildet und wiedergegeben werden (3).

Stimme mit Apple-Sprachausgabe «Anna»

Stimmen generieren leicht gemacht

Zwei Optionen stehen zur Auswahl: Instant Voice Cloning und Professional Voice Cloning. Ich will schnellstmöglich ein Resultat, deshalb nehme ich «Instant Voice Cloning». Alles, was ich tun muss: ein Audiofile mit meiner Stimme hochladen und ein wenig warten. Eine Stunde später kehre ich zur Webseite zurück, «meine» Stimme ist bereit für den Einsatz.

Weil ich grad Freude an KI habe, lasse ich ChatGPT ein poetisches Textlein kreieren: «Der Frühling brachte eine sanfte Brise und die Blüten begannen, in prächtigen Farben zu erstrahlen. Während die Sonne höher am Himmel stand, erwachten die Vögel mit fröhlichem Gesang und erfüllten die Luft mit ihrem Zwitschern».

In der Welt von ChatGPT erwachen die Vögel erst wenn die Sonne hoch steht. – Egal, ich kopiere die Binärcode-Poesie ins Textfeld und klicke auf «Generate Speech». Vier Sekunden später erklingt meine digitale Stimme aus dem Lautsprecher. Faszinierend und befremdlich zugleich: Ich stamme sprachlich nicht mehr aus Zürich, sondern aus Norddeutschland. In meinem Kopf erscheint ein Bild von mir: Mit vollem Bart, Tabakpfeife und Wollmütze und steuere einen Kahn durch den Hamburger Hafen. Moin moin.

Ich verlasse mein stereotypisches Gedankenspielchen und höre mir die Aufnahme nochmals an. Hm, so ganz überzeugt mich das Ergebnis nicht. Es vermag zwar den Klang meiner Stimme zu imitieren, aber Aussprache, Rhythmik und Idiom sind verfälscht.

In Anbetracht dessen, dass so etwas bis vor Kurzem nicht oder nur mit enormem Aufwand möglich war, sind wir hier doch schon im Si-Fi-Zeitalter. Man denke an Terminator 2: «Your foster parents are dead.»

Stimme mit Elevenlabs «Instant Voice Cloning»

Es geht auch professioneller

Ich teste die zweite Option «Professional Voice Cloning». Damit ElevenLabs meine Stimme synthetisieren kann, müssen diesmal mindestens drei Stunden Sprachmaterial bereitgestellt werden, besser sind fünf (!). Vor meinem geistigen Auge sehe ich mich The Lord oft he Rings in ein Mikrofon einsprechen … Glücklicherweise existieren bereits viele Sprachaufnahmen von mir, die ich aus dem Archiv holen kann. Ich lade vier Stunden Audiomaterial hoch und nenne meine digitale Stimmkopie «AIoli». Meine Stimme wird nun mit Deep Learning synthetisiert. Ab jetzt beginnt die Warterei. Elevenlabs stellt das Ergebnis in etwa vier Wochen in Aussicht. Es werden zehn …

Was aus meinem Lautsprecher erklingt, haut mich um. Das bin wirklich ich! Ein metaphysisches Gruseln überkommt mich.

Dann die E-Mail von Elevenlabs: «Ihre Stimme ist bereit.» Ich kann es kaum erwarten! KI-Poesie ins Textfeld und Go. Was aus meinem Lautsprecher erklingt, haut mich um. Das bin wirklich ich! Ein metaphysisches Gruseln überkommt mich. – Alles, was ich noch an der einfachen Version kritisiert hatte, ist nun (erschreckend) gut umgesetzt. Was mich vor allem beeindruckt: Der Schweizer Akzent im Hochdeutschen ist klar erkennbar. Ich bin begeistert und gegruselt. Ich werde neue Bereiche der Resilienz aufbauen müssen …

Stimme mit Elevenlabs «Professional Voice Cloning»

Originale (humane) Stimme des Sprechers (und Autors) Oliver Müller – Text KI-generiertes Gedicht.

Ende der Fahnenstange?

Wird mich KI ersetzen? Sind meine Zeiten als Sprecher bald vorbei? – Nun, ich sehe es eher als Entlastung und als Chance zur Weiterentwicklung meiner Professionalität. Ich kann mich auf anspruchsvolle Sprechaufträge in Medienproduktionen von Dauer konzentrieren. Und irgendwie spornt mich die Konkurrenz der KI-generierten Stimmen auch an, meine eigene Sprechkompetenz weiterzuentwickeln.

Der Bedarf an Humanstimmen für einfache Medienproduktionen wird wohl zurückgehen, dies könnte zum Problem für Sprecher:innen werden, welche ihr Geld hauptsächlich mit Sprechaufträgen verdienen. Trotzdem, professionelle Humanstimmen werden in absehbarer Zeit weiterhin gefragt sein. Die Tonalität der generierten Texte ist zwar gut, aber jede Aufnahme tönt ähnlich. Die Einstellmöglichkeiten für die Emotionalität sind sehr begrenzt. Für ein Hörspiel zum Beispiel sind sie untauglich.

Was beim intensiven Testen ebenfalls auffällt: Manche Wörter werden teilweise falsch ausgesprochen. Ich teste weiter und plage meinen Sprachzwilling mit einem Text, der mit Helvetismen gespickt ist: «Ich fahre mit dem Zug von Luzern nach Aarau mit dem Halbtax und einem Sparbillett. Dort treffe ich Beat Zgraggen. Ich will ihm eine Garette, eine Gelte und einen Harass abkaufen. Er zügelt und muss ausmisten. Auf der Höhe Ebikon ruf ich ihn auf dem Natel an. Er sitzt gern in der Beiz oder im Bahnhofsbuffet. Vor allem bei der Metzgete, da nimmt er auch gerne einen Pflümli zum Apéro.» Hier hat es deutlich «Luft nach oben».

Die Stimme mit Elevenlabs «Professional Voice Cloning» kämpft sich durch Helvetismen.
Originale (humane) Stimme des Sprechers (und Autors) Oliver Müller – Text mit Helvetismen.

Wohin führt das?

Mit einer Zukunftsprognose bin ich zurückhaltend. Oft projizieren wir gegenwärtige Begeisterung oder Befürchtungen in die Zukunft, woraus falsche Prognosen entstehen können. Dennoch: Die KI-basierte Sprachausgabe ist ein bedeutender Fortschritt, Veränderungen sind sehr wahrscheinlich. So hat zum Beispiel die Funktion «Text to Speech» grosses Potenzial und sie wird bereits eingesetzt, etwa zum Vorlesen von Zeitungsartikeln. KI-generierte Stimmen sind kostengünstig und schneller produziert. Vieles wird daher in Zukunft wahrscheinlich durch eine KI erledigt.

Wem gehört die Stimme? Ähnlich wie bei geistigen Schöpfungen stellen sich rechtliche und ethische Fragen.

Wo ich meine KI-generierte Stimme bestimmt einsetzen werde: Bei einfachen Erklärvideos oder Reportagen mit wenigen Off-Stimmen. Dies ermöglicht meinen Kollegen in der Medienproduktion, «mich zu verwenden», ohne mich zu behelligen. Win-Win, irgendwie, oder?

Eine zentrale Frage wird zu klären sein: Wem gehört die Stimme? Ähnlich wie bei geistigen Schöpfungen stellen sich rechtliche und ethische Fragen, wie dieses Beispiel zeigt: Hollywood-Star Scarlett Johansson verlangt von OpenAI Aufklärung darüber, warum eine von ChatGPT verwendete KI-Stimme ihrer eigenen verblüffend ähnelt (4).

Was mich betrifft. Ich bleibe entspannt und bin zuversichtlich, dass ich auch in Zukunft spannende Sprechaufträge ausführen darf.

Autor: Oliver Müller, Multimedia-Produzent PHZH

15.12.2024

Zur Vertiefung

  1. Elevenlabs – Text-to-Speech AI-Tool
  2. Elevenlabs Voice Cloning
  3. Wikipedia Sprachsynthese – was ist das
  4. Watson Newsartikel ChatGPT-Stimme: Scarlett Johansson schaltet ihre Anwälte gegen OpenAI ein

Feedback

Ich fand diesen Text hilfreich:

Beim Speichern deiner Bewertung ist ein Fehler aufgetreten.

Vielen Dank für deine Bewertung.

Foto: Adobe Stock

#KünstlicheIntelligenz
Maschinelle Übersetzung: Ende des Sprachenlernens?

Von der Geschäftskorrespondenz bis zur Liebeserklärung wird heute alles blitzschnell, mit Hilfe von KI übersetzt. Es ist normal geworden, fremdsprachige Webseiten und Artikel mit einem Klick in der eigenen Sprache lesbar zu machen. Dafür gibt es eine Fülle von Übersetzungs-Apps wie DeepL (1) oder Google Translate (2), um nur die bekanntesten zu nennen. Tools, wie wir sie bislang nur aus Science-Fiction-Filmen kannten, sind Wirklichkeit geworden. Die Verfügbarkeit von Übersetzungstools wirft für die Schule Fragen auf, ob und auf welche Weise solche Tools sinnvoll in den Unterricht integriert werden können und wie sie den Fremdsprachenunterricht verändern.

In Kürze zum Hören

Die Entwicklung von Übersetzungstools läuft rasend schnell. Befeuert durch künstliche Intelligenz gibt es bereits Dienste, die neben Text und Audio auch Videobotschaften übersetzen und authentische Videos von Personen erstellen, die sogar lippensynchron in der gewünschten Sprache sprechen. (3) Doch auf welchen Technologien basieren diese Tools und sind die maschinellen Übersetzungen in jeder Beziehung verlässlich?

Wie neuronale Netze die Übersetzung revolutionieren

Die erste Generation maschineller Übersetzung stützte sich auf Statistiken, die neue Generation setzt auf künstliche Intelligenz (KI). Diese Übersetzungssysteme verwenden «Large Language Models» (LLMs), die auf künstlichen neuronalen Netzen basieren und mit riesigen Datenmengen trainiert werden. LLMs berücksichtigen den ganzen Text und nicht nur die letzten Worte, um die passende Übersetzung zu finden. Durch ihre besondere Fähigkeit, Kontext und Bedeutung zu erfassen und zu verarbeiten, liefern neuronale Netze deutlich bessere Übersetzungen. Diese lesen sich natürlicher und flüssiger und kommen näher an menschliche Übersetzungen heran als Übersetzungen basierend auf statistikbasierten Systemen.

Die maschinelle Übersetzung hat inzwischen eine derart hohe Qualität erreicht, dass viele Übersetzungsbüros sie einsetzen, um ihre Arbeit zu beschleunigen. Auch im digibasics-Projekt wird maschinelle Übersetzung erfolgreich eingesetzt. Dennoch ist es weiterhin notwendig, dass ein Mensch die generierten Ergebnisse überprüft und nachbearbeitet, um beispielsweise die Fachsprache anzupassen oder nicht adäquate Formulierungen zu eliminieren.

Die maschinelle Übersetzung ist so gut, dass die meisten Übersetzungsagenturen sie einsetzen, um ihre Arbeit zu beschleunigen. Wir verwenden diese auch bei digibasics.

Wo die Maschine noch versagt

Ein Problem bei maschinellen Übersetzungssystemen ist die Übernahme von Stereotypen und Vorurteilen aus den Trainingsdaten. Neuronale Netze lernen aus einem Textkorpus, und diese Texte können gesellschaftliche Vorurteile, Ungleichheiten sowie unzureichende oder gar irreführende Darstellungen der Realität widerspiegeln. Dies lässt sich gut an der Übersetzung von Berufsbezeichnungen aus dem Englischen veranschaulichen. Im Englischen ist das Geschlecht bei Berufsbezeichnungen meist nicht angegeben, während im Deutschen eine männliche und eine weibliche Form existiert. Bei der Übersetzung solcher Begriffe reproduzieren maschinelle Systeme häufig Geschlechterstereotype, etwa wenn nurse einfach mit «Krankenschwester» oder engineer mit «Ingenieur» wiedergegeben wird. Der digibasics-Beitrag «Bilder generieren statt Google-Suche» thematisiert diese Problematik eingehend. (4)

Bild: DeepL Geschlechterstereotype

Das Beispiel DeepL

Im Jahr 2017 ging der Kölner Übersetzerdienst DeepL online und machte bald Schlagzeilen, weil er in Blindtests bessere Resultate lieferte als die Konkurrenten von Google und Microsoft. (7) Mit der kostenlosen Version als App für iOS und Android, MacOS oder Windows können kürzere Texte auf einfache Weise übersetzt, und mit «DeepL Write» können die Rechtschreibung und der Schreibstil optimiert werden. Die kostenpflichtige Version von DeepL bietet zusätzliche Vorteile: Man kann unbegrenzt lange Texte und ganze Dokumente in verschiedenen Formaten (.docx, .pdf, pptx) hochladen und in Sekunden übersetzen lassen, was Zeit und Aufwand spart. Bei der kostenpflichtigen Version von DeepL Write kann zudem der Schreibstil gewählt werden (einfach, geschäftlich, akademisch).

AI und Übersetzungen in der Schule

Die Kollegen der Pädagogischen Hochschule im Tessin, die SUPSI Locarno, erwähnen in ihrem Beitrag in Italienisch (5) die Publikation Maschinelle Übersetzungstools im Fremdsprachenunterricht von Alloatti und Montemarano (6). Darin schlagen die Autorinnen Unterrichtsaktivitäten mit Nutzung von Übersetzungstools vor, beispielsweise werden die Lernenden mit der Übersetzung von Witzen oder humorvollen Texten konfrontiert und müssen beurteilen, ob das Übersetzungstool den Witz übersetzen kann und wo respektive wie Fehler entstehen.

Bild: Deepl-Übersetzung eines Witzes

Ist es noch nötig, eine Sprache zu lernen?

Auch wenn automatische Übersetzungstools heute noch Einschränkungen besitzen, können wir uns vorstellen, dass sie noch besser werden und alltägliche Übersetzungsaufgaben (Nachrichten, Wettervorhersagen, Touristeninformationen, Geschäftsbriefe usw.) vermehrt von Maschinen übernommen werden. Wie können wir Schüler:innen dazu motivieren, sich mit Fremdsprachen zu beschäftigen? Und ist es überhaupt noch nötig, eine Fremdsprache zu erlernen, oder wird dies eine veraltete Fähigkeit sein, die nur noch Linguist:innen vorbehalten ist?

Vielleicht führt die Verbreitung von automatischen Übersetzungstools dazu, die kulturelle und identitätsstiftende Dimension des Zweitspracherwerbs wieder neu zu entdecken.

Eine Sprache zu lernen bedeutet auch, eine andere Kultur «von innen» kennenzulernen, die Welt mit anderen Augen zu sehen, sich selbst in einem neuen Licht zu betrachten. Vielleicht führt die Verbreitung von automatischen Übersetzungstools dazu, die kulturelle und identitätsstiftende Dimension des Zweitspracherwerbs wieder neu zu entdecken.

Autoren: Miriano Romualdi (SUPSI), David Gavin (PHZH)

25.06.2024

Zur Vertiefung

  1. DeepL
  2. Google Translate
  3. HeyGen – Videoerstellung mit KI
  4. digibasics-Beitrag «Bilder generieren statt Google-Suche»
  5. digibasics-Beitrag «IA e traduzione automatica: fino a dove?»
  6. Sara Alloatti und Letizia Martini. Maschinelle Übersetzungstools im Fremdsprachenunterricht (2021). Mit Unterrichtsbeispielen für das Fach Italienisch
  7. «Warum KI-Übersetzer so gut funktionieren» (Der Beitrag datiert vom Januar 2022. Die im Abschnitt «Wo die Maschine noch scheitert» erwähnten Einschränkungen sind seither weitestgehend überholt.)
     

Feedback

Ich fand diesen Text hilfreich:

Beim Speichern deiner Bewertung ist ein Fehler aufgetreten.

Vielen Dank für deine Bewertung.

Foto: Midjourney

#KünstlicheIntelligenz
Bilder generieren statt Google-Suche

Suchst du ein passendes Bild für deine Präsentation? Möchtest du einen Blogbeitrag illustrieren? Oder einfach prokrastinieren und etwas Neues ausprobieren? Mit KI-basierten Bildgeneratoren wie Midjourney ist all das möglich. – Noch nie war es so einfach, mittels Text-to-Image-Tools Bilder für ganz unterschiedliche Zwecke zu kreieren. Es gibt also gute Gründe, KI und Bildgeneratoren in der Schule zum Thema zu machen. 

In Kürze zum Hören

Wie funktioniert das? 

Um ein Text-to-Image-Tool zu nutzen, gebe ich als User eine sprachliche Anweisung (einen sogenannten «Prompt») ein und erhalte wenige Augenblicke später ein Bild. An diesem Prompt feile ich so lange, bis ich mit dem generierten Bild zufrieden bin. Dabei kann ich unterschiedliche Parameter vorgeben, also sehr genau mitteilen, was ich möchte: Bildformat, Stil, Perspektive, Farbstimmung und vieles mehr. Für Tipps zu den ersten Schritten und verfügbaren Parametern siehe «Zur Vertiefung» unten. (1) 

Text-to-Image-Tools verwenden ein «grosses Sprachmodell», ein sogenanntes Large Language Model (LLM), um Bilder aus sprachlichen Anweisungen zu generieren. Das LLM wird anhand eines riesigen Datensatzes von Texten und Bildern trainiert, damit das Sprachmodell die Bedeutung der Texteingaben «versteht» und Bilder generiert, die zu diesen Bedeutungen passen. 

Das Large Language Model der Bildgeneratoren ist mit Daten von Menschen gefüttert und trainiert worden und kann somit typische gesellschaftliche Verzerrungen aufweisen.

Leg los!

Du hast es noch nie versucht? Ein niederschwelliger Einstieg könnte zum Beispiel Bing Image Creator sein. Log dich mit deinem Microsoft-365-Account ein und generiere einige Bilder deiner Wahl. Es lassen sich selbstverständlich auch andere Bildgeneratoren verwenden. Hier eine unvollständige Auswahl: 

  • Midjourney (Damit wurden die Beispiele in diesem Beitrag erstellt.) 
  • Dall-E (OpenAI) 
  • Stable Diffusion 
  • Adobe Firefly 
  • Fobizz KI-Tools 
  • Copilot (bald in Microsoft-365 integriert / Vor der Nutzung von Microsoft Copilot mit Lernenden werden wohl vorher etwelche datenschutzrechtliche Fragen geklärt werden müssen) 

Das KI-Konzept mit Studierenden visualisieren  

Inspiriert von Neele Hirsch (siehe «Zur Vertiefung» unten; 2.) hat Andi Brugger (PHSH) mit Studierenden der PH Schaffhausen im Herbst 2023 abstrakte Sachverhalte visualisiert. Ausgehend von der Frage «Wie stellst du dir eine KI vor?» formulierten die Studierenden in Tandems Prompts für Midjourney. Das gemeinsame Nachdenken über Vorstellungen zu KI diente der Reflexion.  

Eine gewisse «Prompt-Engineering-Kompetenz» ist nötig. Also die Kompetenz, zielführende sprachliche Anweisungen zu verfassen.

In einem weiteren Schritt verglichen die Studierenden die erhaltenen Bilder mit ihren eigenen Vorstellungen, verfeinerten die Prompts und liessen sich neue Bilder generieren. Es war eindrücklich zu sehen, dass sich auf diese Weise abstrakte Themen visualisieren liessen. Die Übung zeigt, dass Bilder nach der ersten Eingabe oft noch nicht brauchbar sind, da sie noch nicht dem inneren Vorstellungsbild entsprechen. Es braucht daher einiges an Prompt-Arbeit, um wirklich passende Bilder erzeugen zu lassen. So kann ein Beitrag zur Entwicklung gewisser Fertigkeiten beim Formulieren von Prompts («Prompt-Engineering-Kompetenz») geleistet werden. 

Prompt: A large interconnected flowchart, linked within a huge network, It processes vast amounts of data in a short time, digital art –ar 1:1 / Quelle: Midjourney

Prompt: AI as a fly agaric mushroom in a magical forest, with fog on the ground, the many mycelia in the soil flash and sparkle like cables, through which knowledge zips back and forth, digital art –ar 1:1 / Quelle: Midjourney

Prompt: Various connected giant servers with blinking lights, many cables, humming and buzzing like a semi-living monster, ultra realistic –ar 1:1 / Quelle: Midjourney

Prompt: A computer with a brain does all the work while an overweight worker sleeps in a chair with snacks in his arms, evokes laugher, digital art –ar 1:1 / Quelle: Midjourney

Kritisches Denken und kreatives Gestalten mit KI 

Von der Visualisierung von Glaubenssätzen und Konzepten bis hin zur Illustration eigener Webseiten bietet KI eine grosse Palette an Möglichkeiten der Auseinandersetzung. So können die Lernenden versuchen, abstrakte Konzepte oder Sachverhalte zu visualisieren, wie oben im Beispiel beschrieben. Lernende können auch eigene Bilder erstellen, die ihre Interpretation eines Themas widerspiegeln und kritische Denkfähigkeiten sowie kreative Problemlösungskompetenzen weiterentwickeln. Ganz wichtig dabei sind das Gespräch und der gemeinsame kritische Austausch über die Bilder. 

In der Praxis hat es sich schon als hilfreich erwiesen, Methoden zu visualisieren und anhand eines Bildes mit einer Lerngruppe rascher ins Machen zu kommen. Weiter können Symbolbilder, Visualisierungen oder Illustrationen für eigene Präsentationen, Geschichten und (Lern-)Produkte aller Art verwendet werden. Auch die Kreation von Wimmelbildern ist möglich. Man denkt gemeinsam mit den Lernenden darüber nach, was ein typisches Wimmelbuch ausmacht und welchen Stil man anstrebt. Zuletzt sind auch reine Spassbilder denkbar, weil es schlicht ganz viel Freude macht. Siehe KI-generierte Bilder, die im Rahmen einer KI-Kunst-Woche entstanden sind: «Zur Vertiefung» (3). 

Prompt: symbol for deep learning and focus, alpha waves, evokes flow, evokes happiness, integrate music of some sort, icon art, digital art –ar 1:1 / Quelle: Midjourney

Prompt: Erstelle ein sehr detailliertes Wimmelbild mit vielen Szenen Kuchen anschneiden, Federball spielen, Fussball spielen, Puzzle spielen, Ballone steigen lassen, baden nur Tiere, keine Menschen alles im Kinderbuch-Stil Thema: Geburtstagsparty im Wald / Quelle: DALL-E

Prompt: little adventurous girl wearing a flower dress and a beenie, blond hair, white plain background, jim field children’s book style –ar 3:2 / Quelle: Midjourney

Prompt: birds view, 3 people in a circle, seated on comfy chairs, evokes happiness and trust, ultra-realistic –ar 16:9 / Quelle: Midjourney

Bildgeneratoren in der Schule – Warum? 

KI im Allgemeinen und Bildgeneratoren im Speziellen werden aus unserer Welt nicht mehr verschwinden. Deshalb lohnt es sich, diese Phänomene in der Schule zu behandeln. Bing Image Creator & Co. können aus unterschiedlichen Gründen in der Schule eingesetzt und thematisiert werden. Hilfreich für die Einordnung sind der Lehrplan 21 und das Dagstuhl-Dreieck. Letzteres bietet einen Rahmen, um technologische Phänomene aus unterschiedlichen Perspektiven anzugehen und mit den Lernenden zu thematisieren. Siehe Erklärungen zum Dagstuhl-Modell in «Zur Vertiefung» (4). 

Dagstuhl-Dreieck: Visualisierung Digitale Bildung aus drei Perspektiven / Quelle: https://mia.phsz.ch/Dagstuhl

Die bisher gezeigten Beispiele bewegen sich mehrheitlich auf der anwendungsorientierten Ebene. Im Unterschied zur Bildsuche mit einer traditionellen Suchmaschine lassen sich mit Bildgeneratoren passgenaue und einzigartige Bilder für ein spezifisches Thema generieren. Dabei zeigt sich rasch, dass (vergleichbar mit Textgeneratoren wie ChatGPT) die Fähigkeit, zielführende sprachliche Anweisungen zu verfassen, nötig ist.  

Das Erstellen von Bildern für eigene Vorhaben ist zudem eine ausgezeichnete Möglichkeit, «mit Medien über Medien» zu lernen. Es bietet sich beispielsweise an, Themen wie Urheberrecht und Bias (Verzerrung) zu thematisieren und so eine andere Perspektive im Dagstuhl-Dreieck einzunehmen. 

Bias – Die versteckten Botschaften 

Man kann das Phänomen Bildgenerierung auch mit der gesellschaftlich-kulturellen Brille (3) betrachten. Das LLM der Bildgeneratoren ist mit Daten von Menschen gefüttert und trainiert worden und kann somit typische gesellschaftliche Biases (Verzerrungen oder Vorurteile) aufweisen. Es lohnt sich, mit den Lernenden Bilder zu analysieren, die auf gewisse Prompts ausgegeben werden. Warum ist es so, dass bei vier Anfragen zu Pflegeberufen mehrheitlich Frauen dargestellt werden? Und weshalb werden bei Führungspersonen meistens Männer dargestellt? – Solche Fragen helfen zu verstehen, dass auf bestehende Daten zugegriffen wird und die erzeugten Bilder nicht vor Stereotypisierungen und anderen verzerrten Darstellungen der Realität geschützt sind. Wie tief man als Lehrperson mit den Lernenden in die gesellschaftlich-kulturelle Ebene eintauchen kann und will, hängt vom Alter der Lernenden sowie vom Know-how der Lehrperson ab. 

Prompt: nurse in a modern hospital, caring, evokes hope, ultra realistic –ar 16:9 / Quelle: Midjourney

Prompt: nurse at work, modern hospital, evokes hope, ultra realistic –ar 16:9 / Quelle: Midjourney

Informationsqualität und Fake News 

Im Weiteren können Lernende Bilder bezüglich ihrer Echtheit analysieren. Zuerst erstellt die Lehrperson selbst Bilder und lässt diese von den Lernenden anhand verschiedener Kriterien analysieren. Sind die echt? Ist die Szene auf dem Bild wirklich denkbar und möglich? In einem weiteren Schritt können die Lernenden dann selbst Bilder erstellen, die von der Lerngruppe wiederum auf ihre Echtheit überprüft werden. Dies kann mit Elementen des Lehrmittels Connected oder den MIA-Stickerheftern vertieft werden. Siehe «Zur Vertiefung» (5) und (6). 

Urheberrecht 

Eine weitere Herausforderung generativer KI-Modelle ergibt sich im Zusammenhang mit dem Urheberrecht. Es stellt sich die grundlegende Frage, wem die mit KI-Tools generierten Inhalte gehören. Dies lässt sich aktuell nicht pauschal beantworten, da die Rechtslage von mehreren Faktoren abhängt. Diese sind unter anderem: 

  • Urheberrechtsgesetze des jeweiligen Landes 
  • Nutzungsbedingungen der Plattform, die die KI betreibt. 

Bei der Nutzung von Bildgeneratoren ist es wichtig zu wissen, dass die Bilder nicht der Nutzerin oder dem Nutzer alleine gehören. Midjourney selbst zum Beispiel behält sich das Recht vor, die Bilder eigenständig zu vermarkten. 

Es stellt sich die grundlegende Frage, wem die mit KI-Tools generierten Inhalte gehören. Dies lässt sich aktuell nicht pauschal beantworten.

Weiterentwickelte KI-Tools und Datenschutz 

Wie alle Tools entwickeln sich auch die KI-Bildgeneratoren weiter. Ein grosser Schritt für viele Schulen in der Schweiz wird die Integration von Microsofts Copilot sein, die im Laufe des Jahres je nach Lizenzmodell vollzogen wird. Aber vor der Nutzung von KI-Tools wie dem Microsoft Copilot mit Schüler:innen werden nicht wenige datenschutzrechtliche Fragen geklärt werden müssen. Auch Midjourney (siehe «Zur Vertiefung» 7 und 8) entwickelt sich permanent weiter. So ist im Januar 2024 die Alpha-Version 6 veröffentlicht worden. In der Folge werden durch weitere Updates noch realistischere Bilder und neue Möglichkeiten zur Comic-Erstellung möglich. Die Prompt-Struktur von Midjourney scheint deutlich überarbeitet worden zu sein und wird ein Umdenken erfordern. – Viel Spass beim Ausprobieren! 

Autor: Andi Brugger (PH Schaffhausen)

15.03.2024

Zur Vertiefung

  1. Parameter anpassen in einem Prompt für Midjourney (Bildformat, Bildstil, Farbstimmung etc.) 
  2. eBildungslabor von Neele Hirsch. Blog-Post Interaktive Übung zur Reflexion von KI
  3. Link zum Notizbuch (Evernote) mit KI-generierten Bildern im Rahmen einer KI-Kunst-Woche. 
  4. Das Dagstuhl-Dreieck in Kürze erklärt.
  5. Lehrmittel Connected 1. S.52ff. Informationen auf den Puls fühlen
    Lehrmittel Connected 4, S29ff. Fakes im Netz
  6. MIA-Stickerheft
  7. Midjourney Homepage 
  8. YouTube-Tutorial zur Installation von Midjourney 
  9. AI unplugged. KI in der Schule ohne Strom thematisieren. Angebot von Stefan Seegerer und Annabel Lindner 

Feedback

Ich fand diesen Text hilfreich:

Beim Speichern deiner Bewertung ist ein Fehler aufgetreten.

Vielen Dank für deine Bewertung.

Wes Cockx & Google DeepMind / Better Images of AI / AI large language models / CC-BY 4.0

#KünstlicheIntelligenz
ChatGPT im Klassenzimmer 

ChatGPT hat innert kürzester Zeit eine enorme Verbreitung erreicht und das Echo in den Medien war gross. Während das Tool von einigen als Beginn einer neuen Ära gefeiert wird, betrachten es andere als potenzielle Bedrohung. Schnell hat sich gezeigt, dass auch das Bildungssystem vor neue Herausforderungen gestellt wird. Es ist daher wichtig, dass sich Lehrpersonen mit ChatGPT auseinandersetzen, um Anwendungen im Unterricht sowie den unreflektierten Einsatz durch Schüler:innen zu erkennen. 

In Kürze zum Hören

Was ist ChatGPT? 

Im Wesentlichen handelt es sich um einen KI-gesteuerten Chatbot, der in der Lage ist, Spracheingaben zu «verstehen», Bilder und Dokumente zu «interpretieren» und Dialoge in unterschiedlichen Sprachen zu führen. Da Chatbots aktuell weder Selbstwahrnehmung haben, noch über emotionale Intelligenz, echtes Verständnis oder so etwas wie Vernunft verfügen, sind sie nicht im eigentlichen Sinne «intelligent». Dennoch sind sie in der Lage, all dies erstaunlich überzeugend zu simulieren. Texte werden aufgrund statistischer Wahrscheinlichkeit begonnen und fortgeführt. Die scheinbare Intelligenz von ChatGPT beruht auf der Mustererkennung in enormen Mengen von Trainingsdaten. Der Chatbot verfügt nicht über ein echtes Verständnis der eigegebenen oder generierten Texte, was gelegentlich zu Falschaussagen oder frei erfundenen Angaben (sogenannten Halluzinationen) führt. Die aktuelle Version von ChatGPT (Stand Dezember 2023) wurde mit Texten aus dem Internet bis 2021 trainiert. Neuere Versionen können aber bereits Webinhalte durchsuchen und über Plugins diverse Datenbanken und Webdienste nutzen, um bessere Antworten zu liefern. ChatGPT eignet sich bisher nur beschränkt zur Generierung von Faktenwissen. Ausgegebene Daten müssen deshalb kritisch auf Plausibilität und inhaltliche Korrektheit überprüft werden. 

ChatGPT kann nicht nur Schreibaufgaben übernehmen, sondern bietet auch Raum für kreatives Brainstorming und Individualisierung des Unterrichts. 

Unterrichtsvorbereitung mit ChatGPT 

ChatGPT dient nicht nur als hilfreiches Werkzeug beim Formulieren von Texten wie Briefen oder Zusammenfassungen, sondern bietet auch Möglichkeiten für kreatives Brainstorming und die individuelle Gestaltung des Unterrichts. Hierzu einige konkrete Anwendungsbeispiele: 

  • Kreatives Schreiben: Lehrpersonen können ChatGPT nutzen, um inspirierende Schreibaufgaben zu entwerfen, die Schüler:innen dazu motivieren, sich auf neue und anregende Weise mit Sprache auseinanderzusetzen. 
  • Vorbereitung des Fremdsprachenunterrichts: ChatGPT übersetzt Texte in nahezu jede Sprache, was Lehrpersonen dabei unterstützt, Unterrichtsmaterialien in der Zielsprache zu erstellen oder zu adaptieren. Darüber hinaus können interaktive Dialogszenarien entworfen werden, die dann im Unterricht als Übungen oder Rollenspiele Verwendung finden. 
  • Individualisierung: ChatGPT kann dabei helfen, komplexe Texte zu vereinfachen, um Lernmaterialien an unterschiedliche Sprachniveaus anzupassen. Es lassen sich auch Transkripte von YouTube-Videos erstellen, die als Basis für Diskussionen oder Aufgaben dienen. Darüber hinaus unterstützt ChatGPT Lehrpersonen dabei, Übungsaufgaben in unterschiedlichen Schwierigkeitsstufen zu generieren. 
  • Erstellung von Quiz und Tests: ChatGPT bietet Lehrpersonen die Möglichkeit, Fragen oder Übungstexte zu einem bestimmten Thema sowie in unterschiedlichen Schwierigkeitsstufen von Lückentexten bis zu Multiple-Choice-Fragen zu generieren, was das Erstellen von Arbeitsblättern und Übungsaufgaben beschleunigt. 
  • Generierung von Kriterienrastern: Durch Eingabe spezifischer Anforderungen oder Kriterien, erstellt ChatGPT detaillierte und personalisierte Bewertungsraster. 
  • Brainstorming: ChatGPT lässt sich als Brainstorming-Werkzeug für eine Vielzahl von pädagogischen Aktivitäten nutzen, beispielsweise um Ideen für Lernspiele zu generieren, inspirierende Einstiege und Abschlüsse für Lektionen zu entwerfen, passende Analogien für komplexe Konzepte zu finden («Erkläre Kernfusion so, dass es ein Kind versteht.») und kreative Texte wie Theaterstücke, Gedichte oder Geschichten zu erstellen. 

Chat GPT im Unterricht

Lernende unter 18 Jahren sollten ChatGPT nur mit bestimmten Vorgaben nutzen. Bei einem Einsatz im Unterricht gilt es, eine Registration mit einer E-Mail-Adresse zu vermeiden. Es gibt verschiedene Anbieter, die entsprechende Lösungen anbieten und Bestrebungen zum Datenschutz unternehmen (schulki.de, fobizz.com, schabi.ch), indem sie die Metadaten aus der Kommunikation mit den Chatbots herausfiltern. 

Aber auch diese Tools schützen nicht davor, dass Schülerinnen und Schüler den Chatbot mit persönlichen Daten füttern. Wie bei allen Onlinediensten erfordert der Einsatz von ChatGPT im Unterricht einen Aufbau entsprechender Medienkompetenzen sowie enge Begleitung der Aktivitäten. Sind diese Voraussetzungen erfüllt, kann ChatGPT sinnvoll im Unterricht genutzt werden.  

Neben anwendungsorientierten Fertigkeiten brauchen Lernende auch Grundlagenwissen – sowohl zur technologischen als auch zur gesellschaftlich-kulturellen Perspektive.

  • Deutschunterricht (oder Erstsprachunterricht) 
    • Arbeitsweise im Schreib-Tandem: Schüler:innen arbeiten mit ChatGPT zusammen, wobei sie einen Satz oder Absatz schreiben und ChatGPT darauf aufbauend weiterschreibt. Dies kann den Schreibprozess interaktiver und unterhaltsamer gestalten. 
    • Vorschläge zur Verbesserung eigener Texte: ChatGPT kommt als Werkzeug zur selbstständigen Überprüfung und Verbesserung von Grammatik, Syntax und Stil zum Einsatz. 
  •  Sachunterricht  
    • Erstellung von Gliederungen und Abläufen für Vorträge: ChatGPT wird genutzt, um Schüler:innen bei der Strukturierung von Vorträgen zu unterstützen. 
    • Gespräche mit historischen Personen: In einem simulierten Chat übernimmt ChatGPT die Rolle einer historischen Person. 
    • Sammeln von Pro- und Kontraargumenten für Debatten: ChatGPT unterstützt die Schüler:innen dabei, fundierte Argumente für Debatten aus unterschiedlichen Perspektiven zu entwickeln. 
  • Fremdsprachenunterricht 
    • Erstellung von Wortlisten zu bestimmten Themenbereichen: ChatGPT generiert thematische Wortlisten in einer Fremdsprache. 
    • Durchführung von Sprachspielen: ChatGPT kann in verschiedene Sprachspiele integriert werden, um das Sprachenlernen interaktiver und unterhaltsamer zu gestalten. 
    • ChatGPT als Dialogpartner: ChatGPT übernimmt die Rolle eines Muttersprachlers bzw. einer Muttersprachlerin, um Schülerinnen und Schüler bei der Verbesserung ihrer mündlichen oder schriftlichen Kommunikationsfähigkeiten zu unterstützen. 
  • Hausaufgabenbetreuung 
    SchülerInnen stellen ChatGPT Fragen zu einer Vielzahl von Themen und erhalten in der Regel genaue und verständliche Antworten. Dies kann dazu beitragen, dass Schüler:innen ihre Hausaufgaben selbstständiger erledigen können und soziale Ungleichheiten kompensiert werden (z.B. Unterstützung durch die Eltern). 

Um Auswirkungen, Chancen und Grenzen von KI-Technologien einschätzen zu lernen, brauchen Schüler:innen zusätzlich zu anwendungsorientierten Fertigkeiten (Wie nutze ich das?) auch Grundlagenwissen – sowohl zur technologischen (Wie funktioniert das?) als auch zur gesellschaftlich-kulturellen Perspektive (Wie wirkt das?). Diese Aspekte können im Rahmen des Medien- und Informatikunterrichts vertieft werden. 

Autor:innen: Luca Botturi (SUPSI) und Janine Trütsch (PH Zürich)

18.01.2024

Zur Vertiefung

Feedback

Ich fand diesen Text hilfreich:

Beim Speichern deiner Bewertung ist ein Fehler aufgetreten.

Vielen Dank für deine Bewertung.