Bilder generieren statt Google-Suche

Suchst du ein passendes Bild für deine Präsentation? Möchtest du einen Blogbeitrag illustrieren? Oder einfach prokrastinieren und etwas Neues ausprobieren? Mit KI-basierten Bildgeneratoren wie Midjourney ist all das möglich. – Noch nie war es so einfach, mittels Text-to-Image-Tools Bilder für ganz unterschiedliche Zwecke zu kreieren. Es gibt also gute Gründe, KI und Bildgeneratoren in der Schule zum Thema zu machen.

In Kürze zum Hören

Wie funktioniert das?

Um ein Text-to-Image-Tool zu nutzen, gebe ich als User eine sprachliche Anweisung (einen sogenannten «Prompt») ein und erhalte wenige Augenblicke später ein Bild. An diesem Prompt feile ich so lange, bis ich mit dem generierten Bild zufrieden bin. Dabei kann ich unterschiedliche Parameter vorgeben, also sehr genau mitteilen, was ich möchte: Bildformat, Stil, Perspektive, Farbstimmung und vieles mehr. Für Tipps zu den ersten Schritten und verfügbaren Parametern siehe «Zur Vertiefung» unten. (1)

Text-to-Image-Tools verwenden ein «grosses Sprachmodell», ein sogenanntes Large Language Model (LLM), um Bilder aus sprachlichen Anweisungen zu generieren. Das LLM wird anhand eines riesigen Datensatzes von Texten und Bildern trainiert, damit das Sprachmodell die Bedeutung der Texteingaben «versteht» und Bilder generiert, die zu diesen Bedeutungen passen.

Das Large Language Model der Bildgeneratoren ist mit Daten von Menschen gefüttert und trainiert worden und kann somit typische gesellschaftliche Verzerrungen aufweisen.

Leg los!

Du hast es noch nie versucht? Ein niederschwelliger Einstieg könnte zum Beispiel Bing Image Creator sein. Log dich mit deinem Microsoft-365-Account ein und generiere einige Bilder deiner Wahl. Es lassen sich selbstverständlich auch andere Bildgeneratoren verwenden. Hier eine unvollständige Auswahl:

Midjourney (Damit wurden die Beispiele in diesem Beitrag erstellt.)
Dall-E (OpenAI)
Stable Diffusion
Adobe Firefly
Fobizz KI-Tools
Copilot (bald in Microsoft-365 integriert / Vor der Nutzung von Microsoft Copilot mit Lernenden werden wohl vorher etwelche datenschutzrechtliche Fragen geklärt werden müssen)

Das KI-Konzept mit Studierenden visualisieren

Inspiriert von Neele Hirsch (siehe «Zur Vertiefung» unten; 2.) hat Andi Brugger (PHSH) mit Studierenden der PH Schaffhausen im Herbst 2023 abstrakte Sachverhalte visualisiert. Ausgehend von der Frage «Wie stellst du dir eine KI vor?» formulierten die Studierenden in Tandems Prompts für Midjourney. Das gemeinsame Nachdenken über Vorstellungen zu KI diente der Reflexion.

Eine gewisse «Prompt-Engineering-Kompetenz» ist nötig. Also die Kompetenz, zielführende sprachliche Anweisungen zu verfassen.

In einem weiteren Schritt verglichen die Studierenden die erhaltenen Bilder mit ihren eigenen Vorstellungen, verfeinerten die Prompts und liessen sich neue Bilder generieren. Es war eindrücklich zu sehen, dass sich auf diese Weise abstrakte Themen visualisieren liessen. Die Übung zeigt, dass Bilder nach der ersten Eingabe oft noch nicht brauchbar sind, da sie noch nicht dem inneren Vorstellungsbild entsprechen. Es braucht daher einiges an Prompt-Arbeit, um wirklich passende Bilder erzeugen zu lassen. So kann ein Beitrag zur Entwicklung gewisser Fertigkeiten beim Formulieren von Prompts («Prompt-Engineering-Kompetenz») geleistet werden.

Prompt: A large interconnected flowchart, linked within a huge network, It processes vast amounts of data in a short time, digital art –ar 1:1 / Quelle: Midjourney

Prompt: AI as a fly agaric mushroom in a magical forest, with fog on the ground, the many mycelia in the soil flash and sparkle like cables, through which knowledge zips back and forth, digital art –ar 1:1 / Quelle: Midjourney

Prompt: Various connected giant servers with blinking lights, many cables, humming and buzzing like a semi-living monster, ultra realistic –ar 1:1 / Quelle: Midjourney

Prompt: A computer with a brain does all the work while an overweight worker sleeps in a chair with snacks in his arms, evokes laugher, digital art –ar 1:1 / Quelle: Midjourney

Kritisches Denken und kreatives Gestalten mit KI

Von der Visualisierung von Glaubenssätzen und Konzepten bis hin zur Illustration eigener Webseiten bietet KI eine grosse Palette an Möglichkeiten der Auseinandersetzung. So können die Lernenden versuchen, abstrakte Konzepte oder Sachverhalte zu visualisieren, wie oben im Beispiel beschrieben. Lernende können auch eigene Bilder erstellen, die ihre Interpretation eines Themas widerspiegeln und kritische Denkfähigkeiten sowie kreative Problemlösungskompetenzen weiterentwickeln. Ganz wichtig dabei sind das Gespräch und der gemeinsame kritische Austausch über die Bilder.

In der Praxis hat es sich schon als hilfreich erwiesen, Methoden zu visualisieren und anhand eines Bildes mit einer Lerngruppe rascher ins Machen zu kommen. Weiter können Symbolbilder, Visualisierungen oder Illustrationen für eigene Präsentationen, Geschichten und (Lern-)Produkte aller Art verwendet werden. Auch die Kreation von Wimmelbildern ist möglich. Man denkt gemeinsam mit den Lernenden darüber nach, was ein typisches Wimmelbuch ausmacht und welchen Stil man anstrebt. Zuletzt sind auch reine Spassbilder denkbar, weil es schlicht ganz viel Freude macht. Siehe KI-generierte Bilder, die im Rahmen einer KI-Kunst-Woche entstanden sind: «Zur Vertiefung» (3).

Prompt: symbol for deep learning and focus, alpha waves, evokes flow, evokes happiness, integrate music of some sort, icon art, digital art –ar 1:1 / Quelle: Midjourney

Prompt: Erstelle ein sehr detailliertes Wimmelbild mit vielen Szenen Kuchen anschneiden, Federball spielen, Fussball spielen, Puzzle spielen, Ballone steigen lassen, baden nur Tiere, keine Menschen alles im Kinderbuch-Stil Thema: Geburtstagsparty im Wald / Quelle: DALL-E

Prompt: little adventurous girl wearing a flower dress and a beenie, blond hair, white plain background, jim field children's book style –ar 3:2 / Quelle: Midjourney

Prompt: birds view, 3 people in a circle, seated on comfy chairs, evokes happiness and trust, ultra-realistic –ar 16:9 / Quelle: Midjourney

Bildgeneratoren in der Schule – Warum?

KI im Allgemeinen und Bildgeneratoren im Speziellen werden aus unserer Welt nicht mehr verschwinden. Deshalb lohnt es sich, diese Phänomene in der Schule zu behandeln. Bing Image Creator & Co. können aus unterschiedlichen Gründen in der Schule eingesetzt und thematisiert werden. Hilfreich für die Einordnung sind der Lehrplan 21 und das Dagstuhl-Dreieck. Letzteres bietet einen Rahmen, um technologische Phänomene aus unterschiedlichen Perspektiven anzugehen und mit den Lernenden zu thematisieren. Siehe Erklärungen zum Dagstuhl-Modell in «Zur Vertiefung» (4).

Digitale Bildung aus den Perspektiven: Technologisch (wie funktioniert das?) Gesellschaftlich-kulturell (wie wirkt das?) und Anwendungsorientiert (wie nutze ich das?)

Dagstuhl-Dreieck: Visualisierung Digitale Bildung aus drei Perspektiven / Quelle: https://mia.phsz.ch/Dagstuhl

Die bisher gezeigten Beispiele bewegen sich mehrheitlich auf der anwendungsorientierten Ebene. Im Unterschied zur Bildsuche mit einer traditionellen Suchmaschine lassen sich mit Bildgeneratoren passgenaue und einzigartige Bilder für ein spezifisches Thema generieren. Dabei zeigt sich rasch, dass (vergleichbar mit Textgeneratoren wie ChatGPT) die Fähigkeit, zielführende sprachliche Anweisungen zu verfassen, nötig ist.

Das Erstellen von Bildern für eigene Vorhaben ist zudem eine ausgezeichnete Möglichkeit, «mit Medien über Medien» zu lernen. Es bietet sich beispielsweise an, Themen wie Urheberrecht und Bias (Verzerrung) zu thematisieren und so eine andere Perspektive im Dagstuhl-Dreieck einzunehmen.

Bias – Die versteckten Botschaften

Man kann das Phänomen Bildgenerierung auch mit der gesellschaftlich-kulturellen Brille (3) betrachten. Das LLM der Bildgeneratoren ist mit Daten von Menschen gefüttert und trainiert worden und kann somit typische gesellschaftliche Biases (Verzerrungen oder Vorurteile) aufweisen. Es lohnt sich, mit den Lernenden Bilder zu analysieren, die auf gewisse Prompts ausgegeben werden. Warum ist es so, dass bei vier Anfragen zu Pflegeberufen mehrheitlich Frauen dargestellt werden? Und weshalb werden bei Führungspersonen meistens Männer dargestellt? – Solche Fragen helfen zu verstehen, dass auf bestehende Daten zugegriffen wird und die erzeugten Bilder nicht vor Stereotypisierungen und anderen verzerrten Darstellungen der Realität geschützt sind. Wie tief man als Lehrperson mit den Lernenden in die gesellschaftlich-kulturelle Ebene eintauchen kann und will, hängt vom Alter der Lernenden sowie vom Know-how der Lehrperson ab.

Prompt: nurse in a modern hospital, caring, evokes hope, ultra realistic –ar 16:9 / Quelle: Midjourney

Prompt: nurse at work, modern hospital, evokes hope, ultra realistic –ar 16:9 / Quelle: Midjourney

Informationsqualität und Fake News

Im Weiteren können Lernende Bilder bezüglich ihrer Echtheit analysieren. Zuerst erstellt die Lehrperson selbst Bilder und lässt diese von den Lernenden anhand verschiedener Kriterien analysieren. Sind die echt? Ist die Szene auf dem Bild wirklich denkbar und möglich? In einem weiteren Schritt können die Lernenden dann selbst Bilder erstellen, die von der Lerngruppe wiederum auf ihre Echtheit überprüft werden. Dies kann mit Elementen des Lehrmittels Connected oder den MIA-Stickerheftern vertieft werden. Siehe «Zur Vertiefung» (5) und (6).

Urheberrecht

Eine weitere Herausforderung generativer KI-Modelle ergibt sich im Zusammenhang mit dem Urheberrecht. Es stellt sich die grundlegende Frage, wem die mit KI-Tools generierten Inhalte gehören. Dies lässt sich aktuell nicht pauschal beantworten, da die Rechtslage von mehreren Faktoren abhängt. Diese sind unter anderem:

Urheberrechtsgesetze des jeweiligen Landes
Nutzungsbedingungen der Plattform, die die KI betreibt.

Bei der Nutzung von Bildgeneratoren ist es wichtig zu wissen, dass die Bilder nicht der Nutzerin oder dem Nutzer alleine gehören. Midjourney selbst zum Beispiel behält sich das Recht vor, die Bilder eigenständig zu vermarkten.

Es stellt sich die grundlegende Frage, wem die mit KI-Tools generierten Inhalte gehören. Dies lässt sich aktuell nicht pauschal beantworten.

Weiterentwickelte KI-Tools und Datenschutz

Wie alle Tools entwickeln sich auch die KI-Bildgeneratoren weiter. Ein grosser Schritt für viele Schulen in der Schweiz wird die Integration von Microsofts Copilot sein, die im Laufe des Jahres je nach Lizenzmodell vollzogen wird. Aber vor der Nutzung von KI-Tools wie dem Microsoft Copilot mit Schüler:innen werden nicht wenige datenschutzrechtliche Fragen geklärt werden müssen. Auch Midjourney (siehe «Zur Vertiefung» 7 und 8) entwickelt sich permanent weiter. So ist im Januar 2024 die Alpha-Version 6 veröffentlicht worden. In der Folge werden durch weitere Updates noch realistischere Bilder und neue Möglichkeiten zur Comic-Erstellung möglich. Die Prompt-Struktur von Midjourney scheint deutlich überarbeitet worden zu sein und wird ein Umdenken erfordern. – Viel Spass beim Ausprobieren!

Autor: Andi Brugger (PH Schaffhausen)

15.03.2024

Zur Vertiefung

Parameter anpassen in einem Prompt für Midjourney (Bildformat, Bildstil, Farbstimmung etc.)
eBildungslabor von Neele Hirsch. Blog-Post Interaktive Übung zur Reflexion von KI
Link zum Notizbuch (Evernote) mit KI-generierten Bildern im Rahmen einer KI-Kunst-Woche.
Das Dagstuhl-Dreieck in Kürze erklärt.
Lehrmittel Connected 1. S.52ff. Informationen auf den Puls fühlen
Lehrmittel Connected 4, S29ff. Fakes im Netz
MIA-Stickerheft
Midjourney Homepage
YouTube-Tutorial zur Installation von Midjourney
AI unplugged. KI in der Schule ohne Strom thematisieren. Angebot von Stefan Seegerer und Annabel Lindner

Vielen Dank für deine Bewertung.