Studio U7, PH Zürich
Bild: Oliver Müller, PHZH

#IntelligenzaArtificiale
Come ho dato la mia voce all’IA

Aiuto, mi stanno sostituendo! O sono stato sollevato? Sto facendo un esperimento personale con uno strumento vocale AI. In qualità di produttore multimediale e voice-over artist specializzato in produzione video e audio, mi addentrerò nelle profondità delle voci generate dall’intelligenza artificiale. Voglio scoprire se l’IA mette sotto pressione la mia professione o se mi libera da compiti spiacevoli.

In breve da ascoltare (Parlo anche italiano – creato con AI)

Per decenni, le voci generate sembravano quelle del computer vocale di Stephen Hawkins o del sistema vocale “Anna” di Apple. Ma da quando gli strumenti di intelligenza artificiale sono spuntati come funghi, sono stati fatti grandi progressi anche in questo campo. Sto testando uno strumento di linguaggio AI sviluppato da ElevenLabs (1). ElevenLabs perché lo strumento offre la “clonazione della voce” (2) oltre a una varietà di voci. Ciò significa che il suono della mia voce può essere modellato e riprodotto (3).

Voce con uscita vocale Apple «Anna» (in tedesco)

Generare voti in modo semplice

È possibile scegliere tra due opzioni: Clonazione vocale istantanea e Clonazione vocale professionale. Se voglio ottenere un risultato il più rapidamente possibile, scelgo «Clonazione vocale istantanea». Tutto ciò che devo fare è caricare un file audio con la mia voce e aspettare un po’. Un’ora dopo torno sul sito e la «mia» voce è pronta per essere utilizzata.

Poiché al momento mi sto divertendo con l’IA, lascerò che sia ChatGPT a creare un piccolo testo poetico: «La primavera portò una leggera brezza e i fiori cominciarono a risplendere in colori gloriosi. Quando il sole salì più in alto nel cielo, gli uccelli si svegliarono con un canto allegro e riempirono l’aria con il loro cinguettio».

Nel mondo di ChatGPT, gli uccelli si svegliano solo quando il sole è alto. – Comunque, copio la poesia in codice binario nel campo di testo e faccio clic su “Generate Speech”. Quattro secondi più tardi, la mia voce digitale risuona dall’altoparlante. Affascinante e sconcertante allo stesso tempo: non sono più di Zurigo, ma della Germania settentrionale. Nella mia testa compare un’immagine di me: con la barba folta, la pipa da tabacco e il cappello di lana, al timone di una barca nel porto di Amburgo. Moin moin.

Lascio il mio gioco mentale stereotipato e riascolto la registrazione. Il risultato non mi convince del tutto. È in grado di imitare il suono della mia voce, ma la pronuncia, il ritmo e l’idioma sono distorti.

Considerando che fino a poco tempo fa una cosa del genere non era possibile, o lo era solo con uno sforzo enorme, siamo già nell’era della Si-Fi. Basti pensare a Terminator 2: «I tuoi genitori adottivi sono morti».

Voce con Elevenlabs «Instant Voice Cloning» (si tratta della poesia scritta sopra in italiano qui in tedesco)

Può essere anche più professionale

Provo la seconda opzione «Clonazione vocale professionale». Affinché ElevenLabs possa sintetizzare la mia voce, questa volta è necessario fornire almeno tre ore di materiale vocale, cinque (!) sarebbe meglio. Nella mia mente mi vedo parlare al microfono de Il Signore degli Anelli… Per fortuna ci sono già molte mie registrazioni vocali che posso recuperare dall’archivio. Carico quattro ore di materiale audio e chiamo la mia copia vocale digitale “AIoli”. La mia voce è ora sintetizzata grazie al deep learning. Ora inizia l’attesa. Elevenlabs promette il risultato in circa quattro settimane.

Quello che esce dal mio altoparlante mi lascia senza fiato. Sono davvero io! Un’inquietudine metafisica mi assale.

Poi l’e-mail di Elevenlabs: «La tua voce è pronta». Non vedo l’ora! Poesia AI nel campo di testo e via. Quello che esce dal mio altoparlante mi lascia di stucco. Sono davvero io! Un’inquietudine metafisica mi assale: tutto ciò che avevo criticato della versione semplice ora è (spaventosamente) ben implementato. Mi colpisce soprattutto il fatto che l’accento svizzero in alto tedesco sia chiaramente riconoscibile. Sono entusiasta e spaventato. Dovrò costruire nuove aree di resistenza…

Voce con Elevenlabs «Professional Voice Cloning» (in tedesco)
Voce originale (umana) dell’oratore (e autore) Oliver Müller – testo Poesia generata dall’intelligenza artificiale. (in tedesco)

Fine della corsa?

L’intelligenza artificiale mi sostituirà? I miei giorni come relatore finiranno presto? – Beh, io lo vedo più come un sollievo e come un’opportunità per sviluppare ulteriormente la mia professionalità. Posso concentrarmi su lavori di speakeraggio impegnativi in produzioni mediatiche a lungo termine. E in qualche modo la concorrenza delle voci generate dall’intelligenza artificiale mi sprona anche a sviluppare ulteriormente le mie capacità oratorie.

La domanda di voci umane per le produzioni mediatiche semplici è destinata a diminuire, il che potrebbe diventare un problema per i doppiatori che guadagnano principalmente con i lavori di voiceover. Tuttavia, le voci umane professionali continueranno a essere richieste nel prossimo futuro. La tonalità dei testi generati è buona, ma ogni registrazione suona simile. Le opzioni di impostazione dell’emotività sono molto limitate. Non sono adatte, ad esempio, a un’opera radiofonica.

Un’altra cosa che noto durante i test intensivi è che a volte alcune parole vengono pronunciate in modo errato. Continuo il test e tormento il mio gemello linguistico con un testo pieno di elvetismi: «Ich fahre mit dem Zug von Luzern nach Aarau mit dem Halbtax und einem Sparbillett. Dort treffe ich Beat Zgraggen. Ich will ihm eine Garette, eine Gelte und einen Harass abkaufen. Er zügelt und muss ausmisten. Auf der Höhe Ebikon ruf ich ihn auf dem Natel an. Er sitzt gern in der Beiz oder im Bahnhofsbuffet. Vor allem bei der Metzgete, da nimmt er auch gerne einen Pflümli zum Apéro.» Qui c’è chiaramente un «margine di miglioramento, alcune parole per chi legge il tedesco sono errate.».

La voce con Elevenlabs «Professional Voice Cloning» lotta contro gli elvetismi. (in tedesco)
Voce originale (umana) del relatore (e autore) Oliver Müller – testo con elvetismi. (in tedesco)

Dove porta questo?

Sono riluttante a prevedere il futuro. Spesso proiettiamo nel futuro l’entusiasmo o le paure del momento, il che può portare a previsioni errate. Tuttavia, la riproduzione vocale basata sull’intelligenza artificiale rappresenta un notevole passo avanti e i cambiamenti sono molto probabili. Ad esempio, la funzione «text to speech» ha un grande potenziale e viene già utilizzata, ad esempio per leggere gli articoli di giornale. Le voci generate dall’intelligenza artificiale sono più economiche e veloci da produrre. In futuro, quindi, molte cose saranno probabilmente svolte dall’IA.

A chi appartiene la voce? Come per le creazioni intellettuali, si pongono questioni legali ed etiche.

Dove userò sicuramente la mia voce generata dall’intelligenza artificiale: Per semplici video esplicativi o relazioni con poche voci fuori campo. In questo modo i miei colleghi della produzione multimediale potranno «usarmi» senza disturbarmi. Un vantaggio per tutti, in qualche modo, no?

Dovrà essere chiarita una questione centrale: A chi appartiene la voce? Come per le creazioni intellettuali, sorgono questioni legali ed etiche, come dimostra questo esempio: La star di Hollywood Scarlett Johansson chiede a OpenAI di chiarire perché la voce dell’intelligenza artificiale utilizzata da ChatGPT è straordinariamente simile alla sua (4).

Per quanto mi riguarda. Sono tranquillo e sono fiducioso che in futuro potrò svolgere ancora incarichi di relatore interessanti.

Autore: Oliver Müller, Produttore multimediale PHZH

15.12.2024

Approfondimento

  1. Elevenlabs – Text-to-Speech AI-Tool
  2. Elevenlabs Voice Cloning
  3. Wikipedia Sintesi Vocale
  4. Watson Articolo di giornale in tedesco ChatGPT-Stimme: Scarlett Johansson schaltet ihre Anwälte gegen OpenAI ein

Feedback

Ho trovato utile questo testo:

Si è prodotto un errore durante il salvataggio della valutazione.

Grazie per la vostra recensione.