Volete trascrivere automaticamente le registrazioni vocali, ad esempio per creare una trascrizione scritta di un podcast? Oppure state filmando delle lezioni e volete trascrivere la registrazione video per analizzarla? Con l’aiuto del modello di riconoscimento vocale Whisper e di strumenti come noScribe, questo lavoro può essere svolto in modo efficiente.
In breve da ascoltare
Che cos’è noScribe e che cos’è Whisper?
Lo strumento noScribe utilizza i modelli AI di Whisper per trascrivere il linguaggio parlato. Offre un modo rapido ed efficiente per creare trascrizioni. In primo luogo, lo strumento analizza il numero di parlanti diversi, quindi inizia la trascrizione. Il software noScribe è open source ed è disponibile gratuitamente. Anche i modelli di intelligenza artificiale integrati in noScribe per il riconoscimento vocale sono disponibili gratuitamente, ma le fonti non sono pubbliche.
Modello Whisper AI
Whisper (1) è un modello di riconoscimento vocale di OpenAI, propone attualmente la versione 3, ovvero è stato allenato e sviluppato mediante circa 680’000 ore di diverse tipologie di dati audio. Whisper è un Modello Multitasking, che può riconoscere voci multilingue, fare traduzioni e identificare le diverse lingue. Lo strumento trasforma la lingua parlata in testo e offre una promettente soluzione per la trascrizione di registrazioni audio come Podcasts, registrazioni di Meeting o sottotitolazioni di video. Whisper da solo non è affatto facile da utilizzare, poiché è un Toolkit e non un’applicazione completa .
Per utilizzarlo in maniera efficace, è quindi necessario usare Tools come noScribe, che ha integrato i modelli di Whisper.
Whisper capisce lo svizzero tedesco, ma non può generare trascrizioni in svizzero tedesco, solo in tedesco scritto.
Trascrizione di testi dialettali
Whisper “capisce” lo svizzero tedesco, ma non può generare trascrizioni in svizzero tedesco, solo in tedesco scritto. Durante la conversione viene effettuato un livellamento linguistico. La trascrizione è una trascrizione di testo semplice o di contenuto semantico, ma non una trascrizione parola per parola con parole di riempimento, interruzioni di frase e di parola. Ciò significa che è necessario dedicare del tempo alla revisione della trascrizione generata automaticamente.
Evitare gli strumenti online per motivi di protezione dei dati
Quando si sceglie uno strumento, è importante assicurarsi che i dati siano elaborati a livello locale per ridurre al minimo i rischi di protezione dei dati. Le interviste, in particolare, sono molto delicate in termini di legge sulla protezione dei dati. Non è quindi consigliabile utilizzare strumenti online per la trascrizione. Uno strumento in cui tutta l’elaborazione avviene localmente è noScribe, uno strumento open source gratuito sviluppato dai ricercatori dell’Università di Scienze Applicate e Arti di Lucerna e dell’Istituto per la Ricerca Sociale di Francoforte sul Meno.
È importante che lo strumento elabori i vostri dati in modo sicuro e locale per ridurre al minimo i rischi di protezione dei dati.
noScribe: Uno strumento promettente
noScribe (2) consente il suddetto trattamento locale dei dati, ossia durante la trascrizione automatica le registrazioni audio e la trascrizione rimangono sul computer dell’utente. Dal punto di vista della protezione dei dati, quindi, non è necessario stipulare accordi con un fornitore di servizi cloud, ma è necessario rispettare la protezione dei dati e ottenere i consensi necessari per la produzione e, se necessario, la valutazione supportata dall’intelligenza artificiale delle registrazioni audio.
noScribe è disponibile sia per Mac che per Windows, l’installazione è semplice e lo strumento include un utile editor per controllare e correggere la trascrizione in seguito. La velocità del riconoscimento vocale dipende dalle prestazioni dei processori e dei chip di memoria del computer.
Scaricare e installare seguendo le istruzioni di installazione in inglese o in tedesco (3). Il modo migliore per scaricare in Windows è tramite Firefox o Chrome. I passi necessari sono descritti nelle istruzioni di installazione.
Primo tentativo di avvio e trascrizione
Al primo avvio potrebbe essere necessario confermare un avviso di sicurezza. A questo punto è possibile avviare la prima trascrizione. Alla voce di menu “File audio” è possibile selezionare la propria registrazione vocale o una qualsiasi registrazione audio, ad esempio un podcast scaricato per provare. Inoltre, alla voce “Salva trascrizione come ...” è necessario assegnare un nome al file per salvare la trascrizione.
Per le registrazioni in svizzero tedesco, l‘opzione “Lingua ” deve essere lasciata su“Auto”. L’opzione “Disfluenze ” a volte porta a un livellamento indesiderato; disattivarla se necessario. Per le registrazioni lunghe, si consiglia di trascrivere prima solo pochi minuti per verificare se le impostazioni sono adatte. Questa operazione può essere limitata con “Avvio ” e “Arresto ”.
Dopo il lavoro di trascrizione, si apre automaticamente l’editor di noScribe. Questo è il secondo strumento installato e viene utilizzato per modificare la trascrizione. La trascrizione è divisa in segmenti per i diversi oratori. S00, S02 ecc. contrassegnano i segmenti. Segnando una posizione e premendo il pulsante“Play/Pausa audio ”, la registrazione può essere ascoltata e corretta esattamente in quel punto.
Nella frase evidenziata in blu, ad esempio, Whisper ha interpretato male la parola svizzero-tedesca “glustig” e l’ha trascritta come “lustig” . È sempre consigliabile rivedere la trascrizione per correggere tali errori. Dopo la revisione, la trascrizione viene salvata in formato HTML. Il file può essere importato in altre applicazioni, come un elaboratore di testi o un LMS.
La trascrizione automatica è di grande aiuto per gli insegnanti e gli studenti per quanto riguarda la progettazione accessibile di ambienti di apprendimento.
Conclusione
Trascrivere registrazioni vocali non è mai stato così facile. La tecnologia che ne è alla base sta entrando sempre più negli strumenti e nei dispositivi che utilizziamo nella vita di tutti i giorni. Soprattutto per quanto riguarda la progettazione accessibile di ambienti di apprendimento, la trascrizione automatica è di grande aiuto per gli insegnanti e gli studenti con disabilità. (4)
Autore: Christoph Steigmeier, HfH
1.10.25
Approfondimento
- Che cos’è Whisper? (OpenAI)
- noScribe: Codice sorgente, documentazione e download (Kai Dröge su Github)
- noScribe: Istruzioni e guida all’installazione (traduzione in tedesco) (PH Bern)
- Software di trascrizione automatica: un rapporto sul campo (Rebecca Schmidt)
Feedback
Grazie per la vostra recensione.