Voice cloning: non puoi credere alle tue orecchie

Voice cloning: non puoi credere alle tue orecchie

credits immagine: pexels-aakash-sethi

Un pomeriggio, te ne stai seduto in poltrona per goderti in santa pace il podcast con il tuo attore preferito, e di sicuro non viene da chiederti se la voce che stai ascoltando possa essere in realtà creata da un software

Il voice cloning permette di simulare artificialmente la voce di una persona. Gli attuali software di clonazione vocale basati sull’intelligenza artificiale possono generare un discorso sintetico replicando una precisa voce umana. In molti casi, l’ascoltatore medio non riesce a distinguere la voce reale da quella generata in AI.

L‘intelligenza artificiale (AI) e il Deep learning stanno innalzando gli standard di qualità del discorso sintetico. Le “semplici” applicazioni per il TTS (text to speech – testo che viene pronunciato da una voce sintetica) hanno raggiunto ormai un ottimo livello. 

Chiunque abbia interagito con un sistema di risposta vocale basato sul telefono, Amazon Alexa o Siri di Apple, sistemi di navigazione per auto o numerose altre interfacce vocali, ha avuto a che fare con il parlato sintetico.

Con alcuni minuti di registrazione della voce originale, gli sviluppatori possono addestrare un modello vocali AI in grado di leggere qualsiasi testo con la possibilità di creare dei deepfake audio che fino a poco tempo fa erano appannaggio esclusivo di alcuni villain dei film di fantascienza (chi ricorda la telefonata tra John Connor e il cattivissimo T-1000 nelle sembianze della sua matrigna, in Terminator 2?)

Di recente, il voice cloning ha prodotto risultati sbalorditivi e a volte anche un po’ macabri, che potrebbero riportare alla mente Konstantin Raudive quando tentava di captare le voci dei morti su nastro magnetico.

Nel documentario Roadrunner: A Film About Anthony Bourdain (Morgan Neville, 2021) possiamo ascoltare infatti la voce dello chef americano scomparso nel 2018, solo che non è una registrazione di quando era ancora in vita: grazie all’intelligenza artificiale sono state create alcune citazioni con la voce di Bourdain senza che quest’ultimo le abbia mai realmente pronunciate. 

Chissà, in un futuro molto prossimo si potrebbero creare serie di podcast in cui Totò si cimenta in nuove battute, Orson Welles minaccia nuove invasioni aliene o Lady D racconta i suoi ultimi istanti nel tunnel dell’Alma.

Il voice cloning ha dunque la capacità di resuscitare le voci del passato ma anche quella di convincere per esempio una voce famosa a partecipare a un podcast senza mai presentarsi in studio per registrare. E se fosse poi un autore a leggere il suo libro con l’abilità di un professionista della dizione? Le potenzialità sono molte, e molte delle quali possono essere impiegate per scopi illeciti.

Come nel caso dei deepfake dei contenuti visivi, con il voice cloning i criminali potrebbero confezionare prove false per essere scagionati o per fare incriminare altre persone, estorcere del denaro fingendosi un membro della famiglia o qualcuno di cui ci fidiamo, oppure creare disinformazione ad arte. 

Per fortuna, come per ciò che accade nell’AI writing, di cui abbiamo parlato in questo articolo, il voice cloning illegale può essere contrastato con sistemi AI che riescono a identificare il deepfake audio.

La questione interessante è però un’altra: a mano a mano che strumenti basati sull’intelligenza artificiale si evolveranno, diverrà sempre più centrale il tema della percezione umana: siamo davvero certi che ciò che vediamo, ascoltiamo o tocchiamo sia vero? Quanto possiamo contare sui nostri sensi per verificare la realtà che ci circonda? In futuro potremmo non fare più a meno dell’AI per affinare la nostra percezione e proteggerci da “ciò che non è ma sembra”.

 

Per approfondire

Dominic David, Analyzing The Rise Of Deepfake Voice Technology https://www.forbes.com/sites/forbestechcouncil/2021/05/10/analyzing-the-rise-of-deepfake-voice-technology/?sh=164968416915

Andrea Hauser, Deepfake Audio Text To Speech – an introduction

https://www.scip.ch/en/?labs.20210318

James Vincent, This is what a deepfake voice clone used in a failed fraud attempt sounds like

https://www.theverge.com/2020/7/27/21339898/deepfake-audio-voice-clone-scam-attempt-nisos

di
Maurizio Landini
Content writer e narrative designer

Se scrivo è colpa della musica. Mi è capitato un bel po’ di anni fa, ascoltando una cassetta nuova di zecca di Jean Michel Jarre, Rendez-vous, per essere precisi. Volevo in qualche modo metterla su carta e sono nate le prime poesie. Poi è successo che entrambe, la musica e la scrittura, non mi lasciassero più. Due sogni? Lavorare scrivendo e avere molti synth. Il primo si è avverato; al secondo ci sto lavorando.