Un estudi de la professora Maria Fitó evidencia els límits actuals de la IA generativa de veu

La professora de la Facultat de Ciències de la Comunicació a UIC Barcelona Maria Fitó-Carreras ha publicat un recentment l’estudi “Análisis de ‘softwares’ de inteligencia artificial generativa de voz aplicados al podcasting” a la revista científica ‘Comunicación y Hombre’, en el qual ha analitzat els principals softwares que utilitzen els creadors de pòdcasts per a la clonació de veu

L’estudi acadèmic destaca les mancances que encara tenen els softwares d’intel·ligència artificial generativa de veu per imitar els patrons vocals dels humans, en un sector professional com el del podcàsting. Tot i la rapidesa amb què està avançant la indústria de la intel·ligència artificial generativa (IAG), no es percep com una amenaça immediata a causa de la reproducció d’una prosòdia inexacta.

L’estudi ha analitzat onze softwares d’IAG, dividits en tres categories: els que generen veu clonada a partir d’una mostra de l’usuari, els que funcionen com a bancs de veus emmagatzemades i els que ofereixen una combinació de totes dues funcionalitats. Paral·lelament, l’estudi ha recollit la percepció de deu títols de pòdcasts que utilitzen habitualment aquesta tecnologia.

La primera conclusió és el biaix entre els resultats proclamats per les empreses tecnològiques, que prometen una generació de veus hiperrealistes, i la percepció dels creadors, que opinen que la IAG de veu encara no produeix productes prou realistes. De fet, destaquen que l’escolta dels títols és “monòtona i avorrida”, a causa de la manca de “matisos emocionals inherents a la veu humana”.

És el cas del butlletí informatiu WP a day (2032) sobre l’univers de WordPress, creat per Antonio Cambronerot. El seu pòdcast està creat enterament per IA, des del guió fins a la generació de veu, gràcies al software Amazon Polly. Reconeix que la veu té una “falta de naturalitat” i que, per aconseguir un procés automàtic, cal fer una feina de codificació “feixuga”. Tot i això, valora positivament l’estalvi de temps i la reducció de costos.

Cal destacar que la majoria dels podcasters amateurs o professionals analitzats en la mostra utilitzen la IAG de veu com un experiment per demostrar-ne el potencial en l’àmbit del podcàsting. “La tecnologia no està prou desenvolupada, però d’aquí a un parell d’anys, l’escenari serà un altre”, explica Maria Fitó, docent a UIC Barcelona i locutora de ràdio i doblatge.

“Entre els professionals del sector, ja no ens sorprèn quan una empresa contacta amb nosaltres per refer una feina que la IAG no ha fet correctament”, afegeix Fitó. “Una de les opinions compartides entre els creadors dels títols que figuren en l’estudi és el temps que perden clonant i editant les veus”, apunta. És el cas del pòdcast Joe Rogan AI Experience (2023), que utilitza veus clonades per al presentador i els convidats. El creador admet que les veus “presenten problemes de cadència, cosa que obliga a afegir crosses com ’ah’’ o ’‘um’’ per transmetre un procés de pensament genuí i escalonat, és a dir, perquè soni com una conversa humana normal”.

Mentre la IA avança a càrrec de les grans tecnològiques, la Unió Europea va aprovar el juny del 2024 la primera llei sobre IA a tot el món, que busca un marc jurídic per “fomentar una IA fiable a tot Europa i garantir els drets fonamentals dels ciutadans”. “Què passa amb la resta de les IA del món? Pocs productes indiquen avui que estan creats amb intel·ligència artificial”, recorda Maria Fitó. “Són molts els companys que ja han pogut escoltar les seves veus clonades sense el seu consentiment i que es comercialitzen en softwares a l’Índia, per exemple”, afegeix.

Com a docent, Fitó també ha explicat el repte que suposa per als professors la irrupció de la IA a l’aula: “Hem de trobar metodologies didàctiques noves per no convertir-nos en avaluadors de la IA”. Com a professora, anima l’alumnat a “discriminar la informació i verificar-la”.

L’autora de l’article avisa del perill que la IAG suposa per a les noves generacions. “Els més joves arribaran a normalitzar les veus de la IA, els estàndards aniran baixant”, adverteix. Tot i això, Maria Fitó intenta veure el costat positiu a la irrupció de la IA: “Espero que valorem molt més les relacions humanes; poder parlar amb persones de veritat i escoltar-les”, conclou.