I DeepFake, termine che unisce “Deep Learning” e “Fake”, sono immagini, video e suoni generati o manipolati da sistemi di intelligenza artificiale con una precisione tale da renderli difficilmente distinguibili dal reale. Per le immagini, tecnologie come StableDiffusion, MidJourney, DALL-E e molte altre sono ormai alla portata di tutti e consentono di creare contenuti visivi artificiali, spesso utilizzati con fini industriali, medici, artistici o educativi, ma anche con il rischio di manipolare l’informazione in modo ingannevole.
Su questo fronte, l’Università degli Studi di Modena e Reggio Emilia si conferma all’avanguardia grazie alla creazione di CoDE (Contrasting Deepfakes Diffusion via Contrastive Learning), un sistema avanzato di intelligenza artificiale che rappresenta attualmente la tecnologia più accurata al mondo per il riconoscimento dei DeepFake.
CoDE è stato presentato ufficialmente alla European Conference on Computer Vision 2024 a Milano, uno dei più prestigiosi eventi internazionali nel campo della visione artificiale, che ha visto la partecipazione di oltre 5 mila ricercatori da tutto il mondo. Questo sistema è stato sviluppato da due Dottorandi di Unimore, Lorenzo Baraldi e Federico Cocchi, sotto la supervisione di Rita Cucchiara e Lorenzo Baraldi (omonimo) del Dipartimento di Ingegneria “Enzo Ferrari” di Modena e di Marcella Cornia del Dipartimento di Educazione e Scienze Umane di Reggio Emilia.
Il sistema CoDE si basa su un’architettura di apprendimento contrastivo, addestrata non solo a discriminare immagini vere dalle false, ma anche capace di lavorare su parti di immagini o pixel elaborati da tools di imaging, per rendere il riconoscimento anche robusto alle trasformazioni volontarie o involontarie delle immagini stesse, quando vengono compresse, trasmesse, pubblicate. Il cuore del progetto è in realtà l’apprendimento massivo, reso possibile da un lavoro capillare a partire da più di due milioni di fotografie reali con descrizioni testuali associate. Da queste immagini di partenza, i ricercatori di Leonardo S.p.A. impiegando il loro supercomputer Da Vinci, hanno generato più di 9 milioni di immagini artificiali, per un totale di 3.200 ore di elaborazione GPU, corrispondenti a circa dieci anni di calcolo su una workstation tradizionale.
Queste immagini generate da sistemi differenti rappresentano uno zoo di possibili modelli generativi differenti e sono un patrimonio fondamentale per l’addestramento di sistemi di rilevamento capaci di distinguere immagini vere da quelle artificiali. CoDE, grazie a questa base dati, ha raggiunto risultati straordinari: una precisione di identificazione in benchmark superiore al 97%, un valore ben al di sopra di quel 60% che un essere umano potrebbe raggiungere. Una tecnologia che, per quanto straordinaria, non è ancora esente da limiti: CoDE, infatti, può incontrare difficoltà nel riconoscere immagini che siano state manipolate successivamente, con forti compressioni o rielaborazioni digitali e non si sa ancora quanto è capace di generalizzare su tutti i modelli generativi sviluppati negli ultimi due o tre anni. Inoltre, la continua evoluzione dei generatori di immagini rende necessario un aggiornamento costante del sistema per garantirne l’efficacia anche di fronte a nuove minacce.
Il tema della manipolazione delle immagini non riguarda solo il mondo accademico o scientifico. Il fenomeno dei DeepFake ha conseguenze dirette sulla società, con enormi rischi di disinformazione e falsificazione che interessano sia il pubblico che il privato. Anche per affrontare queste problematiche, dal 2023 è attivo ELSA (European Lighthouse on Security and Safety AI), un progetto strategico europeo che si propone di sviluppare risultati nuovi di ricerca scientifica per la sicurezza nell’era dell’intelligenza artificiale. Unimore e Leonardo S.p.A. svolgono un ruolo di primo piano all’interno di questo progetto, con l’obiettivo di creare sistemi di AI capaci di identificare contenuti manipolati.
Nel quadro del progetto ELSA, Unimore e Leonardo hanno organizzato una competizione internazionale che ha visto la partecipazione di numerosi centri di ricerca di tutto il mondo. Grazie a questa iniziativa, sono state prodotte e analizzate milioni di immagini, che hanno consentito lo sviluppo di algoritmi sempre più raffinati per il riconoscimento delle immagini false.
CoDE, oltre a identificare un’immagine come vera o falsa, fornisce anche una valutazione della percentuale di affidabilità del risultato e una rappresentazione dello spazio in cui l’immagine si colloca. Il sistema mostra infatti una mappa grafica che indica se l’immagine appartiene allo spazio dei contenuti reali o a quello dei DeepFake, fornendo anche indicazioni su quale sistema di AI generativa abbia prodotto il contenuto visivo.
Il grande problema, sottolineato dal team di ricerca di Unimore, risiede nella definizione di “vero”. Tutte le immagini, anche quelle catturate da macchine fotografiche o smartphone, riflettono una visione della realtà filtrata dallo sguardo del fotografo o dalle tecnologie utilizzate per produrla. Anche le opere di grandi artisti della fotografia, pur rappresentando interpretazioni stilizzate del mondo, vengono riconosciute come reali da CoDE. Al contrario, immagini generate completamente o in parte da strumenti di AI come Photoshop o StableDiffusion possono rappresentare una realtà fittizia, anche se visivamente indistinguibile.
“ La definizione di fake è ormai ampiamente utilizzata, ma spesso riduttiva e fuorviante,” afferma la Prof.ssa Rita Cucchiara, direttore del Centro AI Research and Innovation di Unimore. “ Sarebbe preferibile parlare di immagini artificiali o sintetiche, perché non si tratta solo di contenuti falsi, ma di creazioni generate attraverso algoritmi di intelligenza artificiale che hanno potenzialità straordinarie. Pensiamo, ad esempio, ai render sintetici utilizzati da architetti e designer per visualizzare progetti ancora in fase di sviluppo, oppure alle immagini sintetiche impiegate per addestrare sistemi diagnostici in ambito medico, capaci di riconoscere patologie rare attraverso l’analisi di modelli visivi. Si tratta di strumenti che, oltre a facilitare il lavoro di ricerca e sviluppo in molti settori, possono migliorare significativamente le capacità predittive di tecnologie avanzate.”
“ Tuttavia – conclude la Prof.ssa Cucchiara –, dobbiamo essere consapevoli del potenziale manipolativo che accompagna queste tecnologie, ed è per questo che la ricerca sulla trasparenza e l’affidabilità dei contenuti visivi generati dall’AI è altrettanto importante quanto lo sviluppo delle tecnologie stesse.”
Di fronte a queste problematiche, lo sviluppo di strumenti normativi che ad esempio impongono il watermarking (una “filigrana” inserita nei dati generati) , pur essendo una misura apprezzabile, potrebbe non essere sufficiente a garantire una protezione efficace contro la diffusione di immagini false. Il team di ricerca di Unimore, in collaborazione con altri partner europei, è impegnato nella creazione di tecnologie sempre più robuste e certificate, capaci di affiancare l’intelligenza artificiale generativa con strumenti altrettanto potenti di rilevamento e difesa.
L’obiettivo è quello di rendere questi sistemi di riconoscimento accessibili a tutti, affinché chiunque possa tutelarsi contro la manipolazione digitale e proteggere i propri diritti, inclusi quelli legati al copyright.