AI Made in Italy: arriva Minerva, la prima famiglia di grandi modelli linguistici addestrati "da zero" per la lingua italiana

Il gruppo di ricerca Sapienza NLP (Natural Language Processing), guidato da Roberto Navigli, professore ordinario presso il Dipartimento di Ingegneria Informatica, Automatica e Gestionale “Antonio Ruberti” della Sapienza Università di Roma annuncia oggi il rilascio dei modelli Minerva, una nuova famiglia di modelli linguistici su larga scala (Large Language Model, LLM) addestrati “da zero” per la lingua italiana.

Minerva è stato realizzato all’interno di FAIR (Future Artificial Intelligence Research), il progetto guidato dal Consiglio Nazionale delle Ricerche che realizza la strategia nazionale sull’intelligenza artificiale grazie ai fondi PNRR, in collaborazione con CINECA, che ha reso disponibile il supercomputer Leonardo.
I modelli Minerva sono disponibili da oggi in anteprima alla comunità scientifica FAIR, per poi arrivare, nelle prossime settimane, al rilascio pubblico nella loro versione più evoluta, che comprenderà la possibilità di conversare con l’IA in italiano.

Minerva segna un netto passo in avanti per l’IA made in Italy, ribadendo l’eccellenza italiana nel campo dell’IA generativa. A capo del progetto ci sono il prof. Roberto Navigli, vincitore di due prestigiosi grant ERC e fellow dell’ACL, l’associazione internazionale di linguistica computazionale, e due giovani brillanti ricercatori, Edoardo Barba e Simone Conia.

“La caratteristica distintiva dei modelli Minerva è il fatto di essere stati costruiti e addestrati da zero usando testi ad accesso aperto, al contrario dei modelli italiani esistenti ad oggi, che sono basati sull’adattamento di modelli come LLaMA e Mistral, i cui dati di addestramento sono tuttora sconosciuti,” spiega Roberto Navigli. “Nello specifico, ogni modello Minerva è stato addestrato su un vasto insieme di fonti italiane e inglesi online e documentate, per un totale di oltre 500 miliardi di parole, l’equivalente di oltre 5 milioni di romanzi. Non solo la trasparenza nell’addestramento dei modelli rafforza la fiducia degli utenti, della comunità scientifica, degli enti pubblici e dell’industria, ma stimola anche continui miglioramenti ed è un primo passo verso processi di verifica rigorosi per garantire la conformità a leggi e regolamenti”.

Con una gamma di modelli che variano per dimensione e capacità computazionale e che possono contare su miliardi di parametri, il progetto Minerva vuole fornire fondamenta trasparenti per sistemi di intelligenza artificiale che siano applicabili in diversi campi, dalla comprensione del linguaggio naturale alla generazione di testo, dalla traduzione automatica all’assistenza clienti automatizzata. Questa flessibilità renderà i modelli Minerva una risorsa preziosa per ricercatori, aziende e sviluppatori interessati a sfruttare le potenzialità dell’intelligenza artificiale per migliorare efficienza e interazione.

L’iniziativa ha traguardi ambiziosi e si propone di ridefinire il panorama dell’intelligenza artificiale italiana. Come commenta Giuseppe De Pietro, Presidente della Fondazione FAIR “Siamo molto soddisfatti di questo primo grande traguardo raggiunto all’interno della comunità scientifica che si riunisce intorno a FAIR. Crediamo molto nella linea di ricerca che porta verso la nascita di un large language model italiano e per questo stiamo investendo le risorse del PNRR su questo progetto, che rappresenta un primo passo strategico di grande rilevanza”.

“Questo importante risultato, unico in Italia, conferma l’eccellenza scientifica del Dipartimento di Ingegneria Informatica, Automatica e Gestionale (DIAG) di Sapienza, in particolare nel settore dell’Intelligenza Artificiale, in cui possiamo vantare un nutrito gruppo di ricercatori e ricercatrici di assoluta eccellenza a livello nazionale e internazionale,” dichiara Tiziana Catarci, direttrice del DIAG.

Un ulteriore elemento di novità di questa iniziativa è l’impegno del gruppo Sapienza NLP nella creazione di nuovi benchmark di valutazione, strumenti sviluppati ad hoc per testare le capacità dei modelli linguistici su larga scala di rispettare e valorizzare anche le sfumature culturali e linguistiche della lingua italiana. Inoltre, il progetto rilascerà una documentazione tecnica completa per condividere il processo ingegneristico e le scoperte scientifiche e poter replicare l’implementazione e l’addestramento dei modelli.

Continua la lettura su MeteoWeb