Fake News in Urdu? Ora Abbiamo un’Arma AI (LLaMA 2) per Smascherarle!
Ciao a tutti! Oggi voglio parlarvi di un problema enorme che affligge il nostro mondo digitale: le Fake News. Sappiamo tutti quanto siano pervasive, specialmente sui social network (OSN) e sui siti web. Ma c’è un aspetto che spesso trascuriamo: la lingua. La maggior parte degli studi e delle soluzioni per rilevare le notizie false (il cosiddetto Fake News Detection, o FND) si concentra su lingue “ricche di risorse” come l’inglese, lasciando indietro milioni di utenti che parlano altre lingue. Pensate all’Urdu, una delle dieci lingue più parlate al mondo! Per l’Urdu, come per molte altre lingue “a basse risorse”, mancavano strumenti efficaci, soprattutto per la carenza di grandi database (corpora) di notizie reali, etichettate come vere o false.
Il Problema delle Lingue ‘Dimenticate’ e l’Ascesa degli LLM
Ecco, questo è un bel problema. Senza dati su cui allenare i modelli di intelligenza artificiale, come possiamo sperare di combattere la disinformazione in queste lingue? Si crea un vero e proprio “language bias”, un pregiudizio linguistico nella ricerca sull’IA. Negli anni si sono provate tante strade: Machine Learning (ML), Deep Learning (DL), modelli linguistici pre-allenati (PLM)… tutti approcci validi, ma che spesso richiedono un lavoro certosino di estrazione delle caratteristiche del testo (feature engineering) e, soprattutto, dipendono da enormi quantità di dati etichettati, che per lingue come l’Urdu semplicemente non c’erano.
Ma negli ultimi tempi è arrivata una nuova speranza: i Large Language Models (LLM), come il famoso GPT di OpenAI o LLaMA di Meta. Questi modelli sono potentissimi, allenati su quantità spropositate di testo e capaci di comprendere il linguaggio, ragionare e accedere a una conoscenza vastissima. Ci siamo chiesti: potrebbero essere la chiave per un FND efficace anche in lingue a basse risorse e in contesti multilingua?
La Nostra Arma Segreta: Il Dataset ‘Hook and Bait Urdu’
Per rispondere a questa domanda, ci siamo rimboccati le maniche. La prima cosa che serviva era un dataset robusto per l’Urdu. E così abbiamo creato “Hook and Bait Urdu”, il primo corpus di notizie in Urdu di grandi dimensioni (ben 78.409 notizie!), multi-dominio (politica, salute, religione, economia…) e basato sul mondo reale. Come l’abbiamo costruito? Abbiamo raccolto notizie vere da fonti attendibili in Urdu (come Bol News, Dawn News, BBC Urdu) e notizie false da siti di fact-checking in Urdu (ARY Urdu, vishvasnews, Geo News). Poiché le fonti di fact-checking in Urdu non erano sufficienti, abbiamo anche preso notizie false verificate da siti inglesi (come Snopes, Politifact), le abbiamo tradotte in Urdu e poi le abbiamo fatte revisionare e perfezionare da giornalisti esperti madrelingua Urdu. Questo team di 8 professionisti ha garantito che le traduzioni fossero accurate semanticamente e culturalmente appropriate, allineate allo stile giornalistico Urdu. Abbiamo verificato che la struttura e lo stile delle notizie tradotte fossero allineati al 93% con le fonti di notizie Urdu autentiche. Ogni notizia è stata etichettata come “Vera” o “Falsa” in base alle verifiche. La cosa fantastica? Abbiamo reso questo dataset pubblicamente disponibile, così che tutta la comunità scientifica possa usarlo per sviluppare nuovi strumenti contro le fake news. Abbiamo puntato su titoli e brevi descrizioni, perché spesso è proprio il titolo (“hook”, l’amo) o un riassunto fuorviante (“bait”, l’esca) a catturare l’attenzione e a diffondersi viralmente, prima ancora che uno legga l’articolo intero.

L’Intelligenza Artificiale Scende in Campo: LLaMA 2 e il Fine-Tuning Intelligente
Con il nostro prezioso dataset pronto, siamo passati all’azione con gli LLM. Abbiamo scelto LLaMA 2, un potente modello open-source di Meta. Allenare da zero questi giganti richiede risorse computazionali enormi, fuori dalla portata di molti. Ma c’è un trucco: il fine-tuning. Si prende un modello già pre-allenato e lo si “adatta” a un compito specifico, come il nostro FND. Anche il fine-tuning può essere costoso, ma qui abbiamo usato una tecnica super efficiente chiamata LoRA (Low-Rank Adaptation). In pratica, LoRA permette di aggiornare solo una piccolissima parte dei parametri del modello (nel nostro caso, appena lo 0.032%!), congelando tutti gli altri. Questo riduce drasticamente la memoria GPU necessaria e rende il processo molto più veloce ed efficiente, senza sacrificare (troppo) le prestazioni. Abbiamo quindi preso il modello LLaMA 2 pre-allenato (la versione con 7 miliardi di parametri) e l’abbiamo “specializzato” nel riconoscere fake news usando il nostro dataset Urdu e un altro dataset di riferimento in inglese, l’ISOT Fake News.
Gli Esperimenti: Monolingua e Multilingua
Abbiamo condotto due esperimenti principali, usando sempre una suddivisione dei dati 80% per l’allenamento e 20% per il test (per simulare scenari reali dove le fake news sono tante):
- FND Monolingua (Urdu): Abbiamo allenato e testato il nostro LLaMA 2 “sintonizzato” usando solo il dataset “Hook and Bait Urdu”. I risultati? Strepitosi! Abbiamo raggiunto un’accuratezza del 0.978 e un F1-score del 0.971. Confrontando questi numeri con quelli ottenuti da studi precedenti su altri dataset Urdu (spesso più piccoli e limitati a specifici domini), il nostro approccio basato su LLaMA 2 e il nuovo dataset si è dimostrato nettamente superiore.
- FND Multilingua (Urdu + Inglese): Qui abbiamo unito il nostro dataset Urdu con il dataset ISOT Fake News (in inglese). Abbiamo allenato il modello (che abbiamo chiamato Multi-LLM) su entrambe le lingue. L’obiettivo era vedere se LLaMA 2 potesse gestire efficacemente notizie in lingue diverse con strutture completamente differenti come l’Urdu e l’inglese. Ebbene, i risultati sono stati ancora migliori: accuratezza del 0.984 e F1-score del 0.980! Anche in questo caso, confrontando con studi precedenti su FND multilingua o cross-lingua, il nostro framework ha mostrato prestazioni eccellenti, dimostrando che è possibile creare modelli efficaci che funzionano bene su più lingue, inclusa una a basse risorse come l’Urdu.

Perché Funziona Così Bene?
Sembra che la combinazione di un dataset ampio e variegato con il fine-tuning mirato di un LLM potente sia la strada giusta. I grandi dataset aiutano il modello a imparare le sfumature lessicali e contestuali, mentre il fine-tuning (specialmente con tecniche efficienti come LoRA) gli permette di concentrarsi sui segnali specifici delle fake news (esagerazioni, sensazionalismo, linguaggio emotivo…) indipendentemente dalla lingua o dall’argomento. La tecnica LoRA, in particolare, si è rivelata un ottimo compromesso tra prestazioni e efficienza computazionale.
Limiti e Sguardo al Futuro
Ovviamente, non è tutto oro quel che luccica. Ci sono delle limitazioni. Abbiamo usato “solo” lo 0.032% dei parametri di LLaMA 2 per efficienza; usare più parametri potrebbe (forse) migliorare ancora un po’ i risultati, ma a costi maggiori. Non abbiamo potuto testare altri LLM come GPT-4 o Claude perché sono “closed-source”, meno accessibili e personalizzabili per la ricerca, specialmente con lingue a basse risorse. Inoltre, non abbiamo valutato a fondo i modelli pre-allenati multilingua “classici” per limiti di risorse computazionali.
Ma questo è solo l’inizio! Cosa bolle in pentola per il futuro?
- Espandere il dataset “Hook and Bait Urdu” e crearne di simili per altre lingue a basse (e alte) risorse.
- Lavorare su FND multi-label (non solo vero/falso, ma magari diverse sfumature di falsità) e multimodale (testo + immagini/video, per combattere i deepfake!).
- Testare altri LLM, magari i nuovi modelli open-source che stanno emergendo.
- Sviluppare un approccio “one-for-all”, un unico modello che possa gestire FND in tantissime lingue diverse, perché creare un modello per ognuna delle 7000 lingue del mondo è impensabile!

In Conclusione
Questo studio dimostra che possiamo davvero fare la differenza nella lotta contro le fake news, anche in lingue spesso trascurate come l’Urdu. Creando risorse come il dataset “Hook and Bait Urdu” e sfruttando la potenza degli LLM con tecniche di fine-tuning intelligenti come LoRA, abbiamo ottenuto risultati promettenti sia in contesti monolingua che multilingua. È un passo importante per ridurre il “language bias” nell’IA e per costruire strumenti di difesa digitale più equi ed efficaci per tutti. La strada è ancora lunga, ma la ricerca continua per contrastare la minaccia della disinformazione online!
Fonte: Springer
