IA e Atomi: Possiamo Davvero Fidarcì? Quantificare l’Incertezza nelle Reti Neurali per la Scienza dei Materiali
Ciao a tutti! Oggi voglio parlarvi di qualcosa che mi affascina tantissimo: l’incontro tra intelligenza artificiale e il mondo infinitamente piccolo degli atomi. Nello specifico, parliamo dei Potenziali di Rete Neurale (NNP). Immaginate di poter simulare come si comportano materiali e molecole con la precisione della meccanica quantistica, ma alla velocità dei metodi classici. Fantastico, vero? Gli NNP promettono proprio questo!
Sono modelli di machine learning addestrati per capire la complessa relazione tra la posizione degli atomi in un sistema e l’energia totale o le forze che agiscono su di essi. Quando funzionano bene e vengono usati nel loro “campo di gioco” (strutture simili a quelle su cui sono stati addestrati), sono strumenti potentissimi.
Il Problema dell’Incertezza nelle Reti Neurali
Ma c’è un “ma”. Le reti neurali, per quanto potenti, sono spesso delle “scatole nere”. Non è sempre facile capire *perché* danno un certo risultato. E questo può essere un problema, specialmente quando si usano i cosiddetti “foundation models”. Questi sono modelli giganteschi, addestrati su una quantità enorme e variegata di dati chimici, con l’idea di creare una base di conoscenza generale. Il problema è che durante una simulazione, partendo da una struttura conosciuta (“in-domain”), si possono facilmente generare configurazioni atomiche nuove, mai viste prima (“out-of-domain”).
Se il modello non sa come gestire queste nuove strutture, può iniziare a fare errori. E questi errori possono accumularsi, portando a risultati finali completamente sballati o addirittura a simulazioni che “impazziscono” creando forze attrattive artificiali che non esistono nella realtà. Un bel pasticcio!
Come facciamo, quindi, a fidarci dei risultati di un NNP, soprattutto di questi grandi foundation models? Qui entra in gioco la Quantificazione dell’Incertezza (UQ – Uncertainty Quantification). L’idea è semplice: se il modello potesse dirci, insieme alla sua previsione, anche “quanto è sicuro” di quella previsione, potremmo fidarci molto di più! L’UQ ci aiuta a capire quando il modello sta navigando in acque sconosciute.
Storicamente, un metodo popolare per la UQ è l’ensembling: si addestrano diversi modelli indipendenti sullo stesso dataset (ma con piccole variazioni, come inizializzazioni diverse) e si guarda quanto le loro previsioni differiscono. La deviazione standard tra le previsioni dell’ensemble ci dà una misura dell’incertezza. Il problema? Addestrare molti NNP, specialmente i foundation models, costa tantissimo in termini di tempo e risorse computazionali (parliamo di decine di GPU potenti che lavorano per giorni!). Si cercano quindi alternative più economiche.
Due Strade per la Fiducia: Readout Ensembling e Regressione Quantilica
Ed è qui che si inserisce il lavoro che voglio raccontarvi oggi. Abbiamo esplorato due metodi specifici per portare l’UQ nel mondo dei foundation models NNP, cercando di bilanciare affidabilità e costi computazionali. Li abbiamo applicati a un modello specifico molto promettente, chiamato MACE-MP-0, addestrato sull’enorme dataset Materials Project.
I due metodi sono:
- Readout Ensembling: È una versione “light” dell’ensembling classico. Invece di riaddestrare da zero tanti modelli completi (che sarebbe costosissimo per MACE-MP-0), prendiamo il foundation model pre-addestrato e “congeliamo” quasi tutti i suoi parametri. Andiamo a ri-addestrare (fine-tuning) solo gli strati finali della rete, quelli che chiamiamo “readout layers”, che sono responsabili della predizione finale. Lo facciamo più volte, usando sottogruppi diversi del dataset di training originale. In questo modo, otteniamo un “ensemble” di modelli molto simili tra loro nella parte “profonda”, ma leggermente diversi nella parte finale. La variabilità tra le loro previsioni ci dà un’indicazione dell’incertezza epistemica: quella che deriva dai limiti del modello stesso o dalla scarsità di dati in certe zone dello spazio chimico. Il vantaggio? È molto più economico del full ensembling!
- Regressione Quantilica: Questo approccio cambia proprio l’obiettivo del modello. Invece di chiedere alla rete di predire un singolo valore (l’energia, per esempio), le chiediamo di predire un intervallo, ad esempio il 5° e il 95° percentile della distribuzione di possibili valori. Per farlo, si usa una funzione di costo “asimmetrica” durante l’addestramento, che penalizza di più gli errori in una direzione rispetto all’altra, spingendo le previsioni verso i quantili desiderati. La differenza tra il quantile superiore (95°) e quello inferiore (5°) ci dà un intervallo di confidenza (al 90% in questo caso) e quindi una misura dell’incertezza aleatoria. Questa è l’incertezza intrinseca ai dati stessi, dovuta alla variabilità naturale dei sistemi fisici o al “rumore” nelle misurazioni o nei calcoli usati per generare i dati di training (come quelli da DFT – Density Functional Theory).
La cosa interessante è che questi due tipi di incertezza ci dicono cose diverse! L’incertezza epistemica (dal readout ensembling) ci dice “quanto bene il modello ha imparato quella specifica regione”, mentre l’incertezza aleatoria (dalla regressione quantilica) ci dice “quanto sono variabili o rumorosi i dati di training in quella regione”.
Mettiamo alla Prova MACE-MP-0
Abbiamo quindi preso il foundation model MACE-MP-0 (nella sua versione “small”, che comunque ha quasi 4 milioni di parametri!) e abbiamo applicato entrambi i metodi.
Sul dataset originale (MPtrj), abbiamo notato subito una cosa:
- L’errore medio assoluto (MAE) dei due approcci era simile e buono, confermando che i modelli erano ben addestrati.
- MA… l’incertezza media calcolata con la regressione quantilica era enormemente più alta (più di un ordine di grandezza!) rispetto a quella calcolata con il readout ensembling.
- Andando a vedere la “copertura” (cioè quante volte il valore vero cadeva dentro l’intervallo di incertezza predetto), la regressione quantilica copriva l’87% dei casi, mentre il readout ensembling solo l’11%!
- Inoltre, l’incertezza della regressione quantilica mostrava una correlazione molto più chiara con l’errore di predizione: dove l’incertezza era alta, anche l’errore tendeva ad essere alto. L’incertezza dell’ensemble, invece, pur tendendo ad aumentare con l’errore, era sempre molto più bassa dell’errore stesso.
Cosa significa tutto questo? Sembra che il readout ensemble, pur essendo composto da modelli ben addestrati, tenda ad essere troppo sicuro di sé (overconfident), sottostimando l’incertezza reale. La regressione quantilica, invece, cattura meglio la variabilità intrinseca presente nell’enorme e variegato dataset MPtrj (che deriva da simulazioni DFT fatte nel corso di anni, magari con parametri leggermente diversi), riflettendo quindi meglio l’incertezza aleatoria. La bassa incertezza dell’ensemble, d’altro canto, ci dice che il modello MACE-MP-0 di per sé è molto robusto e ha imparato bene (bassa incertezza epistemica).
Sfide di Trasferimento: Leghe ad Alta Entropia e Zeoliti
Ma la vera prova del nove per un foundation model è vedere come si comporta quando lo adattiamo (fine-tuning) a compiti nuovi e specifici. Abbiamo provato due casi molto diversi:
1. Leghe ad Alta Entropia (HEA25): Materiali super complessi, con tantissimi elementi metallici mescolati casualmente. Qui, l’incertezza della regressione quantilica è aumentata rispetto al caso base, riflettendo l’alta complessità chimica e la variabilità intrinseca di questi sistemi. L’incertezza del readout ensemble è rimasta relativamente bassa, suggerendo che il modello non aveva particolari difficoltà ad “imparare” lo spazio di queste strutture, ma la variabilità nei dati era alta.
2. Zeolite H-ZSM-5 con Acqua: Una struttura molto ordinata (un’impalcatura di alluminosilicato) con all’interno un numero variabile di molecole d’acqua. Abbiamo usato i dati con poche molecole d’acqua (1-3) per il fine-tuning e poi abbiamo testato il modello su casi con molte più molecole (8 e 16), che rappresentavano quindi strutture “out-of-domain” rispetto al fine-tuning.
* Sui dati di test simili a quelli di training (1-3 molecole d’acqua), entrambi i metodi davano errori bassissimi e anche l’incertezza era bassa, specialmente quella quantilica (la struttura ordinata della zeolite riduce la variabilità).
* MA… quando siamo passati ai casi con 8 e 16 molecole d’acqua, l’errore è schizzato in alto per entrambi i metodi. E qui abbiamo visto la differenza tra le incertezze:
* L’incertezza del readout ensemble è aumentata significativamente per i casi con 8 e 16 molecole. Questo è un segnale chiaro: il modello sta dicendo “Ehi, questa roba è diversa da quella su cui mi sono specializzato!”. Cattura bene l’uscita dal dominio di applicazione.
* L’incertezza della regressione quantilica è aumentata anch’essa, ma in modo più lineare con il numero di molecole d’acqua, suggerendo che riflette più la crescente complessità o dimensione del sistema piuttosto che un vero e proprio “fallimento” del modello nel generalizzare.
Cosa Abbiamo Imparato?
Insomma, questa esplorazione ci ha insegnato una lezione importante: non tutta l’incertezza è uguale! I due metodi che abbiamo testato, readout ensembling e regressione quantilica, catturano aspetti diversi e complementari dell’incertezza in questi potenti modelli NNP.
- Il Readout Ensembling è bravo a segnalarci quando stiamo uscendo dal seminato, quando presentiamo al modello una struttura che è mal descritta o troppo diversa da quelle viste durante l’addestramento (incertezza epistemica).
- La Regressione Quantilica è più sensibile alla variabilità intrinseca dei dati, alla complessità chimica o strutturale del sistema che stiamo simulando (incertezza aleatoria).
Entrambi i metodi sono relativamente economici da implementare su un foundation model pre-esistente, perché richiedono solo di riaddestrare una piccola parte della rete. E la cosa bella è che potrebbero essere usati insieme! Immaginate un sistema che combina le due informazioni: se l’ensemble è incerto, sappiamo che il modello è in difficoltà; se la regressione quantilica dà un intervallo ampio, sappiamo che il sistema stesso è intrinsecamente variabile. Potremmo prendere il meglio dei due mondi per avere una stima dell’incertezza ancora più robusta e affidabile.
Il cammino per rendere le simulazioni atomistiche basate su IA completamente affidabili è ancora lungo, ma poter quantificare l’incertezza è un passo fondamentale. Ci permette di usare questi strumenti potentissimi con maggiore consapevolezza, sapendo quando possiamo fidarci ciecamente e quando invece è meglio procedere con cautela. E questo apre porte incredibili per la scoperta di nuovi materiali e la comprensione dei processi chimici!
Fonte: Springer