Immagine fotorealistica, obiettivo prime 50mm, uno scienziato osserva pensieroso una complessa struttura molecolare luminosa su un'interfaccia schermo trasparente, rappresentando la scoperta di farmaci guidata dall'IA e la previsione della permeabilità, profondità di campo, sfondo di laboratorio sfumato, bicromia blu e bianco.

IA e Molecole: Vi Svelo Come Prevediamo il Passaggio dei Farmaci nel Cervello e nell’Intestino!

Ciao a tutti! Oggi voglio parlarvi di una sfida affascinante nel mondo della scoperta dei farmaci: capire se una nuova molecola riuscirà a raggiungere il suo bersaglio nel corpo umano. In particolare, ci concentreremo su due “posti di blocco” cruciali: la barriera emato-encefalica (BBB), che protegge il nostro cervello, e la permeabilità intestinale (tramite le cellule Caco-2), fondamentale per l’assorbimento dei farmaci presi per bocca. Prevedere queste proprietà, note come ADMET (assorbimento, distribuzione, metabolismo, escrezione e tossicità), è vitale perché, pensate un po’, fino al 50% dei fallimenti nei trial clinici è legato proprio a problemi con le ADMET!

La Sfida della Permeabilità dei Farmaci

Immaginate la barriera emato-encefalica come un buttafuori super selettivo all’ingresso di un club esclusivo (il cervello). Fa passare solo chi è sulla lista giusta, proteggendoci da sostanze potenzialmente tossiche. Allo stesso modo, la parete intestinale deve permettere l’assorbimento dei nutrienti e dei farmaci giusti, ma bloccare il resto. Capire in anticipo se una molecola candidata a diventare farmaco supererà queste barriere è fondamentale per risparmiare tempo e denaro nello sviluppo.

Per decenni, abbiamo usato approcci come il QSAR/QSPR (Quantitative Structure-Activity/Property Relationship), che cercano relazioni statistiche tra la struttura chimica di una molecola e le sue proprietà. Con l’avvento del machine learning (ML), abbiamo fatto passi da gigante. Algoritmi come le Support Vector Machines (SVM) e le Random Forest (RF) sono diventati popolari per modellare le proprietà ADMET.

Tuttavia, un punto critico è sempre stato come “descrivere” una molecola al computer. Le impronte digitali molecolari (come le ECFP) e i descrittori sono utili, ma a volte semplificano troppo, perdendo informazioni sulla struttura tridimensionale. Ecco perché ci siamo spostati verso rappresentazioni più complesse, come i grafi 2D, che catturano meglio la topologia molecolare.

Il Nostro Approccio Innovativo: AA-MPNN e Apprendimento Contrastivo

Qui entriamo in gioco noi e il nostro lavoro! Abbiamo sviluppato un approccio nuovo di zecca basato su una rete neurale specializzata chiamata Atom-Attention Message Passing Neural Network (AA-MPNN). Cosa fa di speciale? Beh, immaginate la molecola come un social network di atomi. L’MPNN fa “passare messaggi” tra atomi vicini (legati) per raccogliere informazioni sulla struttura locale e globale. La parte “Atom-Attention” (AA) è la vera chicca: usa un meccanismo di auto-attenzione (ispirato ai modelli Transformer che stanno rivoluzionando l’IA) per capire quali atomi o gruppi di atomi sono più importanti per la proprietà che stiamo cercando di predire (in questo caso, la permeabilità). Non tutti gli atomi contribuiscono allo stesso modo!

Ma non ci siamo fermati qui. Uno dei grandi problemi nel machine learning è avere abbastanza dati “etichettati” (cioè molecole di cui conosciamo già la permeabilità) per addestrare bene i modelli. Per superare questo ostacolo, abbiamo combinato il nostro AA-MPNN con l’apprendimento contrastivo (Contrastive Learning – CL), una tecnica di self-supervised learning (SSL).

Come funziona? In pratica, prendiamo una quantità enorme di dati molecolari non etichettati (nel nostro caso, 250.000 molecole dal database ZINC15) e “pre-addestriamo” il nostro modello. Usiamo una tecnica chiamata “atom masking”: nascondiamo casualmente alcuni atomi in una molecola e chiediamo al modello di imparare a riconoscere che la versione mascherata e quella originale sono “simili” (coppie positive), mentre sono “diverse” da altre molecole (coppie negative). Questo processo insegna al modello a creare rappresentazioni molecolari (embeddings) molto ricche e significative, catturando l’essenza della struttura chimica, ancor prima di vedere i dati specifici sulla permeabilità.

Fotografia macro, obiettivo macro 85mm, vista dettagliata di neuroni interconnessi che formano la barriera emato-encefalica, sottili linee luminose indicano tentativi di trasporto molecolare, illuminazione controllata che evidenzia la struttura della barriera, messa a fuoco nitida.

Dopo questa fase di pre-addestramento, “affiniamo” (fine-tuning) il modello sui dataset specifici per la BBB (circa 7.800 composti) e la permeabilità Caco-2 (circa 1.800 composti), che abbiamo raccolto dalla letteratura e standardizzato con cura. Abbiamo anche verificato che non ci fossero sovrapposizioni significative tra i dati di pre-addestramento e quelli di addestramento/test per evitare “fughe di dati”.

Risultati Che Parlano Chiaro

Ebbene, i risultati sono stati entusiasmanti! Confrontando i modelli pre-addestrati con CL rispetto a quelli non pre-addestrati, abbiamo visto un miglioramento significativo nelle prestazioni. Ad esempio, per la predizione della BBB, l’area sotto la curva ROC (ROC-AUC), una metrica chiave che misura la capacità del modello di distinguere tra classi (permeabile/non permeabile), è passata da 0.944 a 0.951 con il CL. Anche l’accuratezza è migliorata. Risultati simili li abbiamo ottenuti per la permeabilità Caco-2 (ROC-AUC da 0.905 a 0.919). Questi numeri, confermati da validazione incrociata (cross-validation) e test su dati mai visti prima, dimostrano che il pre-addestramento con CL aiuta davvero il modello a generalizzare meglio e a fare predizioni più accurate.

Abbiamo anche confrontato il nostro AA-MPNN con CL con altri modelli ML standard (Random Forest, SVM, reti neurali feed-forward) usando le impronte digitali ECFP come input. Il nostro approccio si è dimostrato superiore, anche quando abbiamo provato a usare l’AA-MPNN senza aggiungere le ECFP alla fine, dimostrando la potenza delle rappresentazioni apprese tramite il passaggio di messaggi con attenzione e il CL. L’aggiunta delle ECFP ha ulteriormente migliorato le performance, suggerendo che combinare diverse rappresentazioni può essere vantaggioso.

Per visualizzare come il pre-addestramento cambia le rappresentazioni molecolari, abbiamo usato la tecnica t-SNE. È incredibile vedere come, dopo il pre-addestramento, le molecole con proprietà simili (permeabili o non permeabili) formino cluster molto più distinti nello spazio delle rappresentazioni. Questo conferma visivamente che il modello impara a “vedere” meglio le differenze cruciali.

Rappresentazione astratta di una complessa rete neurale che elabora dati di grafi molecolari, nodi e archi luminosi con flusso di dati, obiettivo prime 35mm, profondità di campo che sfoca elementi di sfondo, bicromia blu e ciano, alto dettaglio sulle connessioni della rete.

Abbiamo anche analizzato la diversità chimica dei nostri dataset usando gli scaffold di Murcko (l’ossatura base di una molecola). Entrambi i dataset (BBB e Caco-2) mostrano una grande diversità, con molti scaffold unici presenti solo in una o due molecole. Questo è importante perché significa che il modello è stato addestrato su una vasta gamma di strutture chimiche. Abbiamo testato il modello specificamente su molecole del test set i cui scaffold non erano presenti nel training set, ottenendo comunque buone performance (AUC di 0.795 per BBB e 0.897 per Caco-2), indicando una buona capacità di generalizzazione a nuove strutture.

Non Solo Numeri: Capire Come Funziona il Modello

Uno dei vantaggi dell’usare il meccanismo di attenzione atomica è che possiamo “aprire la scatola nera” del modello di deep learning. Possiamo vedere quali parti della molecola il modello considera più importanti per la sua predizione! Accedendo ai “pesi di attenzione”, possiamo creare delle mappe di calore sulla struttura molecolare: le aree colorate più intensamente sono quelle che influenzano maggiormente il risultato (permeabile o non permeabile).

Per mettere alla prova questa capacità interpretativa, abbiamo usato il modello per predire la permeabilità di tre inibitori noti di una proteina chiamata ERAP1, implicata in malattie autoimmuni e tumori. Il modello ha predetto che tutti e tre avevano bassa permeabilità BBB. Interessante notare come l’attenzione si focalizzasse su gruppi diversi a seconda della barriera (BBB vs Caco-2). Ad esempio, i gruppi sulfonamidici sembravano ridurre la permeabilità BBB (cosa confermata dalla letteratura), mentre anelli come il cicloesano tendevano ad aumentarla.

Visualizzazione di punti dati ad alta dimensionalità raggruppati in uno spazio 2D (stile grafico t-SNE), cluster colorati distinti che rappresentano diverse proprietà molecolari, messa a fuoco nitida sui cluster, obiettivo grandangolare 20mm, sfondo pulito.

Grazie a queste informazioni visive, abbiamo persino provato a suggerire modifiche strutturali agli inibitori per migliorarne la permeabilità! Ad esempio, rimuovere un anello benzenico o sostituire un gruppo polare (come un carbossile) con uno meno polare (come un metile) ha cambiato la predizione da non permeabile a permeabile. Questo dimostra come l’interpretabilità del modello possa guidare attivamente il processo di progettazione razionale dei farmaci.

Abbiamo ulteriormente validato i modelli usando composti noti dalla letteratura (non presenti nei nostri dati di training), come vareniclina, nicotina (permeabili BBB), dopamina (non permeabile BBB), levodopa (permeabile BBB), antipirina, caffeina (permeabili Caco-2) e aciclovir (bassa permeabilità Caco-2). In tutti i casi, le predizioni del nostro modello erano in accordo con i dati sperimentali noti.

Tutto a Portata di Click: La Piattaforma Enalos Cloud

La cosa forse più entusiasmante è che non abbiamo tenuto questi potenti modelli solo per noi! Li abbiamo resi accessibili a tutta la comunità scientifica attraverso la Piattaforma Enalos Cloud. Si tratta di un servizio web facile da usare dove chiunque può:

  • Inserire una molecola (disegnandola, scrivendo la sua notazione SMILES o caricando un file).
  • Ottenere in pochi secondi la predizione di permeabilità BBB o Caco-2.
  • Visualizzare la molecola con la mappa di calore dell’attenzione atomica, per capire quali parti sono cruciali.

Questa piattaforma, ospitata su una potente workstation AI (NVIDIA DGX Station), democratizza l’accesso a strumenti computazionali avanzati, permettendo a ricercatori, anche senza competenze di programmazione, di accelerare la scoperta e lo sviluppo di nuovi farmaci.

Still life ravvicinato, obiettivo macro 100mm, un modello molecolare 3D (come l'inibitore ERAP1) visualizzato su uno schermo di tablet futuristico, colori heatmap sovrapposti sulla molecola che indicano i pesi di attenzione (verdi e rossi), messa a fuoco precisa sullo schermo, illuminazione morbida controllata.

In conclusione, combinando reti neurali a passaggio di messaggi con attenzione atomica e apprendimento contrastivo, abbiamo creato modelli predittivi più accurati e interpretabili per la permeabilità dei farmaci. Averli resi disponibili sulla piattaforma Enalos Cloud speriamo possa dare un contributo concreto alla comunità scientifica per progettare farmaci migliori e più efficaci. È un campo in continua evoluzione, e non vediamo l’ora di vedere cosa ci riserverà il futuro!

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *