Visualizzazione artistica del concetto di deep learning applicato alla scoperta di farmaci, con una rete neurale digitale luminosa sovrapposta a strutture molecolari complesse del Citocromo P450, lente prime 35mm, colori duotone blu e viola high-tech, profondità di campo che sfoca lo sfondo.

Piccoli Dati, Grandi Scoperte: Come il Deep Learning Rivela i Segreti del Citocromo P450

Ciao a tutti! Oggi voglio parlarvi di un’avventura affascinante nel mondo della farmacologia e dell’intelligenza artificiale. Avete mai pensato a come il nostro corpo gestisce i farmaci che assumiamo? Gran parte del lavoro lo fa una super-famiglia di enzimi chiamata Citocromo P450 (CYP). Questi enzimi sono dei veri e propri “operai specializzati” nel metabolizzare un’infinità di composti, farmaci inclusi.

Il problema sorge quando un farmaco, invece di essere processato, decide di “bloccare” uno di questi operai CYP. Questo fenomeno si chiama inibizione del CYP e può portare a interazioni farmacologiche pericolose (le famose DDI, Drug-Drug Interactions), perché magari un secondo farmaco non viene più smaltito correttamente, accumulandosi a livelli tossici. Capire in anticipo quali molecole potrebbero essere degli inibitori CYP è quindi fondamentale per sviluppare farmaci sicuri.

La Sfida: Prevedere l’Inibizione con Pochi Dati

Qui arriva il bello. Mentre per alcuni enzimi CYP “famosi” (come CYP3A4 o CYP2D6) abbiamo montagne di dati sperimentali, per altri, come CYP2B6 e CYP2C8, le informazioni scarseggiano. Questi due enzimi, pur essendo meno studiati, sono comunque importanti: CYP2B6 metabolizza circa il 7% dei farmaci clinici (antidepressivi, anestetici, antivirali) e CYP2C8 ne processa un altro 6-7% (tra cui farmaci antitumorali e antinfiammatori). La stessa FDA americana ha sottolineato l’importanza di studiarli!

Ma come si fa a costruire un modello predittivo affidabile quando hai pochi esempi su cui allenarlo? È come chiedere a qualcuno di riconoscere tutte le razze di cani avendone viste solo un paio. I modelli di machine learning tradizionali, e persino il deep learning, spesso faticano con dataset piccoli e sbilanciati (pochi inibitori rispetto ai non-inibitori), rischiando di “imparare male” (overfitting o underfitting).

La Nostra Idea: Sfruttare la “Famiglia” CYP

Di fronte a questa sfida, ci siamo chiesti: e se sfruttassimo le informazioni che abbiamo sugli altri membri della famiglia CYP? Dopotutto, questi enzimi hanno somiglianze strutturali, specialmente nei siti dove legano i farmaci. Forse quello che impariamo su CYP3A4 può aiutarci a capire meglio CYP2B6?

Così, ci siamo messi al lavoro per raccogliere dati da database pubblici come ChEMBL e PubChem. Abbiamo messo insieme un dataset bello corposo: 12.369 composti testati contro sette diverse isoforme di CYP (CYP1A2, CYP2B6, CYP2C8, CYP2C9, CYP2C19, CYP2D6 e CYP3A4), etichettandoli come “inibitori” (se l’IC50, una misura di potenza, era ≤ 10 µM) o “non-inibitori”.

Ovviamente, unendo i dati, ci siamo trovati con tanti “buchi”: molti composti erano stati testati solo per alcune isoforme, lasciando valori mancanti per altre. Per CYP2B6 e CYP2C8, i dati mancanti erano addirittura il 96% e il 94%! Un’analisi visiva (con una tecnica chiamata UMAP) ha confermato che la maggior parte dei composti era specifica per una sola isoforma, anche se c’erano alcune molecole “multitasking” capaci di inibirne diverse.

Macro fotografia di una complessa struttura proteica enzimatica del Citocromo P450, lente macro 100mm, alta definizione, illuminazione controllata per evidenziare le pieghe molecolari e il sito attivo.

Primi Tentativi: Single-Task vs Multitask e Fine-Tuning

Come punto di partenza (baseline), abbiamo costruito modelli predittivi separati per ogni isoforma CYP usando una tecnica di deep learning chiamata Graph Convolutional Network (GCN), che è brava a capire le strutture chimiche. Come previsto, i modelli per le isoforme con tanti dati (CYP1A2, 2C9, 2C19, 2D6, 3A4) funzionavano bene, ma quelli per CYP2B6 e CYP2C8 erano piuttosto scarsi (punteggi F1 sotto 0.6 e Kappa sotto 0.3). Colpa dei pochi dati e dello sbilanciamento.

Allora abbiamo provato due strategie più avanzate:

  • Multitask Learning: Insegnare a un unico modello a prevedere l’inibizione per *tutte e sette* le isoforme contemporaneamente, sperando che imparasse le relazioni tra loro.
  • Fine-Tuning: Prendere un modello già allenato su tanti dati (ad esempio, le 5 isoforme maggiori) e “rifinirlo” specificamente per CYP2B6 o CYP2C8.

Entrambi gli approcci hanno mostrato un miglioramento rispetto ai modelli single-task, confermando quello che altri ricercatori avevano già osservato. Tuttavia, i miglioramenti non erano ancora statisticamente *significativi*. Sospettavamo che il problema fosse ancora legato ai dati mancanti (che venivano semplicemente ignorati durante l’allenamento) e allo sbilanciamento, specialmente per CYP2B6. Ignorare i dati mancanti poteva portare il modello a essere troppo “pessimista”, predicendo più facilmente un “non-inibitore”.

La Svolta: Riempire i Vuoti con l’Imputazione

Abbiamo capito che dovevamo affrontare di petto il problema dei dati mancanti. Studiando l’effetto dei “buchi” nel dataset, abbiamo visto che quando la percentuale di dati mancanti superava il 50%, le prestazioni del modello crollavano. Era chiaro: dovevamo “riempire” quei vuoti in modo intelligente.

Qui è entrata in gioco la nostra idea chiave: l’imputazione dei dati. In pratica, abbiamo usato i nostri stessi modelli (single-task, multitask, fine-tuning) per *predire* quali sarebbero stati i valori mancanti (inibitore o non-inibitore) per ogni composto e ogni isoforma non testata. Abbiamo creato così dei dataset “completi”, dove i buchi erano stati riempiti con le predizioni più probabili.

Abbiamo poi allenato nuovamente i nostri modelli multitask GCN usando questi dataset “imputati”. E i risultati? Fantastici!

I modelli multitask che usavano i dati imputati (li abbiamo chiamati MIPS, MIPM, MIPFT a seconda di quale modello avesse generato le imputazioni) hanno mostrato un miglioramento significativo rispetto ai modelli base per CYP2B6 e CYP2C8. In particolare, il modello MIPM (Multitask con Imputazione basata sulle predizioni del modello Multitask stesso) è risultato il migliore, con miglioramenti statisticamente significativi (p < 0.05 per CYP2B6 e p < 0.01 per CYP2C8). Visualizzazione astratta di una rete neurale profonda GCN (Graph Convolutional Network), stile wide-angle 15mm, con nodi luminosi che rappresentano atomi e legami che rappresentano connessioni, flussi di dati digitali blu e verdi, messa a fuoco nitida, sfondo scuro.

Perché ha funzionato così bene? Fornendo al modello dati di allenamento più completi e accurati (anche se in parte predetti), siamo riusciti a fargli catturare meglio le tendenze generali e le relazioni tra le diverse isoforme CYP. L’approccio è stato particolarmente efficace per CYP2C8, che aveva un dataset leggermente più grande e bilanciato rispetto a CYP2B6.

Alla Caccia degli Inibitori Nascosti tra i Farmaci Approvati

Forti di questi risultati, ci siamo posti un obiettivo ambizioso: usare i nostri modelli migliori per prevedere l’attività inibitoria sui “problematici” CYP2B6 e CYP2C8 per un gran numero di farmaci già approvati e in uso. Molti di questi farmaci, infatti, non sono mai stati testati specificamente per l’inibizione di queste due isoforme.

Abbiamo preso un elenco di 1.808 farmaci approvati da DrugBank (escludendo quelli già presenti nel nostro dataset iniziale) e li abbiamo dati “in pasto” ai nostri modelli MIPS, MIPM e MIPFT. Per avere una maggiore robustezza, abbiamo anche creato un modello “ensemble” che decideva sulla base del voto di maggioranza dei tre modelli.

Come prima verifica, abbiamo controllato quanti dei pochi inibitori *noti* di CYP2B6 (26 farmaci) e CYP2C8 (55 farmaci) presenti in questo set esterno venivano correttamente identificati (metrica “Recall”). Per CYP2C8, il modello MIPM ha raggiunto un buon Recall (0.60), segno che riuscivamo a beccare molti degli inibitori conosciuti. Per CYP2B6, invece, il Recall era più basso (0.27 con MIPS). Probabilmente, questo è dovuto al fatto che le strutture chimiche di alcuni farmaci approvati erano un po’ diverse da quelle presenti nel nostro dataset di allenamento originale per CYP2B6, rendendo la predizione più difficile.

Nonostante la sfida con CYP2B6, siamo andati avanti. Abbiamo applicato i modelli a tutti i 1.808 farmaci. Alla fine, abbiamo identificato:

  • 161 potenziali inibitori di CYP2B6
  • 154 potenziali inibitori di CYP2C8

Inoltre, grazie all’approccio multitask, abbiamo anche trovato 30 farmaci che potrebbero inibire *entrambi* gli enzimi, e addirittura due candidati che sembrano poter inibire tutte e sette le isoforme studiate! Questo apre scenari interessanti per prevedere interazioni farmacologiche complesse.

Primo piano di diverse pillole e capsule farmaceutiche colorate sparse su una superficie di laboratorio pulita e bianca, lente macro 70mm, alta definizione, illuminazione da studio controllata, focus preciso su una capsula rossa e bianca al centro.

Per rendere le nostre predizioni ancora più affidabili, abbiamo creato un “punteggio composito” per classificare i potenziali inibitori. Questo punteggio combina la probabilità data dal modello (peso 0.7) con la somiglianza strutturale (Tanimoto similarity, peso 0.3) del farmaco ai composti noti nel nostro dataset. L’idea è che se un farmaco è molto simile a qualcosa che il modello conosce bene, la predizione è probabilmente più affidabile.

Tra i primi 10 candidati per CYP2B6 è emerso Simeprevir (un antivirale per l’epatite C), mentre per CYP2C8 è spuntato Lercanidipina (un farmaco anti-ipertensivo). Per quest’ultimo, ad esempio, non risultano dati pubblicati sulla sua possibile inibizione di CYP2B6 o CYP2C8. Chissà che le nostre predizioni non aprano la strada a nuove scoperte!

Cosa Abbiamo Imparato?

Questa ricerca ci ha insegnato tanto! Innanzitutto, che i modelli predittivi “single-task” faticano davvero quando i dati sono pochi. Ma, cosa più importante, abbiamo dimostrato che il deep learning multitask, specialmente se abbinato a tecniche intelligenti di imputazione dei dati usando GCN, può superare brillantemente i limiti dei piccoli dataset.

Siamo riusciti a migliorare significativamente l’accuratezza delle previsioni per CYP2B6 e CYP2C8 e abbiamo generato una lista di farmaci approvati che meriterebbero un’indagine sperimentale per confermare la loro potenziale attività inibitoria. Questo lavoro non solo aiuta a identificare potenziali interazioni farmacologiche rischiose, ma apre anche la porta alla scoperta indiretta di farmaci che agiscono su più bersagli.

Certo, la validazione sperimentale è il prossimo passo cruciale, ma crediamo che questo approccio mostri un potenziale enorme per accelerare la scoperta e lo sviluppo di farmaci più sicuri, anche quando i dati di partenza sono limitati. È la dimostrazione che, a volte, guardando al quadro generale (multitask) e “riempiendo i buchi” con intelligenza (imputazione), si possono fare grandi scoperte anche partendo da poco!

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *