Cuore Sicuro, Farmaci Efficaci: Come l’IA Sta Rivoluzionando la Previsione della Tossicità Cardiaca (hERG)
Ciao a tutti! Oggi voglio parlarvi di qualcosa che mi appassiona tantissimo e che, credetemi, sta cambiando le carte in tavola nel mondo della scoperta di nuovi farmaci. Parliamo di sicurezza, in particolare della sicurezza cardiaca, e di come l’intelligenza artificiale ci sta dando una mano enorme.
Il “Tallone d’Achille” dei Farmaci: Il Canale hERG
Avete mai sentito parlare del canale del potassio hERG? Probabilmente no, a meno che non siate degli addetti ai lavori. Eppure, questo canale ionico presente nel nostro cuore è diventato una sorta di spauracchio per chi sviluppa nuovi medicinali. Perché? Perché un sacco di molecole, anche molto diverse tra loro, hanno la brutta tendenza a bloccarlo. E quando il canale hERG viene bloccato, può succedere un bel pasticcio: il ritmo cardiaco può alterarsi pericolosamente (parliamo di prolungamento dell’intervallo QT e rischio di aritmie fatali come la Torsades de Pointes).
Pensate che numerosi farmaci, già arrivati sul mercato dopo anni di ricerca e investimenti milionari, sono stati ritirati proprio a causa di questi effetti collaterali cardiaci legati all’hERG. Un vero disastro, sia per i pazienti che per le aziende farmaceutiche. Capite bene, quindi, quanto sia fondamentale riuscire a prevedere prima possibile, già nelle primissime fasi della ricerca, se una nuova molecola candidata a diventare farmaco avrà questo spiacevole “vizietto”.
Le Sfide della Previsione: Costi, Tempi ed Etica
Ok, ma come si fa a prevederlo? Tradizionalmente, ci si affida a test in vitro (su cellule isolate) e in vivo (su animali). I test in vitro, come il patch clamp, sono abbastanza affidabili ma lenti e costosi. Quelli in vivo sollevano questioni etiche importanti (il famoso principio delle 4R: Reduce, Refine, Replace, Responsibility – Ridurre, Rifinire, Rimpiazzare e Responsabilità) e sono ancora più costosi e lenti, decisamente poco pratici per analizzare le migliaia, a volte milioni, di molecole che si vagliano all’inizio di un progetto di ricerca.
Negli ultimi anni, per fortuna, sono entrati in gioco i modelli computazionali, l’in silico modeling. L’idea è usare algoritmi, spesso di machine learning (ML), per predire la tossicità hERG basandosi sulla struttura chimica della molecola. Fantastico, no? Beh, quasi. Anche qui ci sono delle sfide:
- Dati sbilanciati: La maggior parte delle molecole testate, per fortuna, non blocca l’hERG. Questo significa che i dataset disponibili sono molto sbilanciati: tanti “non inibitori” e pochi “inibitori”. I modelli ML fanno fatica a imparare bene dalla classe minoritaria in queste condizioni.
- Robustezza: I modelli devono funzionare bene su molecole diverse da quelle usate per allenarli.
- Interpretabilità: Spesso i modelli ML sono delle “scatole nere”. Ti danno una previsione, ma non ti spiegano il perché. Capire quali caratteristiche molecolari sono associate alla tossicità hERG è fondamentale per guidare la progettazione di molecole più sicure.

La Nostra Soluzione: XGBoost e Mappe ISE al Servizio del Cuore
Ed è qui che entra in gioco il nostro lavoro, di cui vi voglio parlare oggi. Abbiamo pensato: come possiamo creare un modello predittivo per l’hERG che sia robusto, che gestisca bene lo sbilanciamento dei dati e che sia anche interpretabile? La risposta che abbiamo trovato combina due strumenti potenti: l’eXtreme Gradient Boosting (XGBoost) e una tecnica chiamata Isometric Stratified Ensemble (ISE) mapping.
XGBoost è un algoritmo di machine learning che appartiene alla famiglia dei “gradient boosting”. È noto per le sue performance elevate e per la sua capacità di gestire bene anche dataset complessi e, cosa fondamentale per noi, sbilanciati. Ma non ci siamo accontentati.
Per affrontare lo sbilanciamento, abbiamo usato una strategia furba: invece di allenare un solo modello sull’enorme dataset sbilanciato (parliamo del più grande database pubblico sull’inibizione hERG, con quasi 300.000 molecole!), abbiamo creato tanti (29, per la precisione) sotto-dataset di allenamento bilanciati. Ognuno conteneva tutti gli inibitori hERG (la classe minoritaria) e un numero uguale di non-inibitori scelti a caso. Su ciascuno di questi dataset bilanciati abbiamo allenato un modello XGBoost. Il risultato finale? Un “modello di consenso” (ensemble) composto da 29 modelli base, molto più robusto e meno influenzato dallo sbilanciamento iniziale.
La Mappa della Fiducia: L’ISE Map
Ma la vera chicca, secondo me, è l’integrazione con l’ISE map. Cos’è? Immaginate una mappa bidimensionale. Su un asse (chiamiamolo Livello di Consenso, CL) mettiamo quanto i 29 modelli base sono d’accordo sulla previsione per una data molecola. Se quasi tutti dicono “inibitore”, il consenso è alto; se sono divisi, è basso. Sull’altro asse (Livello di Dominio di Applicabilità, ADL) mettiamo quanto la nuova molecola è “simile” a quelle che il modello ha già visto durante l’allenamento, usando la distanza Euclidea nello spazio dei descrittori molecolari.
Ogni nuova molecola viene posizionata su questa mappa. Perché è utile? Perché ci permette di capire non solo cosa prevede il modello, ma anche quanto possiamo fidarci di quella previsione! Le molecole che cadono in zone della mappa dove il consenso è alto (CL alto) e la somiglianza con i dati di training è elevata (ADL basso) sono quelle per cui la previsione è più affidabile. Al contrario, se una molecola cade in una zona a basso consenso o è molto diversa da quelle viste prima, dobbiamo essere più cauti.

L’ISE map, quindi, ci aiuta a:
- Stimare il dominio di applicabilità del modello (dove funziona meglio).
- Valutare la confidenza della previsione per ogni singola molecola.
- Selezionare e prioritizzare le molecole più promettenti (quelle previste come sicure con alta confidenza) o scartare quelle più rischiose.
Risultati Promettenti e Interpretabilità
E i risultati? Beh, siamo molto soddisfatti! Il nostro modello combinato (XGBoost + ISE map) ha dimostrato ottime performance predittive, raggiungendo un buon equilibrio tra sensibilità (la capacità di beccare i veri inibitori hERG, SE = 0.83) e specificità (la capacità di identificare correttamente i non-inibitori, SP = 0.90) su set di dati esterni mai visti prima.
Ma non solo. Grazie a procedure raffinate di selezione delle variabili (siamo partiti da oltre 4000 descrittori molecolari e siamo arrivati a un set molto più ristretto e interpretabile!), siamo riusciti anche a capire quali caratteristiche molecolari sono più importanti per l’inibizione hERG. L’analisi ha evidenziato alcuni descrittori chiave (come peoe_VSA8, ESOL, SdssC, MaxssO, nRNR2, MATS1i, nRNHR, nRNH2) legati a proprietà come la solubilità, la distribuzione delle cariche elettrostatiche sulla superficie molecolare, la presenza di certi gruppi funzionali (come le ammine terziarie, spesso presenti nei bloccanti hERG) e la topologia molecolare.
Ad esempio, abbiamo visto che descrittori legati all’area superficiale di van der Waals associata a certe cariche (peoe_VSA8) o stati elettrotopologici di atomi specifici (MaxssO per l’ossigeno, SdssC per il carbonio sp2) tendono ad avere valori mediani diversi tra inibitori e non-inibitori. Anche la presenza di ammine terziarie (nRNR2) e la solubilità stimata (ESOL) giocano un ruolo. Capire queste relazioni struttura-attività è oro colato per i chimici farmaceutici, perché li aiuta a progettare molecole che abbiano meno probabilità di interagire con il canale hERG fin dall’inizio.

Verso Farmaci Più Sicuri
In conclusione, cosa ci portiamo a casa? Che combinare algoritmi potenti come XGBoost con strategie intelligenti per gestire i dati (come i training set bilanciati) e metodi innovativi per valutare l’affidabilità e l’applicabilità (come l’ISE map) ci permette di fare un bel passo avanti nella previsione della tossicità hERG.
Il nostro approccio XGB + ISE map non è solo un esercizio accademico. È uno strumento concreto che può essere integrato nelle campagne di scoperta di farmaci per identificare le molecole più promettenti, quelle che hanno una bassa probabilità di causare problemi cardiaci. Questo significa poter concentrare risorse preziose (tempo e denaro) sui candidati migliori, accelerare lo sviluppo di nuovi farmaci e, soprattutto, aumentare la sicurezza per i pazienti.
Certo, la strada è ancora lunga e nessun modello è perfetto, ma sono convinto che l’integrazione di queste tecniche computazionali avanzate sia fondamentale per rendere la scoperta di farmaci un processo più efficiente e, soprattutto, più sicuro per tutti noi. E questo, lasciatemelo dire, è davvero affascinante!
Fonte: Springer
