Etichette come Spie: Svelare le Interazioni Farmaco-Recettore GPCR con l’Omolia di Rete
Ciao a tutti! Oggi voglio portarvi in un viaggio affascinante nel cuore della scoperta dei farmaci, un campo dove l’intelligenza artificiale (IA) sta aprendo porte che fino a poco tempo fa sembravano sigillate. Parleremo di come stiamo usando un trucco un po’ furbo, basato su un concetto chiamato omofilia di rete, per far luce su un’area spesso oscura: le interazioni tra i farmaci che già usiamo e una classe super importante di bersagli nel nostro corpo, i recettori accoppiati a proteine G (GPCR).
Il Grande Buco Nero delle Interazioni Farmaco-Recettore
Immaginate l’universo delle possibili interazioni tra tutti i farmaci conosciuti e tutti i recettori GPCR umani (che non sono pochi, parliamo di centinaia!). Ora, immaginate che di questo universo vastissimo, noi conosciamo solo una minuscola frazione, tipo l’1.5%. Il restante 98.5% è praticamente ignoto. Questo non è solo un problema accademico. I GPCR sono il bersaglio di circa il 35% di tutti i farmaci approvati dalla FDA! Non sapere come un farmaco interagisce con *tutti* i GPCR a cui potrebbe legarsi significa non conoscere appieno i suoi potenziali effetti collaterali, spesso causati proprio da queste interazioni “fuori bersaglio” (off-target).
Perché questa enorme lacuna? Semplice: testare ogni singolo farmaco contro ogni singolo GPCR è un’impresa titanica, sia in termini economici che tecnici. La ricerca farmaceutica tradizionale, poi, si concentra più sulla scoperta di farmaci *nuovi* (esplorazione out-of-distribution), piuttosto che mappare sistematicamente tutte le interazioni dei farmaci *esistenti* (in-distribution). Ed è qui che entriamo in gioco noi.
L’Idea Chiave: Simile Attira Simile (Anche tra le Molecole!)
Avete presente il detto “chi si somiglia si piglia”? Bene, in chimica farmaceutica esiste un principio simile, che chiamiamo omofilia chimica (o più in generale, omofilia di rete). In parole povere, molecole che hanno strutture chimiche simili tendono ad avere anche attività biologiche simili sullo stesso bersaglio. Se una rete di molecole è “omofila”, prevedere l’attività di una nuova molecola diventa più facile se conosciamo l’attività delle molecole a lei vicine nel suo “vicinato chimico”. Sembra logico, no?
Eppure, molti approcci di machine learning per la scoperta di farmaci si concentrano sull’architettura “molecola-a-predizione”, ignorando le preziose informazioni che si nascondono nel vicinato chimico durante la fase di predizione (inferenza). Noi abbiamo pensato: e se sfruttassimo proprio questa omofilia?
Ecco CSNN: L’IA che “Spia” i Vicini
Abbiamo sviluppato un modello che abbiamo chiamato Chemical Space Neural Networks (CSNN). L’idea è passare da un approccio “molecola-a-predizione” a uno “vicinato-a-predizione”. Come funziona?
- Quando vogliamo predire l’attività di una molecola “query”, per prima cosa cerchiamo nel nostro database le molecole chimicamente più simili (i suoi vicini).
- Raccogliamo le informazioni note su questi vicini, in particolare le loro etichette di bioattività (es. “agonista”, “antagonista”, “nessun effetto”). Queste etichette diventano delle *feature*, degli input, per il nostro modello. Ecco il concetto di “Labels as Features” (LaF).
- Costruiamo un “grafo del vicinato” che include la molecola query, i suoi vicini e le informazioni sulle loro etichette.
- Diamo questo grafo in pasto alla nostra rete neurale (CSNN), che impara a usare le informazioni del vicinato (grazie alle LaF) per predire l’attività della molecola query.
Questo approccio si ispira a un paradigma emergente chiamato Training-Free Graph Neural Networks (TFGNNs), che ha dimostrato come usare le etichette dei nodi vicini migliori drasticamente le capacità predittive delle reti neurali su grafi, anche senza un vero e proprio addestramento!

Ma Funziona Davvero? I Test Computazionali
Per prima cosa, abbiamo messo alla prova CSNN sui dati pubblici esistenti (da database come ChEMBL e IUPHAR/BPS). Abbiamo compilato un dataset enorme con quasi 187.000 molecole uniche e le loro attività note su 128 GPCR umani.
I risultati sono stati entusiasmanti! Abbiamo dimostrato che:
- Lo spazio delle interazioni farmaco-GPCR è fortemente omofilo.
- L’accuratezza delle predizioni di CSNN è strettamente correlata al grado di omofilia della rete. Più il vicinato è “omogeneo”, migliore è la predizione.
- Usare le LaF migliora significativamente le performance rispetto ai modelli tradizionali che non guardano il vicinato (come semplici MLP o Random Forest). Addirittura, un approccio “training-free” semplicissimo (prendere l’etichetta più frequente nel vicinato, l’operazione “Argmax”) ottiene già risultati notevoli, dimostrando la potenza intrinseca dell’omofilia e delle LaF.
- Il nostro CSNN, specialmente quando è molto “sicuro” della sua predizione (alta probabilità associata alla classe predetta), raggiunge accuratezze elevatissime, superando anche l’approccio Argmax.
- Abbiamo sviluppato una versione di CSNN (chiamata NNθ128) capace di predire l’attività su tutti i 128 GPCR contemporaneamente in un colpo solo, sfruttando le LaF da tutto il vicinato e ottenendo performance eccellenti (F1-score medio ponderato di 0.83 su tutti i GPCR, e quasi perfetto, 0.978, sui 10 GPCR con più dati).
- Abbiamo testato l’approccio anche su un compito più difficile, la regressione (predire la forza del legame, Ki), usando un dataset di benchmark (pdCSM). Anche qui, includere l’informazione del vicinato (LaF) ha migliorato le performance rispetto al metodo originale, specialmente nei casi con forte omofilia.
Insomma, usare le etichette dei vicini come feature non è solo un’idea carina, ma un potente “bias induttivo” che aiuta l’IA a fare predizioni più accurate e robuste, specialmente in contesti dove l’omofilia la fa da padrona. Con l’approccio Argmax, siamo già riusciti ad aumentare la copertura delle interazioni note dal 1.5% al 5.6%!

Dalla Teoria alla Pratica: La Validazione Sperimentale con il Lievito
Le predizioni computazionali sono belle, ma la biologia richiede prove sperimentali. Per questo, abbiamo sviluppato una piattaforma high-throughput basata sul lievito (Saccharomyces cerevisiae). Perché il lievito? È economico, veloce e si presta bene a esprimere recettori umani come i GPCR e a misurarne l’attivazione.
Abbiamo ingegnerizzato ceppi di lievito per esprimere 7 diversi hGPCR di interesse farmacologico. Questi lieviti “biosensori” sono stati progettati per emettere luce (usando la NanoLuciferasi, un reporter molto sensibile) quando il loro GPCR viene attivato da un farmaco. Abbiamo verificato che il sistema funzionasse a dovere, misurando le curve dose-risposta con agonisti noti e ottenendo risultati comparabili o persino migliori (in termini di range dinamico) rispetto ai saggi tradizionali su cellule di mammifero.
Poi è arrivato il momento clou: abbiamo testato una libreria di 539 composti chimici (farmaci approvati, prodotti naturali) contro tutti e 7 i nostri GPCR ingegnerizzati nel lievito. Questo ci ha fornito un dataset di 3773 interazioni farmaco-recettore misurate sperimentalmente (ridotte a circa 3018 dopo un controllo qualità per eliminare artefatti).

Confronto tra Predizioni e Risultati Sperimentali: Cosa Abbiamo Imparato?
Armati dei nostri dati sperimentali, abbiamo confrontato le predizioni fatte da CSNN (sia l’Argmax che il modello NNθ128) con i risultati ottenuti nel lievito. E qui le cose si fanno interessanti:
- I nostri metodi si sono rivelati eccellenti nel filtrare le interazioni negative. Sia Argmax che CSNN hanno mostrato una specificità altissima (rispettivamente 0.992 e 0.979) nel predire correttamente la classe “Nessun Effetto”. Questo è importantissimo: significa che possiamo usare CSNN come strumento di pre-screening per ridurre drasticamente il numero di esperimenti da fare, eliminando a priori le coppie farmaco-recettore che molto probabilmente non interagiranno.
- La capacità di predire correttamente le interazioni positive (come agonisti o agonisti parziali) è risultata più modesta (precisione più bassa). Molti composti predetti come attivi non mostravano un’attivazione significativa nel nostro saggio su lievito. Questo non sorprende del tutto: il saggio su lievito cattura principalmente l’attivazione (agonismo), mentre etichette come “antagonista” o “agonista inverso” non sono direttamente misurabili con questo setup.
- Tuttavia, combinando le predizioni sulla classe di attività (dal modello NNθ128) e quelle sulla forza di legame (dal modello di regressione), siamo riusciti a incrementare significativamente il tasso di “hit” sperimentali. Definendo un “hit predetto” come un composto con Ki predetto < 100 nM e un'etichetta diversa da "Nessun Effetto", e un "hit sperimentale" come un composto con Z-score > 3 nel saggio, abbiamo visto che il nostro approccio può arricchire la percentuale di hit dal 3.3% (casuale) a circa il 18%. Un bel passo avanti per ottimizzare gli screening!

Scoperte Inattese: Nuove Interazioni Emerse dal Buio
Ma non è finita qui. Oltre a validare le predizioni, abbiamo usato la nostra rete di spazio chimico (CSN) come una sorta di “mappa della conoscenza”. Abbiamo cercato tra i nostri risultati sperimentali quelli che mostravano un segnale forte (Z-score significativo) ma per i quali non c’era alcuna informazione nota nel loro vicinato chimico su quel particolare GPCR. In pratica, cercavamo scoperte veramente nuove, non suggerite dai dati esistenti.
E le abbiamo trovate! Abbiamo identificato 14 nuove interazioni farmaco-GPCR senza precedenti in letteratura o nei database pubblici. Ad esempio:
- Abbiamo scoperto che la Tinoridina interagisce con il recettore HTR4, suggerendo potenziali usi per disturbi gastrointestinali.
- Abbiamo trovato un’interazione tra la Nicergolina e il recettore CHRM3, che potrebbe avere implicazioni per il trattamento dell’Alzheimer e della schizofrenia, e forse spiegare parte del suo meccanismo d’azione nel controllo della pressione sanguigna.
- L’interazione osservata tra il Latanoprost (usato per il glaucoma) e il CHRM3 potrebbe contribuire a spiegare il suo meccanismo d’azione sulla pressione intraoculare.
- L’interazione scoperta tra il Tranylcypromide (un antidepressivo) e il recettore MTNR1A (recettore della melatonina) potrebbe essere collegata ai disturbi del ritmo circadiano osservati in caso di sovradosaggio.
Queste scoperte dimostrano la potenza della combinazione tra un metodo di IA robusto come CSNN e una piattaforma sperimentale efficiente come quella basata sul lievito.
Conclusioni e Prospettive Future
Quindi, qual è la morale della favola? Abbiamo dimostrato che guardare al “vicinato chimico” e usare le “etichette come feature” (LaF) è un approccio potentissimo per colmare le lacune nella nostra conoscenza delle interazioni farmaco-GPCR. Questo non solo ci aiuta a capire meglio i farmaci che già usiamo (e i loro potenziali effetti collaterali), ma ci permette anche di guidare in modo più efficiente la sperimentazione futura.
Certo, ci sono limitazioni. Per ora ci siamo concentrati solo sui GPCR, ma gli effetti off-target possono coinvolgere anche altre classi di proteine. Inoltre, i dati pubblici su cui si basano questi modelli potrebbero avere dei bias (ad esempio, potrebbero sovra-rappresentare molecole simili tra loro derivanti da sforzi di ottimizzazione). È fondamentale essere consapevoli di questi aspetti e continuare a sviluppare metodi di IA sempre più robusti e sistemi di validazione sperimentale affidabili.
Il concetto di LaF, peraltro, non è del tutto nuovo in biologia: pensate alla modalità “template” di AlphaFold2, che usa strutture note come guida. Nel nostro caso, le etichette dei vicini forniscono una “risposta approssimativa” che l’IA può poi rifinire.
Guardando al futuro, vediamo enormi potenzialità:
- Estendere CSNN ad altre classi di target proteici.
- Sviluppare architetture “neighbourhood-to-prediction” ancora più sofisticate, magari end-to-end differenziabili e interpretabili.
- Ampliare la piattaforma di biosensori a lievito per coprire un numero sempre maggiore di GPCR (già oltre 70 sono stati fatti funzionare nel lievito!).
- Utilizzare questi approcci anche in biotecnologia, ad esempio per identificare rapidamente GPCR adatti a specifici ligandi per la biosintesi sostenibile di prodotti naturali complessi.
Insomma, sfruttando l’omofilia di rete e la potenza delle etichette come feature, stiamo accendendo una luce su quella vasta area oscura delle interazioni farmaco-recettore, un passo alla volta. È un campo in rapida evoluzione, e non vediamo l’ora di scoprire cosa ci riserverà il futuro!

Fonte: Springer
