Grafi Ridotti: La Mappa Segreta per Navigare l’Ottimizzazione dei Farmaci
Ciao a tutti! Oggi voglio parlarvi di qualcosa che mi appassiona molto nel campo della scoperta di farmaci: come diamine facciamo a dare un senso a tutte quelle molecole che testiamo? Specialmente nella fase di ottimizzazione del lead (LO), quando cerchiamo di trasformare una molecola promettente in un potenziale farmaco, ci troviamo sommersi da dati. Centinaia, a volte migliaia, di composti simili tra loro, con piccole modifiche qua e là. Come facciamo a capire cosa funziona e cosa no?
Il Modo Classico: Strutture Markush e Tabelle R
Tradizionalmente, noi chimici medicinali usiamo le cosiddette strutture Markush e le tabelle dei gruppi R. Immaginate la struttura Markush come lo “scheletro” (o scaffold) comune a una serie di molecole, con delle “braccia” indicate come R1, R2, ecc., che rappresentano i punti dove abbiamo attaccato diversi pezzetti (i sostituenti). La tabella associata elenca poi quali sostituenti specifici sono presenti in ogni molecola e quali proprietà (come la potenza o la tossicità) quella molecola ha mostrato.
È un sistema intuitivo, certo. Ci permette di visualizzare le relazioni struttura-attività (SAR), cioè come le modifiche strutturali influenzano l’attività biologica. Ma ha i suoi limiti. Cosa succede se modifichiamo leggermente anche lo scaffold centrale? O se nel nostro set di dati ci sono più scaffold simili ma non identici? I metodi automatici basati sulla ricerca della sottostruttura massima comune (MCS), come le SAR map, spesso si incartano in questi casi, creando nuove strutture Markush per ogni piccola variazione, rendendo difficile avere una visione d’insieme. Un vero rompicapo!
La Svolta: Entrano in Scena i Grafi Ridotti (RG)
Ed è qui che arriva il bello! Recentemente, abbiamo iniziato a esplorare un approccio basato sui cosiddetti grafi ridotti (RG). Cosa sono? In pratica, sono una rappresentazione semplificata, un riassunto, della struttura molecolare. Invece di guardare ogni singolo atomo, raggruppiamo gli atomi in “nodi” basandoci su caratteristiche chiave: sono parte di un anello? È un anello aromatico o alifatico? Hanno capacità di legame a idrogeno (accettore, donatore, entrambi)? Sono gruppi funzionali aciclici?
Il vantaggio enorme è che diverse sottostrutture, magari con piccole differenze, possono essere ridotte allo stesso tipo di nodo. Questo rende la rappresentazione RG molto più flessibile e meno sensibile a quelle piccole modifiche dello scaffold che mandavano in tilt i metodi tradizionali. Pensatela così: invece di una mappa dettagliatissima di ogni singola strada, abbiamo una mappa della metropolitana che mostra le linee principali e le stazioni chiave. Molto più facile da leggere per capire i collegamenti generali!
Come Funziona la Magia? Dall’RG alla Visualizzazione
Il processo che abbiamo sviluppato (e reso pubblico, perché la scienza è condivisione!) funziona più o meno così:
1. Conversione in RG: Prendiamo tutte le molecole del nostro set di dati LO e le trasformiamo nei loro grafi ridotti.
2. Identificazione dei “Core RG”: Usiamo un algoritmo (simile all’MCS, ma applicato agli RG) per trovare i “pattern” di nodi RG comuni a gruppi di molecole. Chiamiamo questi pattern “core RG”. Un core RG rappresenta quindi un insieme di molecole strettamente correlate, anche se i loro scaffold chimici non sono perfettamente identici.
3. Annotazione e Visualizzazione: Ogni nodo nel core RG viene “annotato” con le specifiche sottostrutture chimiche che rappresenta nelle molecole reali. E qui viene il bello della visualizzazione!

Rappresentiamo i core RG in modo interattivo. I nodi diventano dei grafici a torta:
- La dimensione del nodo a torta indica quante diverse sottostrutture reali sono state “riassunte” in quel nodo. Un nodo grande significa tanta varietà esplorata in quel punto!
- Il numero di fette nella torta corrisponde al numero di sottostrutture uniche.
- La dimensione di ogni fetta è proporzionale a quante molecole nel gruppo hanno quella specifica sottostruttura.
Questo ci dà immediatamente un’idea visiva di quali parti della molecola sono state esplorate a fondo e quali magari sono state trascurate (aree sotto- o sovra-esplorate). Cliccando su un nodo, si apre una tabella che mostra le sottostrutture specifiche, quante volte compaiono e, importantissimo, dati statistici sull’attività (come la pIC50 media e mediana) delle molecole che le contengono. Questo aiuta a farsi un’idea dell’impatto di ciascuna modifica.
Un Caso Pratico: Analisi di un Dataset GSK
Per mettere alla prova il metodo, l’abbiamo applicato a un dataset pubblico di antagonisti del recettore P2X7, frutto di un programma di LO condotto da GlaxoSmithKline (GSK). Parliamo di quasi 800 composti!
Dopo aver generato gli RG e applicato l’algoritmo per estrarre i core RG (abbiamo scelto parametri che ci hanno dato 13 core principali), abbiamo iniziato ad analizzarli. È stato affascinante!
Ad esempio, il Core RG 2 (che rappresentava 302 molecole) si è rivelato molto informativo. Ha catturato perfettamente una serie principale basata su un derivato della piroglutammide. La visualizzazione a torta mostrava chiaramente:
- Due nodi centrali (Ge e Li) senza variazione, rappresentanti un gruppo acetamidico comune a tutte le 302 molecole.
- Un nodo “Ca” (anello alifatico accettore di legami H) molto grande e frammentato, indicante che erano stati esplorati ben 28 diversi sistemi di anelli eterociclici in quella posizione!
- Un nodo “No” (anello aromatico inerte) che rappresentava sempre un anello fenilico, ma con 7 diversi pattern di sostituzione esplorati.
- Un nodo “Hg” (sostituente aciclico) che rappresentava 4 diversi gruppi (Cl, Br, F, CF3).

Altri core RG (come il Core RG 4) hanno raggruppato molecole dove il gruppo acetamidico centrale era stato sostituito da un carbonile, identificando correttamente due sotto-serie distinte (triazolopiperidine e piperazinoni) riportate in brevetti diversi. Il Core RG 5 ha identificato una serie con un anello eterociclico aromatico invece che alifatico, mentre il Core RG 6 ha raggruppato composti con un linker metilenico o etilenico.
In pratica, analizzando le sovrapposizioni tra i vari core RG, siamo riusciti a identificare chiaramente le quattro principali serie chimiche esplorate da GSK in quel dataset, rappresentate al meglio dai Core RG 2, 4, 5 e 6.
Perché Tutto Questo è Utile? I Vantaggi Concreti
Ok, figo il metodo, ma a che serve? Beh, i vantaggi sono parecchi:
- Visione Olistica: Ci dà una panoramica completa dei dati di LO, raggruppando serie che altrimenti potrebbero sembrare separate solo per piccole modifiche allo scaffold.
- Identificazione di Serie Diverse: Riesce a distinguere diverse linee di ricerca all’interno dello stesso dataset.
- Evidenziare Aree Inesplorate: La visualizzazione a torta rende palese dove si è concentrata la sintesi e dove invece ci sono potenziali “buchi” da esplorare. Ad esempio, confrontando i core, abbiamo notato che l’eterociclo nel Core RG 5 era stato esplorato molto meno rispetto a quello nel Core RG 2 o 6. Un’idea per il futuro?
- Analisi SAR Imparziale: Essendo un metodo automatico, offre una revisione della SAR senza i preconcetti che un ricercatore potrebbe avere.
- Supporto alle Decisioni: Può aiutare a contestualizzare le nuove molecole proposte da algoritmi di design (come l’active learning), mostrando come si inseriscono nel panorama chimico già esplorato.
- Valutazione di Modelli Predittivi: Fornisce una rappresentazione consistente delle serie chimiche, utile per valutare le performance dei modelli predittivi su specifiche sottoclassi di composti.

Un Nuovo Strumento nel Nostro Arsenale
In conclusione, questo approccio basato sui grafi ridotti è davvero un passo avanti rispetto alle classiche strutture Markush e tabelle R. Ci permette di “vedere” le nostre serie di ottimizzazione del lead in un modo nuovo, più flessibile e informativo. Raggruppa composti con scaffold simili ma non identici, identifica diverse serie correlate e, grazie a visualizzazioni intuitive come i nodi a torta, ci aiuta a capire rapidamente dove si è concentrata la ricerca e dove potrebbero esserci nuove opportunità.
È uno strumento potente che si aggiunge alla nostra “cassetta degli attrezzi” di chimici medicinali, aiutandoci a navigare la complessità della scoperta di farmaci e, speriamo, a trovare più velocemente molecole migliori per combattere le malattie. E il fatto che il codice sia disponibile pubblicamente non fa che aumentare il potenziale per ulteriori ricerche e miglioramenti in questo campo affascinante!

Fonte: Springer
