HPOseq: La Mia Avventura nell’IA per Svelare i Legami tra Proteine e Malattie!
Ciao a tutti! Oggi voglio parlarvi di qualcosa che mi appassiona tantissimo: come possiamo usare l’intelligenza artificiale, e in particolare un modello che abbiamo chiamato HPOseq, per capire meglio le connessioni super complesse tra le proteine del nostro corpo e le caratteristiche o le malattie che possiamo sviluppare (quelli che noi scienziati chiamiamo “fenotipi”). È un viaggio affascinante nel cuore della biologia e dell’informatica!
Perché è così importante capire le proteine?
Pensateci un attimo: le proteine sono le vere operaie del nostro organismo. Fanno praticamente di tutto: catalizzano reazioni chimiche come enzimi, trasmettono segnali, costruiscono le strutture delle nostre cellule… sono fondamentali! [1, 2] Capire quali proteine sono legate a una specifica malattia è cruciale per scovarne le cause profonde [3, 4]. E nell’era della medicina di precisione, analizzare le proteine associate ai fenotipi specifici di un paziente ci aiuta tantissimo nella diagnosi precoce e nello sviluppo di cure personalizzate [5, 6, 7].
Il problema? Beh, i metodi tradizionali da laboratorio, anche se super affidabili, richiedono un sacco di tempo e, diciamocelo, un bel po’ di soldi. Per fortuna, i progressi tecnologici ci hanno regalato montagne di dati (proteomica) e database pazzeschi come UniProt [11] (che raccoglie info sulle proteine) e l’Human Phenotype Ontology (HPO) [9] (che standardizza la descrizione dei fenotipi umani e mappa le relazioni note tra proteine e fenotipi [12]).
La sfida: Tanti dati, ma spesso solo la sequenza
Grazie a questi database e alla potenza dei computer, sono nati molti metodi computazionali per predire quali fenotipi sono associati a determinate proteine [13, 14]. Questi metodi, in genere, sfruttano due tipi di informazioni:
- Informazioni “interne” alla proteina: la sequenza degli amminoacidi [1], i domini funzionali [14], la struttura 3D [15], la funzione biologica [13].
- Informazioni sulle relazioni tra proteine: come interagiscono tra loro (Protein-Protein Interaction, PPI) [21] o quanto sono simili [20]. L’idea è che molte funzioni biologiche derivano dalla collaborazione di più proteine [22].
Metodi precedenti hanno usato queste informazioni con successo [13, 14, 19, 23, 24]. Il punto è che, nonostante tutto, le proteine di cui conosciamo bene la funzione o le interazioni sono ancora una minoranza [25]. Pensate che nel database UniProt ci sono oltre 249 milioni di sequenze di amminoacidi, ma solo l’1,85% ha annotazioni funzionali affidabili e circa il 23,56% ha informazioni validate sulle interazioni [11, 26]! Per la stragrande maggioranza delle proteine, l’unica cosa che abbiamo è la sequenza degli amminoacidi. Questo limita parecchio l’uso dei metodi che richiedono informazioni più dettagliate [13, 14].
La nostra idea: HPOseq, l’unione fa la forza (dei dati)!
Qui entra in gioco la nostra creatura: HPOseq. Ci siamo detti: “E se provassimo a predire le relazioni proteina-fenotipo usando solo ed esclusivamente la sequenza degli amminoacidi?”. Sembra una follia? Forse, ma abbiamo pensato di usare una strategia “ensemble”, cioè che combina i risultati di diversi approcci per essere più robusta e precisa [27, 28, 29, 30].
HPOseq, infatti, si basa su due “modelli base” che lavorano in parallelo:
- Modello Intra-Sequenza: Questo modello guarda “dentro” la singola sequenza di amminoacidi. Usa una tecnica chiamata 1D Convolutional Neural Network (1D-CNN) [32], bravissima a trovare pattern e informazioni locali significative direttamente dalla sequenza (dopo averla codificata in un formato numerico [31]). È come se leggesse la sequenza cercando indizi nascosti al suo interno.
- Modello Inter-Sequenza: Questo modello, invece, si concentra sulle relazioni “tra” diverse sequenze. Prima calcoliamo quanto sono simili le sequenze tra loro usando uno strumento standard chiamato BLAST [33]. Poi, costruiamo una rete (un grafo) dove ogni proteina è un nodo e le connessioni rappresentano la similarità. Su questa rete applichiamo un Variational Graph Autoencoder (VGAE) [35], una tecnica che impara a rappresentare ogni proteina (nodo) con un vettore di numeri che cattura le sue caratteristiche e le sue relazioni nella rete (usando anche una codifica specifica chiamata CT [34]). Infine, una rete neurale usa queste rappresentazioni per predire i fenotipi.
E poi? C’è il gran finale!
Il Modulo Ensemble: Mettere insieme i pezzi
Abbiamo un modulo “ensemble” [30] che prende le predizioni fatte dai due modelli base e le combina in modo intelligente, usando una strategia di fusione pesata con una rete neurale e una “maschera” per focalizzarsi sugli HPO giusti. L’idea è sfruttare i punti di forza di entrambi gli approcci: magari il modello intra-sequenza è bravissimo a cogliere certi dettagli, mentre quello inter-sequenza eccelle nel catturare relazioni più ampie basate sulla similarità. Mettendoli insieme, speriamo di ottenere una predizione finale più accurata e affidabile.
Come abbiamo testato HPOseq?
Per vedere se HPOseq funzionava davvero, abbiamo usato un dataset bello corposo derivato da HPO e UniProt (release Ottobre 2021), filtrato per avere dati di alta qualità: 4647 proteine, 4575 termini HPO e oltre 717.000 relazioni note tra loro. Abbiamo usato la validazione incrociata a 5 fold (dividiamo i dati in 5 parti, ne usiamo 4 per allenare il modello e 1 per testarlo, ripetendo 5 volte cambiando la parte di test).
Abbiamo confrontato HPOseq con altri sette metodi [1, 14, 24, 33, 36, 37, 38], alcuni specifici per le relazioni proteina-fenotipo, altri adattati dalla predizione della funzione proteica (Gene Ontology), assicurandoci che tutti usassero solo informazioni basate sulla sequenza per un confronto equo. Per valutare le performance abbiamo usato due metriche comuni: AUPR (Area Under the Precision-Recall curve) e Fmax (il miglior F-score possibile, che bilancia precisione e richiamo).
I risultati? Beh, siamo molto soddisfatti! HPOseq ha superato tutti gli altri metodi, ottenendo un AUPR di 0.3244 e un Fmax di 0.3869, migliorando rispettivamente dell’1.7% e dell’1.8% rispetto al secondo classificato (Fig. 2 nel paper originale). Questo suggerisce che la nostra strategia di combinare informazioni intra- e inter-sequenza è davvero efficace e robusta.
Abbiamo anche fatto un sacco di esperimenti per ottimizzare i parametri del modello (come le dimensioni dei layer nelle reti neurali o la soglia di similarità per costruire il grafo, Fig. 3 e Tabelle 1, 2) e per capire quanto contasse ogni componente (Fig. 4a, ablation study). Abbiamo visto che l’approccio ensemble è nettamente migliore rispetto all’usare solo uno dei modelli base e che la nostra strategia di fusione pesata funziona meglio di una semplice media (Fig. 4c). Abbiamo anche confermato che usare BLAST per calcolare la similarità delle sequenze dà risultati migliori rispetto ad altri metodi di similarità (Fig. 4b).
Ma funziona nel mondo reale? I casi studio
Ok, i numeri sono belli, ma HPOseq riesce a fare scoperte utili? Abbiamo provato a usarlo per predire proteine associate alla polmonite (HP:0002090) che non erano note nel dataset del 2021. Abbiamo preso le 10 predizioni col punteggio più alto e siamo andati a controllare nella letteratura scientifica più recente e nei database aggiornati. Risultato? Ben 6 su 10 sono state confermate! (Tabella 3). Ad esempio, abbiamo trovato conferme per proteine legate a UGRP1-PDPN [42], MyD88, TRNT1, IL6 [43], CD40LG e HLA-DRB1 [44], tutte con un ruolo emergente o confermato nella polmonite o nelle risposte immunitarie polmonari. Questo ci dice che HPOseq ha il potenziale per scoprire nuovi geni/proteine candidati per diverse malattie!
Abbiamo fatto un’analisi simile anche su tre proteine specifiche (V9HW98, A0PJI1, O14997) non presenti nei dati di training, andando a cercare supporto in letteratura per le predizioni HPO fatte dal nostro modello (Tabella 4). Anche qui abbiamo trovato riscontri interessanti che legano queste proteine (codificate dai geni YWHAE, HIC1, CCDC88A) a condizioni come cancro [45], schizofrenia [46], sviluppo embrionale [47], degenerazione maculare e malattie articolari o neurologiche. Questi casi specifici confermano l’utilità pratica del nostro metodo.
Cosa ci riserva il futuro?
Siamo entusiasti dei risultati di HPOseq! Dimostra che è possibile ottenere predizioni accurate sulle relazioni proteina-fenotipo usando solo la sequenza degli amminoacidi, il che è fantastico data la grande quantità di sequenze disponibili. Il nostro approccio ensemble, che combina l’analisi interna alla sequenza con quella delle similarità tra sequenze, sembra essere la chiave del successo.
Certo, c’è sempre margine di miglioramento. Al momento, trattiamo il problema come una classificazione multi-etichetta, concentrandoci sull’estrazione di feature dalle proteine. Ma l’Human Phenotype Ontology ha una struttura gerarchica ricca di informazioni che non stiamo ancora sfruttando appieno. Una direzione futura interessante sarà sicuramente quella di integrare la conoscenza strutturale dell’ontologia HPO per migliorare ulteriormente le predizioni.
Insomma, svelare i legami tra proteine e fenotipi è fondamentale per capire le malattie e sviluppare nuove terapie. Con HPOseq, pensiamo di aver fatto un passo avanti importante in questa direzione, sfruttando la potenza dell’IA e la ricchezza (anche se a volte limitata) dei dati che abbiamo a disposizione. E il bello è che siamo solo all’inizio!
Fonte: Springer