DNA Corretto al Microscopio: Il Deep Learning Prevede l’Editing Genetico come un Indovino!
Ciao a tutti, appassionati di scienza e curiosi del futuro! Oggi voglio portarvi con me in un viaggio affascinante nel mondo della genetica, un campo che sta facendo passi da gigante, quasi da fantascienza. Parleremo di come stiamo imparando a “correggere” il nostro DNA e, soprattutto, di come l’intelligenza artificiale ci stia dando una mano enorme per farlo nel modo più preciso ed efficiente possibile. Tenetevi forte, perché stiamo per esplorare come il deep learning sta rivoluzionando la predizione dell’efficacia dell’editing delle basi adeniniche.
Forbicine Molecolari di Precisione: Gli Editor di Basi Adeniniche (ABE)
Immaginate delle forbicine molecolari super precise, ma che invece di tagliare, “correggono” una singola lettera sbagliata nel nostro DNA. Ecco, questi sono gli editor di basi adeniniche (ABE). In termini un po’ più tecnici, gli ABE ci permettono di convertire una coppia di basi A•T (Adenina-Timina) in una coppia G•C (Guanina-Citosina) nel genoma. Questa è una cosa pazzesca, perché moltissime malattie genetiche sono causate proprio da queste singole “lettere” sbagliate, le cosiddette mutazioni puntiformi. Poterle correggere apre scenari terapeutici incredibili!
Il problema, però, è che l’efficacia di questa “correzione” dipende molto dalla sequenza specifica di DNA che stiamo bersagliando. Non tutti i siti si lasciano modificare con la stessa facilità. Per questo, noi ricercatori abbiamo cercato di sviluppare modelli computazionali, una sorta di “oracoli digitali”, che potessero prevedere l’esito dell’editing basandosi sulla sequenza target. Finora, questi modelli sono stati addestrati principalmente su dati ottenuti in vitro, cioè in laboratorio usando linee cellulari. Ma la grande domanda è: quanto sono affidabili queste previsioni quando passiamo al mondo reale, cioè in vivo, direttamente negli organismi viventi, come ad esempio nelle cellule primarie di un tessuto?
La Nostra Missione: Dalle Cellule in Provetta al Fegato Murino
Per rispondere a questa domanda, ci siamo rimboccati le maniche e abbiamo avviato degli esperimenti di editing di basi su larga scala. Abbiamo usato due potenti varianti di ABE, chiamate SpRY-ABEmax e SpRY-ABE8e (quest’ultima è una versione “potenziata” per una maggiore processività), per bersagliare ben 2.195 mutazioni patogeniche, utilizzando un totale di circa 12.000 diverse “guide” RNA (sgRNA), che sono le molecole che indirizzano l’editor nel punto giusto del DNA. E non ci siamo limitati alle classiche linee cellulari HEK293T in laboratorio; siamo andati oltre, testando l’editing direttamente nel fegato di topolini.
Perché proprio queste varianti SpRY? Perché le versioni standard degli editor, come quelle basate su SpCas9, hanno bisogno di una sequenza specifica vicina al target, chiamata PAM (Protospacer-Adjacent Motif), che per SpCas9 è tipicamente NGG. Questo limita un po’ i siti che possiamo raggiungere. Varianti come SpG (che riconosce NGN) e soprattutto SpRY (che riconosce NRN e, in misura minore, NYN) sono molto più “flessibili” riguardo al PAM, permettendoci di bersagliare quasi ogni sito nel genoma. Questa flessibilità è cruciale perché ci consente di “spostare” il target all’interno della finestra di editing dell’ABE, massimizzando la correzione della mutazione desiderata e, cosa importantissima, minimizzando le modifiche indesiderate alle adenine vicine (i cosiddetti effetti “bystander”). Testare tutte queste combinazioni sperimentalmente sarebbe un lavoro immane e costosissimo, ed è qui che entrano in gioco i modelli predittivi.

I risultati iniziali sono stati subito interessanti. Abbiamo osservato una forte correlazione tra i dati ottenuti in vitro tramite elettroporazione di mRNA dell’ABE nelle cellule HEK293T e i dati in vivo nel fegato murino, dove l’ABE era stato veicolato tramite virus adeno-associati (AAV) o nanoparticelle lipidiche (LNP) contenenti mRNA modificato. Parliamo di coefficienti di correlazione di Spearman tra 0.83 e 0.92! Questo è un ottimo segno, perché suggerisce che ciò che vediamo in certe condizioni di laboratorio può riflettere bene quello che succede in un organismo complesso.
BEDICT2.0: Il Nostro “Indovino” Basato sul Deep Learning
Forti di questa enorme mole di dati, abbiamo sviluppato BEDICT2.0, un modello di deep learning progettato per prevedere l’efficienza dell’editing delle basi adeniniche con alta accuratezza. E i risultati ci hanno dato ragione! BEDICT2.0 si è dimostrato molto bravo a fare previsioni sia nelle linee cellulari (con correlazioni R che vanno da 0.60 a 0.94) sia, e questo è il punto cruciale, nel fegato murino (R da 0.62 a 0.81).
Dentro il Laboratorio: Come Abbiamo Generato i Dati
Per generare i dataset sull’editing dell’adenina, abbiamo prima lavorato sulle cellule HEK293T. Abbiamo creato una “libreria” di sgRNA specifici per le 2.195 mutazioni patogeniche selezionate da database come ClinVar e LOVD. Per ogni mutazione, abbiamo disegnato fino a sei sgRNA diversi, in modo da poter posizionare la base target in vari punti (dalla posizione 2 alla 12) della sequenza riconosciuta dall’sgRNA (il protospacer). Questo “tiling” di sgRNA è fondamentale per trovare la configurazione ottimale che massimizzi l’editing on-target e minimizzi quello bystander.
Questi sgRNA sono stati inseriti in un vettore lentivirale e usati per trasdurre le cellule HEK293T. Successivamente, abbiamo trasfettato queste cellule con i plasmidi che codificano per le diverse varianti di ABE (SpCas9-ABEmax, SpCas9-ABE8e, SpG-ABEmax, SpG-ABE8e, SpRY-ABEmax e SpRY-ABE8e). Dopo 5 o 10 giorni di coltura e selezione, abbiamo estratto il DNA genomico e analizzato l’efficienza di editing tramite sequenziamento ad alta processività (HTS).
Abbiamo notato che i risultati a 5 e 10 giorni erano molto simili, quindi ci siamo concentrati sui dati a 10 giorni (dataset HEK-Plasmid). Le preferenze per i PAM delle diverse varianti ABE rispecchiavano quelle delle rispettive nucleasi Cas9: SpRY-ABE editava su tutti i motivi NRN e un po’ sugli NYN, SpG-ABE principalmente su NGN e NAN, e SpCas9-ABE su NGG e NAG. Come atteso, le varianti ABE8e erano più efficienti delle ABEmax, e la finestra di editing era più ampia per ABE8e (circa 11 basi) rispetto ad ABEmax (circa 7 basi). Un dato importante: circa il 36.9% delle mutazioni A-G patogeniche potevano essere corrette con efficienze superiori al 10%, e di queste, il 69.4% non mostrava editing bystander significativo (definito come ≤ 0.5%).
Il Salto all’In Vivo: Sfide e Scoperte
Poi è arrivato il momento di passare all’in vivo. Abbiamo iniettato i vettori lentivirali con la libreria di sgRNA in topolini neonati, in modo che si integrassero stabilmente negli epatociti (le cellule del fegato). Dopo sei settimane, abbiamo trattato i topi o con mRNA-LNP (nanoparticelle lipidiche contenenti l’mRNA per SpRY-ABE8e o SpRY-ABEmax) o con vettori AAV che esprimevano versioni “split” (divise in due parti che poi si auto-assemblano) degli stessi editor. Una settimana dopo il trattamento con mRNA-LNP o sei settimane dopo quello con AAV, abbiamo isolato gli epatociti e analizzato l’editing.

Anche qui, le correlazioni tra le repliche biologiche erano buone, e soprattutto c’era una forte correlazione tra i dati ottenuti con AAV e quelli con mRNA-LNP. SpRY-ABE8e si confermava più efficiente di SpRY-ABEmax anche in vivo. Curiosamente, quando abbiamo confrontato i risultati in vivo con quelli in vitro ottenuti con la trasfezione plasmidica (HEK-Plasmid), le correlazioni erano più deboli (R tra 0.54 e 0.86). Questo ci ha fatto riflettere.
Abbiamo notato una differenza nella distribuzione delle efficienze di editing: nei dati HEK-Plasmid, c’era un accumulo di efficienze intorno al 40% per SpRY-ABE8e e al 30% per SpRY-ABEmax. Abbiamo ipotizzato che questo potesse essere dovuto a una sorta di “saturazione” dell’editing nelle cellule che esprimevano l’editor a livelli molto alti, come spesso accade con la trasfezione plasmidica. Per verificare questa ipotesi, abbiamo cambiato protocollo in vitro: invece di usare plasmidi, abbiamo elettroporato le cellule HEK293T (quelle con la libreria di sgRNA integrata) con diverse quantità di mRNA che codificava per SpRY-ABE8e o SpRY-ABEmax. Questo metodo di solito porta a un’espressione più controllata e fisiologica dell’editor.
Bingo! Le efficienze di editing con l’mRNA erano distribuite in modo più uniforme rispetto al dataset HEK-Plasmid. E, cosa ancora più importante, quando abbiamo confrontato questo nuovo dataset in vitro (HEK-mRNA) con i dati in vivo, le correlazioni sono schizzate verso l’alto (mRNA-LNP: R=0.87-0.88; AAV: R=0.83)! Questo suggerisce che la consegna di mRNA in vitro mima meglio i livelli di espressione fisiologici dell’editor che si ottengono in vivo. In effetti, avevamo già osservato in passato che l’espressione di ABE dopo trasfezione plasmidica può essere oltre 10.000 volte superiore a quella ottenuta in vivo con AAV o mRNA-LNP.
L’Architettura di BEDICT2.0 e il Confronto con Altri Modelli
Con tutti questi dati preziosi, abbiamo potuto affinare il nostro modello BEDICT2.0. Abbiamo modificato l’architettura del precedente BE-DICT, passando da una rete neurale encoder-decoder a una encoder-encoder, riducendo la complessità computazionale. Il nuovo modello prende in input sia la sequenza di riferimento (il target) sia una potenziale sequenza di output (ogni possibile esito dell’editing) e stima la probabilità di ottenere quella specifica sequenza di output. Abbiamo scoperto che includere il PAM nell’input migliorava significativamente l’accuratezza, mentre le sequenze fiancheggianti oltre il PAM non aggiungevano molto.
Per migliorare ulteriormente, abbiamo diviso BEDICT2.0 in due componenti: un “Modello di Efficienza” (che predice l’efficienza totale di editing) e un “Modello di Proporzione” (che stima la distribuzione tra i vari prodotti editati). Combinando i risultati di questi due, BEDICT2.0 ha mostrato una migliore accuratezza predittiva rispetto alla versione precedente (BEDICT1.2) sul dataset HEK-Plasmid.
Tuttavia, quando abbiamo applicato BEDICT2.0 (addestrato su HEK-Plasmid) ai nostri dati in vivo, le prestazioni sono calate. Ma ecco la svolta: addestrando BEDICT2.0 sul dataset HEK-mRNA (quello che correlava meglio con l’in vivo), le prestazioni sono aumentate notevolmente, diventando paragonabili a quelle di modelli BEDICT2.0 addestrati direttamente sui dati in vivo! Questo è un risultato fantastico, perché significa che possiamo usare dati in vitro (ottenuti con mRNA) per addestrare modelli che funzionano bene anche in vivo.

Abbiamo anche confrontato BEDICT2.0 con altri modelli predittivi esistenti, come BE-HIVE e DeepABE. Su dataset esterni, BEDICT2.0 si è comportato leggermente meglio di DeepABE e in modo comparabile a BE-HIVE. È interessante notare che anche le prestazioni di BE-HIVE e DeepABE (addestrati su dati in vitro da trasfezione plasmidica) diminuivano quando applicati ai dataset in vivo, confermando l’importanza del tipo di dati di training.
Cosa Significa Tutto Questo per il Futuro?
Il nostro lavoro conferma l’enorme potenziale dell’editing delle basi adeniniche per correggere una vasta frazione di mutazioni patogeniche. Abbiamo dimostrato che, sebbene gli editor basati su SpRY abbiano un raggio d’azione più ampio in termini di PAM, la loro efficienza media on-target tende ad essere inferiore, un compromesso già visto con le nucleasi Cas9.
Fondamentalmente, abbiamo capito che il modo in cui l’editor viene introdotto nelle cellule in vitro è cruciale per ottenere dati che siano predittivi per l’ambiente in vivo. L’elettroporazione di mRNA sembra essere la strada giusta per mimare meglio le condizioni fisiologiche.
E poi c’è BEDICT2.0: un modello computazionale robusto che ci aiuta a identificare le combinazioni sgRNA-ABE più promettenti, quelle capaci di raggiungere un’alta efficienza di editing sul bersaglio desiderato, minimizzando al contempo gli effetti collaterali indesiderati (bystander). Questo strumento è preziosissimo per chiunque lavori nel campo dell’editing genetico, perché permette di risparmiare tempo e risorse, concentrandosi sugli approcci più efficaci.
Siamo entusiasti di questi risultati e crediamo che BEDICT2.0 possa davvero accelerare lo sviluppo di nuove terapie geniche. Certo, la strada è ancora lunga, ma ogni passo avanti come questo ci avvicina a un futuro in cui potremo affrontare molte malattie genetiche con strumenti sempre più precisi e potenti. E l’intelligenza artificiale, come abbiamo visto, è una compagna di viaggio indispensabile in questa avventura scientifica!
Fonte: Springer
