Illustrazione fotorealistica di un filamento di RNA a doppia elica che si intreccia con circuiti digitali luminosi simili a una rete neurale, prime lens, 50mm, depth of field, sfondo blu scuro tecnologico astratto.

RNA su Misura: L’IA Disegna le Molecole del Futuro!

Ciao a tutti! Oggi voglio parlarvi di qualcosa di veramente affascinante che sta cambiando il modo in cui pensiamo e progettiamo le molecole biologiche: l’uso dell’intelligenza artificiale, in particolare delle reti neurali, per creare molecole di RNA funzionali. Sembra fantascienza, vero? Eppure, è una realtà che sta prendendo piede e promette rivoluzioni in campi come la terapeutica, la diagnostica e persino i sistemi di elaborazione delle informazioni *in vivo*.

L’RNA: Una Molecola Sorprendente ma Complessa

L’RNA è una molecola incredibilmente versatile. Non solo trasporta l’informazione genetica, ma può anche agire come un vero e proprio “interruttore” molecolare, regolando processi cellulari, catalizzando reazioni o riconoscendo specifiche molecole. Pensate alle potenzialità: farmaci a RNA, sensori diagnostici ultra-precisi, circuiti biologici sintetici… le applicazioni sono quasi infinite!

Però, c’è un “ma”. Progettare una molecola di RNA che faccia esattamente quello che vogliamo è tremendamente complicato. La sua funzione dipende da un delicato equilibrio tra la sua sequenza (l’ordine dei nucleotidi A, U, C, G) e la sua struttura tridimensionale (come si ripiega su se stessa). Questa relazione è così complessa che, spesso, l’unico modo per trovare la molecola giusta è crearne e testarne sperimentalmente tantissime, un processo lungo, costoso e spesso frustrante. È un po’ come cercare un ago in un pagliaio molecolare!

Entra in Scena l’IA: SANDSTORM per Predire la Funzione

Ed è qui che entra in gioco la nostra “bacchetta magica” moderna: l’intelligenza artificiale. Immaginate di avere un sistema capace di guardare una sequenza di RNA e la sua potenziale struttura e dirci, con buona approssimazione, come funzionerà. Sarebbe fantastico, no? Beh, questo è esattamente ciò che fa un’architettura di rete neurale che abbiamo chiamato SANDSTORM (Sequence And Structure of RNA Molecules).

SANDSTORM è speciale perché, a differenza di molti modelli precedenti che guardavano solo alla sequenza, considera entrambe le cose: la sequenza e la struttura. Come fa a “vedere” la struttura? Abbiamo sviluppato un modo innovativo per rappresentare le possibili interazioni di appaiamento all’interno della molecola, una sorta di “mappa” strutturale. Questa mappa, insieme alla sequenza, viene data in pasto a una rete neurale convoluzionale (CNN), simile a quelle usate per riconoscere le immagini. La rete impara da sola a estrarre le caratteristiche strutturali rilevanti, senza bisogno che noi le diciamo cosa cercare!

Abbiamo testato SANDSTORM su diversi tipi di RNA funzionali, come gli interruttori “toehold” (riboregolatori che attivano la traduzione genica in risposta a un RNA specifico), le regioni 5′ UTR (che influenzano l’efficienza della traduzione), i siti di legame ribosomiale (RBS) e persino le guide RNA per CRISPR. I risultati? SANDSTORM riesce a predire la funzione con un’accuratezza pari o superiore ai modelli precedenti, specifici per ciascun compito, ma con un’architettura generalizzata ed efficiente, spesso usando molti meno parametri addestrabili. È come avere un coltellino svizzero per la predizione della funzione dell’RNA!

Visualizzazione 3D astratta e luminosa di un filamento di RNA che si intreccia con pattern di dati digitali simili a una rete neurale, macro lens, 80mm, high detail, precise focusing, controlled lighting, sfondo scuro e tecnologico.

Non Solo Predire, Ma Creare: Ecco GARDN

Predire è utile, ma il vero sogno è progettare da zero molecole di RNA con le funzioni desiderate. Per questo, abbiamo affiancato a SANDSTORM un altro tipo di rete neurale: una rete generativa avversaria (GAN), che abbiamo battezzato GARDN (Generative Adversarial RNA Design Networks).

Le GAN funzionano un po’ come un gioco tra due reti: un “Generatore” che cerca di creare dati realistici (nel nostro caso, sequenze di RNA funzionali) e un “Discriminatore” (o, nel nostro approccio, il predittore SANDSTORM) che cerca di distinguere i dati reali da quelli generati o di valutarne la funzione. Allenandosi insieme, il Generatore diventa sempre più bravo a creare molecole che non solo sembrano vere, ma possiedono anche le caratteristiche funzionali che vogliamo, guidato dai feedback del predittore SANDSTORM.

GARDN + SANDSTORM: La Coppia Perfetta per il Design

La vera potenza si scatena quando usiamo GARDN e SANDSTORM insieme. Possiamo chiedere a GARDN di generare candidati RNA e poi usare SANDSTORM per valutare quanto si avvicinano alla funzione target (ad esempio, un’alta attività “ON” per un interruttore toehold). Possiamo quindi “guidare” GARDN, ottimizzando i suoi input latenti (una sorta di “seme” casuale da cui parte la generazione) per produrre sequenze sempre migliori secondo il giudizio di SANDSTORM.

Questo approccio combinato ci permette di fare cose incredibili:

  • Generare molecole di RNA completamente nuove, mai viste durante l’addestramento.
  • Ottenere sequenze che, una volta testate sperimentalmente, superano le performance di quelle trovate nei dataset originali o progettate con algoritmi tradizionali basati sulla termodinamica (come NUPACK).
  • Mantenere le caratteristiche strutturali desiderate. Ad esempio, per gli interruttori toehold, GARDN impara a rispettare la struttura a forcina fondamentale per il loro funzionamento, includendo anche i motivi di sequenza conservati (come RBS e codone d’inizio).
  • Funzionare anche con pochi dati di addestramento.

Schermata di computer che mostra codice genetico (sequenze RNA A, U, C, G) generate da un'intelligenza artificiale, con grafici di performance e strutture 3D molecolari sovrapposte, prime lens, 35mm, depth of field, illuminazione da studio digitale.

La Prova sul Campo: Dalla Simulazione all’Esperimento

Ovviamente, le simulazioni sono una cosa, la realtà del laboratorio un’altra. Abbiamo quindi messo alla prova le nostre creazioni!

Per i siti di legame ribosomiale (RBS), abbiamo usato GARDN-SANDSTORM per ottimizzare sequenze che promuovessero un’alta efficienza di traduzione. Le sequenze generate non solo incorporavano il motivo chiave (la sequenza Shine-Dalgarno), ma quando le abbiamo testate in cellule di *E. coli*, ben 3 su 5 hanno mostrato un’attività traduzionale superiore alle migliori sequenze del dataset originale! Un aumento medio di 28 volte rispetto alle sequenze pre-ottimizzazione.

Poi, la sfida degli interruttori toehold. Qui la struttura è cruciale. GARDN, grazie a uno strato speciale che “impone” l’appaiamento corretto nella regione dello stelo, è riuscito a generare sequenze con la struttura giusta, a differenza di altri approcci basati sull’ottimizzazione diretta che tendevano a “barare”, sacrificando la struttura per massimizzare il punteggio predetto. Abbiamo ottimizzato le sequenze generate da GARDN usando SANDSTORM per massimizzare l’attività nello stato “ON” o il rapporto ON/OFF. I risultati sperimentali sono stati sbalorditivi:

  • Le sequenze ottimizzate solo per l’ON hanno mostrato un’attività 3.8 volte maggiore rispetto alle sequenze GARDN non ottimizzate e 4.8 volte maggiore rispetto a quelle progettate con NUPACK.
  • Le sequenze ottimizzate per il rapporto ON/OFF hanno mostrato un miglioramento medio di 3.7 volte rispetto alle non ottimizzate, e addirittura di 11.9 volte rispetto a quelle NUPACK!

Questi risultati dimostrano che il nostro approccio non solo progetta molecole realistiche, ma le ottimizza per performance sperimentali superiori.

La Sfida dei Pochi Dati: Il Caso degli Aptaswitch

Una delle critiche mosse ai modelli generativi è che richiedono enormi quantità di dati. Ma cosa succede se stiamo esplorando un nuovo tipo di molecola RNA e abbiamo solo pochi esempi funzionanti? Abbiamo affrontato questa sfida con gli “aptaswitch”, molecole simili ai toehold ma che, invece di attivare la traduzione, attivano un aptamero fluorescente in risposta a un target.

Abbiamo creato e testato manualmente una piccola libreria di soli 384 aptaswitch. Pochi, vero? Eppure, siamo riusciti ad addestrare un modello SANDSTORM su questi dati! Nonostante la scarsità di esempi, il modello ha imparato abbastanza da poter predire quali sequenze, tra oltre 1200 candidati progettati *in silico* per riconoscere il gene N del SARS-CoV-2, avrebbero funzionato meglio. I 6 migliori candidati predetti da SANDSTORM hanno mostrato sperimentalmente un rapporto ON/OFF medio quasi 10 volte superiore ai 6 peggiori predetti, superando anche le performance dei candidati selezionati usando solo metodi termodinamici (NUPACK).

Ancora più incredibile: abbiamo usato il modello GARDN addestrato sui toehold e lo abbiamo ottimizzato con il predittore SANDSTORM addestrato sui (pochi) dati degli aptaswitch. In pratica, abbiamo “trasferito” la capacità di generare strutture simili ai toehold in un nuovo dominio funzionale. Anche qui, le sequenze ottimizzate hanno mostrato un miglioramento sperimentale nel rapporto ON/OFF (fino a 2 volte con un’ottimizzazione più lunga), generando candidati con performance eccezionali (fino a 160x di rapporto ON/OFF), ben oltre quanto visto nei dati di addestramento iniziali. Questo dimostra il potenziale enorme di questi strumenti anche quando i dati scarseggiano, ad esempio nella risposta rapida a nuove pandemie o nella progettazione di nuovi tipi di biosensori.

Piastra multi-pozzetto da laboratorio illuminata da luce UV, alcuni pozzetti mostrano una forte fluorescenza verde indicando un test aptaswitch positivo, macro lens, 100mm, high detail, precise focusing, sfondo sfocato di attrezzatura da laboratorio.

Verso il Futuro del Design dell’RNA

Quello che abbiamo sviluppato con SANDSTORM e GARDN è, secondo me, solo l’inizio. Abbiamo dimostrato che incorporare la struttura in modo intelligente nei modelli di deep learning permette predizioni più accurate e, soprattutto, un design generativo più potente ed efficace.

Questi strumenti aprono la porta alla progettazione rapida e all’ottimizzazione di una vasta gamma di molecole di RNA funzionali, accelerando lo sviluppo di nuove terapie, diagnostici più sensibili e sistemi biologici sintetici sempre più complessi. La capacità di lavorare anche con dati limitati li rende particolarmente preziosi per esplorare territori molecolari ancora sconosciuti.

Il futuro della biologia sintetica e della medicina basata sull’RNA è luminoso, e sono convinto che l’intelligenza artificiale, con strumenti come SANDSTORM e GARDN, sarà una compagna indispensabile in questo viaggio affascinante. Stiamo imparando a “parlare” il linguaggio dell’RNA in un modo nuovo e potente, e non vedo l’ora di scoprire cosa riusciremo a creare insieme!

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *