Virus Fantasmi nel DNA: Svelato il Catalogo Completo degli HERV-K HML-2!
Ciao a tutti, appassionati di scienza e curiosi del genoma! Oggi voglio portarvi con me in un viaggio affascinante, quasi da detective, all’interno del nostro DNA. Sì, perché dovete sapere che circa l’8% del nostro codice genetico è occupato da quelli che io chiamo “fantasmi virali”: i retrovirus endogeni umani, o HERV. Sono le vestigia di antiche infezioni virali che hanno colpito i nostri antenati milioni di anni fa e che, invece di sparire, si sono integrate nel genoma delle cellule germinali, diventando così parte ereditaria di ciò che siamo.
Gli HERV-K HML-2: Giovani e Turbolenti
La maggior parte di questi HERV sono ormai frammenti degenerati, resi innocui da eoni di mutazioni. Ma c’è una sottofamiglia, chiamata HERV-K HML-2, che è un po’ la “giovane ribelle” del gruppo. Si tratta delle integrazioni provirali più recenti, alcune risalenti forse a “soli” 100.000 anni fa! Questo significa che molti membri HML-2 hanno conservato parzialmente la capacità di regolare l’espressione genica e persino di codificare per proteine. Pensate un po’, abbiamo ancora nel nostro DNA dei “manuali d’istruzione” virali quasi intatti!
La cosa si fa ancora più intrigante: quattro di questi provirus (HERV-K115, HERV-K119, HERV-K113 e De9) hanno addirittura tutti i loro geni (i cosiddetti Open Reading Frames, ORF) senza interruzioni. Questo potrebbe far pensare non solo a una capacità di “copia-incolla” nel genoma (retrotrasposizione), ma teoricamente anche a una potenziale infettività. Immaginate proteine virali prodotte da diverse integrazioni HML-2 che si “alleano” per formare una particella virale. Sebbene siano state isolate particelle simili a virus HML-2 (VLPs) in embrioni, placente e tessuti tumorali, per fortuna non è mai stata dimostrata la loro capacità infettiva. Tuttavia, l’espressione di HML-2 è stata riscontrata in diverse patologie, come malattie neurodegenerative, autoimmuni e tumori, il che rende fondamentale sapere esattamente dove si trovano questi “ospiti” nel nostro genoma.
La Sfida di un Catalogo Preciso
Capire quanti e quali siano esattamente questi provirus HML-2 è stata una vera e propria caccia al tesoro. Nel 2011, un team guidato da Subramanian pubblicò la prima lista completa, con 91 provirus. Un lavoro monumentale, che per oltre un decennio è stato il nostro punto di riferimento. Ma la scienza, si sa, non si ferma mai! Negli anni sono emerse nuove scoperte: provirus polimorfici (cioè presenti solo in alcuni individui o popolazioni), aggiornamenti delle coordinate cromosomiche con le nuove versioni del genoma umano di riferimento (siamo passati da hg19 a hg38, un po’ come aggiornare le mappe di una città in continua evoluzione), e caratterizzazioni più precise.
Il problema è che queste aggiunte e modifiche erano sparse in varie pubblicazioni, rendendo il quadro generale un po’ frammentato. E quando si fanno analisi su larga scala, magari per cercare legami tra specifiche integrazioni HERV e malattie, avere una lista precisa e aggiornata è cruciale.
Ecco perché, come un moderno Sherlock Holmes del genoma, mi sono messo (o meglio, ci siamo messi, perché la scienza è sempre un lavoro di squadra!) a spulciare sistematicamente la letteratura, a confrontare ogni singola informazione sui loci provirali, a verificare tutto con il genoma umano stesso. Abbiamo raccolto tutti i dati disponibili, aggiornato, corretto e rifinito le coordinate per entrambe le versioni del genoma umano (hg19 e hg38), assicurandoci di includere l’intero provirus in ogni caso.

Un provirus HML-2 completo ha una struttura tipica: geni retrovirali (gag, pol, env) fiancheggiati da sequenze ripetute chiamate LTR (Long Terminal Repeats). A volte, per ricombinazione omologa tra le LTR, la parte interna viene deleta, lasciando solo una “solo LTR”. Noi ci siamo concentrati sui provirus, definiti come quelli che hanno almeno una LTR più una parte della sequenza codificante interna orientata correttamente.
Districarsi tra Nomenclatura e Scoperte
Una delle sfide è stata la nomenclatura. Subramanian e colleghi avevano usato un sistema basato sulla banda cromosomica (es. 19p12a, 19p12b). Ma quando si scoprono nuovi provirus nella stessa banda, magari tra due già noti, le cose si complicano. Ad esempio, la banda 19p12 è un vero e proprio “condominio” di HML-2, con almeno cinque membri, alcuni polimorfici! Per evitare confusione, abbiamo proposto un nuovo sistema di denominazione che utilizza le coordinate di inizio del provirus nell’assemblaggio hg38. Ad esempio, 19p12a, che inizia alle coordinate 20.387.400, diventa 19p12(070). Questo sistema dovrebbe essere molto più robusto e meno soggetto a confusioni future.
Durante la nostra “indagine”, abbiamo confrontato la lista di Subramanian con altri cataloghi più recenti, come il “Bendall S1 File”. Quest’ultimo, basato su database come Repbase e Repeatmasker, è molto utile ma presentava alcune discrepanze: lunghezze diverse per gli stessi provirus, quattro nuove integrazioni HML-2 mai descritte prima in letteratura (che abbiamo incluso!), ma anche l’assenza di alcuni provirus polimorfici o pericentromerici (quelli vicini ai centromeri, regioni del cromosoma difficilissime da sequenziare e analizzare a causa della loro natura altamente ripetitiva).
Un caso curioso è stato quello di HERV-K115, uno dei provirus più giovani e studiati, che nel Bendall S1 File risultava diviso in due! Ovviamente, abbiamo corretto queste incongruenze. Abbiamo anche incluso informazioni sui provirus centromerici e pericentromerici come K105, K111, K112 e K222, sebbene il loro numero esatto di copie possa variare tra individui e sia ancora difficile da determinare con precisione. Forse il recente completamento del progetto Telomere-to-Telomere (T2T), che ha sequenziato anche queste regioni genomiche “oscure”, ci aiuterà in futuro.
Il Nuovo Catalogo: Uno Strumento per la Ricerca Futura
Alla fine di questo lungo lavoro di comparazione, correzione e aggiornamento, siamo arrivati a un catalogo che, ad oggi, riteniamo essere il più completo e accurato possibile. Comprende un totale di 99 provirus HML-2 (escludendo i centromerici/pericentromerici dal conteggio preciso per le ragioni dette prima). Per ognuno, forniamo la posizione cromosomica, le coordinate precise sia in hg19 che in hg38 (spesso corrette per includere l’intera sequenza provirale), eventuali alias, informazioni sul polimorfismo e riferimenti bibliografici.
Abbiamo scoperto che 10 di questi 99 provirus erano stati identificati dopo la pubblicazione della lista di Subramanian. Abbiamo anche “riunito” due loci (7p22.1a e 7p22.1b, noti come K108L e K108R) che Subramanian considerava separati, ma che in realtà possono essere visti come un’unica integrazione tandem che condivide una LTR centrale. Dati non pubblicati suggeriscono infatti trascritti che originano da questa struttura unitaria.
Dei 99 provirus, ben 42 superano i 9kb di lunghezza, il che li qualifica come potenzialmente “full-length”. Tuttavia, la lunghezza da sola non dice tutto: alcune integrazioni ospitano delezioni, inserzioni di sequenze non-HML-2, duplicazioni interne o geni troncati. È un panorama complesso e affascinante!
Per assicurarci che i 10 “nuovi” provirus fossero effettivamente membri della famiglia HML-2 e che le nostre correzioni alle coordinate non avessero stravolto le relazioni evolutive, abbiamo costruito un albero filogenetico basato sull’allineamento di tutte e 99 le sequenze provirali. Ebbene sì, i nuovi arrivati si raggruppano perfettamente con gli altri HML-2, e l’albero generale somiglia molto a quelli pubblicati in passato.

Perché è Importante?
Ma perché tutta questa fatica, vi chiederete? Beh, la risposta è semplice: capire. Capire meglio la biologia di questi elementi, il loro potenziale ruolo nella salute e nella malattia. Liste accurate come questa sono fondamentali per chiunque faccia ricerca sugli HERV, specialmente quando si analizzano enormi moli di dati genomici o trascrittomici (high-throughput data). Sapere che alcune liste usate in passato potrebbero avere delle mancanze o delle imprecisioni (come provirus mancanti o divisi nel Bendall S1 File) può aiutare i ricercatori a ricalibrare i loro studi e ottenere risultati più affidabili.
Questo catalogo è uno strumento potente, una base solida per future scoperte. E non è finita qui: con l’aumento dei genomi sequenziati da popolazioni diverse, specialmente quelle africane che mostrano una maggiore diversità di elementi HML-2, è probabile che nuovi “fantasmi virali” vengano alla luce. La caccia continua, e io non vedo l’ora di scoprire cos’altro si nasconde nel nostro incredibile DNA!
Fonte: Springer
