Microbioma Orale: Sveliamo i Segreti del DNA con il Nuovo Dataset 16SGOSeq!
Ciao a tutti, appassionati di scienza e curiosi del microcosmo che vive dentro di noi! Oggi voglio parlarvi di qualcosa di veramente affascinante: il microbioma orale. Pensateci, la nostra bocca è un universo brulicante di vita, il secondo ecosistema più popolato del corpo umano dopo l’intestino. Ospita oltre 700 specie microbiche, anche se in ognuno di noi, di solito, ne troviamo tra le 200 e le 300 predominanti. Un equilibrio delicato, la cui alterazione – la famosa disbiosi – è legata a problemi comuni come carie e parodontite, ma anche a patologie sistemiche più serie come diabete e malattie cardiovascolari. Insomma, capire chi vive nella nostra bocca è fondamentale per la nostra salute!
Ma come facciamo a studiare questi minuscoli inquilini?
Per decenni, noi ricercatori abbiamo usato varie tecniche. Tra le più gettonate ci sono la PCR (Reazione a Catena della Polimerasi), magari in versione quantitativa (qPCR), e il sequenziamento ad alto rendimento (High-Throughput Sequencing, HTS). Spesso, queste tecniche si concentrano su un marcatore genetico specifico: il gene per l’RNA ribosomiale 16S (rRNA 16S). Perché proprio lui? Beh, questo gene di circa 1500 paia di basi è come una carta d’identità per batteri e archei: è presente in quasi tutti, ha regioni conservate che lo rendono riconoscibile e regioni ipervariabili che permettono di distinguere le specie. Inoltre, esistono database vasti e accessibili che raccolgono queste sequenze. Sembra perfetto, no?
Il problema nascosto: copie e varianti
E invece, c’è un “ma”. Uno dei limiti più grandi nell’usare il gene 16S rRNA è la sua ridondanza intragenomica. Che parolona! Significa semplicemente che un singolo genoma può contenere più copie dello stesso gene 16S, e queste copie non sono sempre identiche! Possono esserci delle varianti, sequenze che differiscono anche solo per un nucleotide. Immaginate un libro stampato in più copie, ma alcune hanno piccoli errori di battitura o frasi leggermente diverse.
Questo crea un bel problema per tecniche come qPCR e HTS, che stimano l’abbondanza dei microbi contando i geni. Se un batterio ha poche copie del gene 16S, rischiamo di sottostimarlo. Se ne ha tante, potremmo sovrastimarlo. E se le copie sono diverse tra loro (eterogeneità), potremmo addirittura sbagliare l’identificazione tassonomica, attribuendo una sequenza alla specie sbagliata! Esistono metodi per correggere questa variazione nel numero di copie, come CopyRighter o PICRUSt, ma hanno i loro difetti. Dipendono molto dai database usati, e se questi sono incompleti o imprecisi, le stime saranno sballate.
Perché un database specifico per la bocca?
Qui entra in gioco un altro fattore cruciale: l’ambiente. I genomi, le sequenze del gene 16S rRNA e il numero delle loro copie possono variare enormemente tra specie che vivono in ambienti diversi. Un batterio che vive nel suolo potrebbe avere un corredo genetico leggermente diverso da un suo “cugino” che abita nella nostra bocca. Questa variabilità dipende dall’adattamento, dalle pressioni selettive, da eventi evolutivi come il trasferimento genico orizzontale. Più gli ambienti sono diversi, maggiore può essere la variabilità.
Database generali come rrnDB o RiboGrove forniscono informazioni sul numero di copie del gene 16S, ma non sono specifici per un particolare “niche” o ambiente, come la cavità orale. Inoltre, spesso non permettono di identificare le diverse varianti intragenomiche. E c’è di più: usare database filogeneticamente molto ampi può portare a errori di classificazione, perché possono contenere sequenze annotate male (nel database RDP, ad esempio, circa il 10% delle annotazioni potrebbero essere problematiche!). È stato dimostrato più volte che usare database specifici per l’ambiente studiato – che sia la bocca, la vagina, l’intestino bovino, le api, i latticini o gli impianti di trattamento delle acque reflue – migliora drasticamente l’accuratezza delle classificazioni tassonomiche e riduce il numero di sequenze che non riusciamo ad assegnare a nessun organismo noto. Nella bocca, poi, capita spesso che specie dello stesso genere siano associate a condizioni opposte (salute vs malattia). Quindi, è fondamentale analizzare il microbioma al livello tassonomico più basso possibile (specie o ceppo).
La nostra soluzione: nasce 16SGOSeq!
Considerando tutto questo, ci siamo posti un obiettivo: creare un dataset curato che contenesse *tutte* le sequenze del gene 16S rRNA presenti nei genomi *completi* delle specie batteriche e archeali che abitano la bocca umana. Lo abbiamo chiamato 16SGOSeq (16S rRNA Gene Oral Sequences dataset). “Curato” significa che abbiamo seguito un processo rigoroso di selezione, validazione, classificazione e aggiornamento per garantire alta qualità, accuratezza e affidabilità.
Come lo abbiamo costruito? Abbiamo stabilito criteri precisi:
- Includere solo taxa batterici e archeali noti per vivere nella cavità orale.
- Usare solo genomi con stato di sequenziamento “completo”, basandoci sull’ottimo database specifico per la bocca eHOMD (expanded Human Oral Microbiome Database).
- Includere solo genomi con una tassonomia completa fino al livello di specie (niente “unclassified” a nessun livello).
- Escludere genomi con più di 10 nucleotidi ambigui consecutivi (i caratteri IUPAC che non indicano una base specifica).
Abbiamo scaricato i dati dall’eHOMD per i batteri (partendo da 8622 genomi e selezionandone 3128 completi) e, poiché l’eHOMD ha dati completi solo per un archeo orale (Methanobrevibacter oralis), abbiamo usato una lista iniziale di 177 archei orali identificati in uno studio precedente per recuperare i loro genomi completi dal database NCBI. Abbiamo usato strumenti bioinformatici (E-utilities, BioPython) per recuperare genomi, tassonomie e metadati. Dopo aver applicato tutti i filtri, siamo rimasti con 3079 “record” di genomi batterici completi, che però corrispondevano a 5755 sequenze genomiche complete (tra cromosomi e plasmidi) a livello di ceppo. Per gli archei, siamo partiti da 177 genomi che corrispondevano a 191 sequenze genomiche complete (alcuni avevano più cromosomi).
Estrarre l’oro: le sequenze 16S
A questo punto, abbiamo usato uno script Python e un modulo chiamato `search_16S_py` (basato sull’algoritmo di Edgar) per scovare ed estrarre le sequenze del gene 16S rRNA da tutti questi genomi. Questo algoritmo cerca zone ricche di “13-meri” caratteristici del 16S e poi identifica motivi conservati all’inizio e alla fine del gene per delimitarlo con precisione. Abbiamo così ottenuto le sequenze e identificato le varianti (sequenze diverse di almeno un nucleotide all’interno dello stesso genoma). Abbiamo annotato ogni sequenza al livello tassonomico più basso possibile (ceppo o specie).
Alcuni genomi non avevano geni 16S, quindi i numeri finali sono stati:
- Batteri: 3.192 genomi (corrispondenti a 3.047 ceppi e 334 specie), con un totale di 14.966 geni 16S e 8.155 varianti uniche.
- Archei: 191 genomi (corrispondenti a 135 specie), con un totale di 346 geni 16S e 255 varianti uniche.
Per ogni genoma, abbiamo calcolato la dimensione del genoma, la dimensione dei geni 16S, il numero totale di geni 16S, il numero di varianti diverse e quante copie si trovano su ciascun filamento del DNA. Abbiamo anche creato script per calcolare medie, mediane, mode e deviazioni standard a livelli tassonomici superiori.
Cosa trovate nel dataset 16SGOSeq?
Il dataset è disponibile pubblicamente su Zenodo e si compone di otto file (formato tabellare CSV/XLSX e FASTA), quattro per i batteri e quattro per gli archei. Troverete:
- Una tabella con tutte le varianti identificate, con dettagli come la sequenza, il numero di copie, la posizione nel genoma, ecc.
- Un file FASTA con le sequenze di tutte le varianti (una riga per variante per genoma).
- Un file FASTA con tutte le copie dei geni 16S identificate (ogni copia ha un header con l’ID del genoma, la tassonomia completa, la posizione e il filamento).
- Una tabella che mostra la divergenza tra le varianti all’interno di ciascun genoma (ottenuta allineandole tra loro con BLASTN), utile per capire quanto diverse sono le copie dello stesso gene in un organismo. Abbiamo identificato 43 genomi batterici e 9 archeali con alta divergenza tra alcune delle loro varianti.
Validazione: ci possiamo fidare?
Assolutamente sì! Abbiamo preso un campione casuale del 25% delle nostre sequenze batteriche (2039 sequenze) e le abbiamo allineate (con BLASTN) contro un database di riferimento di geni 16S rRNA. In tutti i casi, l’identità era ≥97%, confermando che sono effettivamente sequenze 16S. Poi le abbiamo allineate contro l’enorme database Core Nucleotide di NCBI. Anche qui, corrispondenza perfetta (genere/specie o ID NCBI) con copertura del 100% e identità ≥99%. Questo conferma non solo che le sequenze esistono, ma anche che la loro annotazione tassonomica è corretta. Abbiamo fatto lo stesso per il 25% delle sequenze archeali (64 sequenze), ottenendo risultati identici.
Perché 16SGOSeq è un passo avanti?
Ricordate i problemi con i database generici? 16SGOSeq li supera perché:
- È specifico per la bocca: le sequenze provengono da batteri e archei noti per abitare questo ambiente.
- È basato su genomi completi: questo dà maggiore affidabilità sul numero effettivo di copie.
- Include le varianti intragenomiche: permette analisi più fini e correzioni più accurate.
- È curato e validato: alta qualità e affidabilità tassonomica.
- È flessibile: potete filtrare i dati per livello tassonomico, calcolare medie, deviazioni standard, ecc., usando linguaggi come R o Python (abbiamo anche fornito uno script Python ausiliario per facilitare!).
Questo dataset permette di aggiustare le stime di abbondanza basate sul conteggio dei geni, rendendo le analisi del microbioma orale molto più accurate. È utile anche per capire le relazioni evolutive ed ecologiche tra i microrganismi orali.
Limiti e prospettive future
Siamo onesti, ci sono anche dei limiti. Poiché abbiamo usato l’eHOMD per i batteri, il nostro dataset rappresenta meglio la frazione coltivabile del microbioma orale (96% nel nostro dataset vs 71% nell’eHOMD). Tuttavia, include le specie batteriche più prevalenti e abbondanti in condizioni di salute, carie e parodontite, oltre a molti “taxa rari”. Per gli archei, la situazione è diversa: non esistendo un database orale specifico come l’eHOMD, abbiamo dovuto attingere da NCBI, e molti genomi provengono da nicchie ambientali. C’è bisogno di più ricerca focalizzata sull’isolamento e sequenziamento degli archei direttamente da campioni orali per migliorare le annotazioni.
Applicazioni pratiche e conclusioni
Nonostante i limiti, 16SGOSeq è uno strumento potente. Noi stessi lo abbiamo già usato in due studi: uno per analizzare l’impatto della ridondanza del gene 16S e della scelta dei primer nella bocca, e un altro per identificare specie con segmenti 16S molto simili usando primer diversi. Ma le applicazioni sono molteplici:
- Progettare primer universali più efficaci per catturare la massima diversità procariotica orale.
- Creare primer o sonde specifiche per un dato taxon, tenendo conto di tutte le sue varianti genetiche (per questo, suggeriamo anche il nostro tool PrimerEvalPy!).
- Migliorare l’accuratezza delle analisi quantitative (qPCR, HTS) e qualitative.
- Affiancare le analisi basate sul sequenziamento dell’intero genoma (WGS).
- Approfondire le relazioni filogenetiche tra i taxa orali.
In definitiva, 16SGOSeq offre sequenze di alta qualità e annotazioni robuste che possono affinare significativamente la nostra comprensione dell’ecosistema orale e del suo ruolo nella salute e nella malattia. E non solo! La metodologia che abbiamo seguito per costruire e curare questo dataset può essere applicata da microbiologi clinici, bioinformatici ed ecologi microbici per creare dataset simili per altri ambienti, garantendo dati tassonomicamente solidi, ad alta risoluzione e biologicamente informativi. Un piccolo passo per un gene, un grande passo per la microbiologia orale!
Fonte: Springer