COVID-19 in Canada: Il Caos dei Dati e Come Abbiamo Cercato di Mettere Ordine
Ciao a tutti! Oggi voglio parlarvi di una sfida enorme, ma affascinante, che abbiamo affrontato qui in Canada durante la pandemia di COVID-19. Una di quelle cose che succedono dietro le quinte, ma che hanno un impatto pazzesco sulla nostra capacità di reagire a un’emergenza sanitaria. Sto parlando dell’armonizzazione dei dati contestuali genomici del SARS-CoV-2. Un nome complicato, vero? Ma aspettate, vi spiego tutto in modo semplice.
La Giungla dei Dati: Un Problema Nazionale
Immaginate questo: scoppia una pandemia. Medici, infermieri, ricercatori, tutti in prima linea. Per capire come si muove il virus, chi colpisce di più, quali varianti stanno emergendo, abbiamo bisogno di due cose fondamentali: il sequenziamento del genoma del virus (per leggerne il codice genetico) e i dati contestuali. Questi ultimi sono la “storia” dietro ogni campione: chi è il paziente? Che sintomi ha? Ha condizioni preesistenti? Dove potrebbe essersi contagiato?
Ecco, il problema è che in Canada, il nostro sistema sanitario è decentralizzato. Ogni provincia e territorio ha il suo modo di fare le cose, compreso il modo di raccogliere queste preziose informazioni. Usano moduli di segnalazione dei casi (le cosiddette Case Report Forms o CRF) diversi. Sembra un dettaglio, ma non lo è affatto!
Pensateci: se una provincia chiede l’età in anni compiuti e un’altra chiede la fascia d’età, se una usa “febbre” come sintomo e un’altra chiede la temperatura esatta, se una definisce “isolamento” in un modo e un’altra in modo diverso… mettere insieme tutti questi dati a livello nazionale diventa un incubo. È come cercare di costruire un puzzle gigante dove i pezzi non combaciano perfettamente. Questo caos rallenta tutto: l’analisi dei dati, la comprensione della diffusione del virus, la valutazione dell’efficacia delle misure sanitarie. E in una pandemia, il tempo è tutto.
Perché i Dati Contestuali Sono il “Sale” della Genomica
Il sequenziamento genomico del SARS-CoV-2 è stato potentissimo. Ci ha permesso di tracciare la diffusione del virus, identificare le varianti di preoccupazione (ricordate Alpha, Delta, Omicron?), sviluppare test diagnostici e vaccini. Ma il solo codice genetico non basta. È come avere il libretto di istruzioni di un’auto senza sapere chi la guida, dove sta andando o se ha avuto incidenti.
I dati contestuali sono quelli che danno un senso ai dati genomici. Ci dicono il chi, cosa, come, dove e perché dietro ogni sequenza virale. Senza dati contestuali armonizzati, cioè confrontabili e integrabili, la nostra capacità di fare analisi su larga scala, a livello nazionale, è limitata. E questo è un problema serio, perché le decisioni importanti, come chiudere i confini o dichiarare un’emergenza nazionale, si basano proprio su queste analisi.

La Nostra Missione: Capire il Caos per Trovare Soluzioni
Di fronte a questa sfida, un gruppo di noi (ricercatori, epidemiologi, esperti di dati) si è messo al lavoro. Facevamo già parte del Canadian COVID Genomics Network (CanCOGeN), un’iniziativa pazzesca che mirava a sequenziare centinaia di migliaia di campioni di SARS-CoV-2 in tutto il Canada. Ma ci siamo subito resi conto che il vero collo di bottiglia non era tanto il sequenziamento, quanto l’ottenere dati contestuali puliti, coerenti e utilizzabili da tutte le province e territori.
Cosa abbiamo fatto? Ci siamo rimboccati le maniche e abbiamo iniziato a confrontare, campo per campo, i diversi moduli di segnalazione dei casi usati in giro per il Canada all’inizio della pandemia. Abbiamo guardato come venivano poste le domande, che tipo di risposte erano previste (sì/no, testo libero, elenchi a scelta multipla), quali termini venivano usati, quanto dettaglio veniva richiesto. Abbiamo anche consultato epidemiologi federali per essere sicuri di aver capito bene i problemi sul campo.
Il nostro obiettivo era duplice:
- Identificare esattamente dove stavano le differenze e i problemi di armonizzazione.
- Capire quali informazioni venivano raccolte più o meno da tutti, per poter costruire una base comune.
Le Trappole dell’Armonizzazione: Esempi Concreti
Analizzando i moduli, abbiamo trovato un bel po’ di “trappole” che rendono difficile mettere insieme i dati. Ecco qualche esempio:
* Ambiguità Semantica: A volte la stessa parola aveva significati diversi. Prendiamo “isolamento”. Su un modulo poteva significare auto-isolamento a casa, su un altro isolamento in ospedale. Capite bene che per un epidemiologo che studia la trasmissione, la differenza è enorme!
* Categorizzazione Diversa: Informazioni simili venivano raggruppate in categorie diverse. Ad esempio, l'”ipotensione” (pressione bassa) a volte era tra i “Sintomi”, altre volte tra le “Condizioni preesistenti”. Questo crea confusione quando si cerca di confrontare i dati.
* Strutture e Formati Incoerenti: Il caso classico sono le date. C’era chi usava GG/MM/AAAA, chi AAAA/MM/GG, chi MM/GG/AA… Immaginate il rischio di errori nell’inserire o interpretare una data come 03/04/21! È il 3 aprile o il 4 marzo? E l’anno è il 2021 o qualcos’altro?
* Tipi di Valore Differenti: Per la stessa informazione, un modulo poteva chiedere una risposta Sì/No (es. “Ha la febbre?”), mentre un altro chiedeva un valore numerico (es. “Temperatura massima registrata?”). Integrare questi dati non è banale.
* Granularità Variabile: Il livello di dettaglio cambiava. Un modulo chiedeva semplicemente “Tosse”, un altro specificava “Tosse secca”, “Tosse produttiva”, “Tosse cronica esacerbata”. Se si cerca di uniformare tutto a “Tosse”, si perde informazione preziosa. A volte, poi, più concetti erano uniti (“Nausea/Vomito”): se un paziente aveva solo nausea, come veniva registrato e interpretato?
* Domande Diverse (o Mancanti): Alcune domande erano presenti solo in certi moduli. Ad esempio, solo il Québec chiedeva delle “complicazioni in gravidanza”. Questo limita le analisi che si possono fare su scala nazionale. Un caso particolarmente delicato riguardava l’identificazione delle popolazioni indigene (First Nations, Inuit, Métis), con approcci molto diversi tra le province, rendendo difficile avere un quadro completo e rispettoso delle specificità.

Dall’Analisi all’Azione: Le Nostre Raccomandazioni
Capire il problema è stato il primo passo. Poi abbiamo dovuto proporre delle soluzioni. Non potevamo certo obbligare le province a cambiare i loro moduli dall’oggi al domani (sarebbe stato costoso e complicato). Ma potevamo fare altro:
1. Coordinamento Nazionale e Standard Comuni: Abbiamo identificato gli elementi informativi raccolti quasi ovunque (dati anagrafici, data inizio sintomi, sintomi principali, condizioni preesistenti). Questi sono diventati la base per creare uno standard di dati contestuali comune per il SARS-CoV-2, chiamato CanCOGeN VirusSeq. Questo standard definisce quali campi includere, come chiamarli, che formati usare, quali valori sono permessi. È una sorta di “lingua franca” per i dati COVID.
2. Coinvolgimento delle Comunità Indigene: Abbiamo sottolineato l’importanza di collaborare con le organizzazioni e i consigli di governance dei dati delle popolazioni indigene per definire come raccogliere i dati demografici in modo appropriato, rispettoso e utile per affrontare le disuguaglianze sistemiche.
3. Strumenti di Armonizzazione: Sapendo che i dati continueranno ad arrivare in formati diversi, abbiamo raccomandato (e contribuito a sviluppare) strumenti software che aiutino a “tradurre” i dati locali nello standard nazionale. Uno di questi è il DataHarmonizer, un tool che usa vocabolari controllati e modelli (come il nostro standard CanCOGeN) per rendere i dati interoperabili e pronti per essere condivisi e analizzati su piattaforme nazionali e internazionali come GISAID o NCBI BioSample.
L’Impatto e Cosa Abbiamo Imparato
Questo lavoro, nato dall’urgenza della pandemia, ha avuto un impatto che va oltre il COVID-19 e oltre i confini canadesi. Lo standard CanCOGeN VirusSeq è stato usato come base per altri standard in Canada (per la resistenza antimicrobica, per il microbiota, per il vaiolo delle scimmie) e ha ispirato standard internazionali sviluppati dalla Public Health Alliance for Genomic Epidemiology (PHA4GE), adottati poi in USA, Australia, Africa e America Latina.
Cosa ci portiamo a casa da questa esperienza? Che l’armonizzazione dei dati non è un lusso, ma una necessità fondamentale per la sorveglianza e la risposta alle emergenze sanitarie. Richiede collaborazione, standard chiari e flessibili, strumenti adeguati e un dialogo continuo tra chi raccoglie i dati, chi li analizza e chi li usa per prendere decisioni.
Affrontare queste sfide durante la crisi COVID è stato difficile, ma ci ha insegnato lezioni preziose che possiamo (e dobbiamo) applicare per essere più preparati di fronte ai futuri patogeni. Perché, alla fine, avere dati di qualità, tempestivi e confrontabili è una delle armi più potenti che abbiamo per proteggere la salute pubblica.
Fonte: Springer
