Virus West Nile: Riusciamo a Prevedere le Epidemie? La Sfida USA 2022 Sotto la Lente
Ciao a tutti! Oggi voglio parlarvi di qualcosa che mi affascina e mi impegna parecchio: cercare di prevedere il futuro. No, non ho una sfera di cristallo, ma mi occupo, insieme a tanti colleghi, di un nemico invisibile e insidioso: il virus West Nile (WNV). Negli Stati Uniti, è la malattia trasmessa da zanzare più comune, capace di causare ogni anno, in media, circa 1200 casi gravi di tipo neuroinvasivo (WNND). Pensate che tra il 2005 e il 2021, i numeri hanno oscillato da meno di 400 a quasi 3000 casi all’anno! Una variabilità pazzesca.
La Sfida: Anticipare l’Imprevedibile
Proprio questa enorme variabilità rende la vita difficile a noi che cerchiamo di prevedere dove e quando il virus colpirà più duramente. Anticipare un’epidemia permetterebbe di agire in tempo con misure preventive mirate: controllo delle zanzare, campagne informative per la protezione personale, allerta ai medici. Immaginate il potenziale impatto! Eppure, nonostante anni di ricerca, creare modelli predittivi davvero efficaci su scala nazionale si è rivelato un osso duro.
Per questo motivo, i Centers for Disease Control and Prevention (CDC) americani e altre organizzazioni hanno lanciato delle vere e proprie “sfide” di previsione, un po’ come quelle fatte per l’influenza o il COVID-19. L’idea è semplice: mettere insieme le menti migliori, farle competere (in senso buono!) e vedere cosa ne esce. Dopo una prima edizione nel 2020, nel 2022 ci siamo rimessi al lavoro con la West Nile Virus Forecasting Challenge.
Come Funziona la Sfida?
Diversi team di ricerca hanno partecipato. A tutti noi sono stati forniti i dati storici dei casi di WNND per ogni contea degli USA dal 1999 al 2021. Ognuno poteva usare il proprio approccio preferito: modelli statistici, machine learning, simulazioni… e integrare dati aggiuntivi come quelli climatici, demografici, sulla presenza di zanzare o uccelli (che sono serbatoi del virus).
L’obiettivo? Fornire previsioni probabilistiche per il numero di casi di WNND in ogni contea per l’intera stagione 2022. Non un numero secco, ma una stima della probabilità che i casi rientrassero in certi intervalli. Un approccio più sofisticato rispetto al 2020, che ci permette di esprimere meglio l’incertezza (che in questo campo è tanta!). Le prime previsioni dovevano arrivare entro fine aprile 2022, per simulare un tempo utile per eventuali interventi di sanità pubblica.
Oltre ai modelli dei team, abbiamo creato anche dei modelli “di base” (baseline) per confronto:
- Un modello “ingenuo” basato sulla distribuzione storica generale dei casi in tutti gli USA.
- Un modello storico più raffinato, specifico per ogni contea, basato sui casi passati solo in quella contea.
- E poi lui, il protagonista: l’ensemble forecast. Un “super-modello” creato facendo la media (mediana, per essere precisi) delle previsioni di tutti i team e del modello storico per contea. L’idea è che l’unione faccia la forza e smussi gli errori dei singoli.
I Risultati del 2022: Un Anno Sotto Media, Ma Non Troppo
Come sono andate le cose nel 2022? A livello nazionale, ci sono stati 826 casi di WNND. Un numero inferiore alla mediana degli ultimi 10 anni (che era 1386), quindi un anno relativamente “tranquillo”. Tuttavia, questo numero è stato superiore a quanto previsto dalla mediana dell’ensemble (che sommando le mediane di tutte le contee arrivava a 425 casi).
Interessante notare che le previsioni mediane dell’ensemble per il 2022 erano uguali o inferiori alla mediana storica per quasi tutte le contee (>99%). Questo indicava l’aspettativa generale di una stagione sotto tono. Nonostante ciò, circa l’8% delle contee ha riportato più casi della propria mediana storica, e 13 contee hanno addirittura segnalato il loro primissimo caso di WNND! Questo ci dice che, anche in un anno complessivamente mite, il virus può riservare sorprese a livello locale. L’ensemble, in generale, ha teso a sottostimare l’incidenza reale.

Chi Ha Vinto la Sfida? L’Ensemble Prende la Medaglia (ma di Stretta Misura)
E veniamo alla valutazione delle performance. Usando metriche statistiche specifiche come il Weighted Interval Score (WIS), che valuta l’accuratezza e l’incertezza delle previsioni probabilistiche, abbiamo scoperto una cosa incoraggiante: l’ensemble forecast è risultato il migliore! Ha avuto uno “skill” (abilità predittiva) mediamente superiore a tutti i modelli dei singoli team e ai modelli baseline.
Questo è un passo avanti rispetto alla sfida del 2020, dove il modello ensemble non era riuscito a battere il semplice modello storico basato sui dati di ogni contea. Quest’ultimo, anche nel 2022, si è piazzato molto bene (secondo posto), quasi a pari merito con altri quattro modelli. Questo suggerisce che, forse, come comunità scientifica stiamo iniziando a fare progressi nella capacità collettiva di prevedere il WNV.
Analizzando le componenti dell’errore (WIS), abbiamo visto che la maggior parte dei modelli (incluso l’ensemble) tendeva a sottostimare i casi. L’incertezza (dispersione delle previsioni) e la sovrastima hanno contribuito in misura minore all’errore totale.
Cosa Rende un Modello Migliore? Sorprese e Conferme
Abbiamo cercato di capire se ci fossero caratteristiche comuni ai modelli più performanti. I risultati sono stati, in parte, sorprendenti:
- I modelli che usavano approcci basati sulla regressione (statistica) tendevano ad avere uno skill maggiore. Questo è in linea con altre sfide di previsione per altre malattie.
- Contrariamente a quanto emerso nel 2020 e forse contro-intuitivamente, i modelli che includevano dati su clima, demografia o presenza di uccelli hanno avuto uno skill inferiore rispetto a quelli che non li usavano!
Come mai? Una possibile spiegazione è il rischio di “overfitting”: i modelli diventano troppo complessi, si adattano perfettamente ai dati passati ma perdono capacità di generalizzare al futuro. Oppure, i dati aggiuntivi potrebbero non avere la risoluzione spaziale/temporale adeguata o la precisione necessaria. È un punto su cui riflettere attentamente per il futuro. Bisogna stare attenti a non “buttare via il bambino con l’acqua sporca”: questi fattori sono biologicamente importanti per la trasmissione del WNV, dobbiamo solo capire come usarli al meglio senza complicare eccessivamente i modelli.
Dove è Più Difficile Prevedere?
Abbiamo anche analizzato dove le previsioni (in particolare quelle dell’ensemble) facevano più fatica. È emerso chiaramente che lo skill era inferiore (cioè le previsioni erano meno accurate) nelle contee con due caratteristiche principali:
- Un maggior numero di anni passati in cui erano stati riportati casi di WNND.
- Una maggiore “entropia permutazionale”, che in parole povere indica una maggiore variabilità e imprevedibilità storica dei casi anno dopo anno.
Questo ha senso: dove la storia del virus è più lunga e complessa, prevedere il futuro è intrinsecamente più difficile. È come cercare di prevedere il tempo in una zona nota per la sua instabilità climatica.

Lezioni Apprese e Prossimi Passi
Cosa ci portiamo a casa da questa sfida 2022?
Innanzitutto, il successo relativo dell’ensemble è un segnale positivo. Suggerisce che combinare diverse prospettive modellistiche può portare a previsioni più robuste, anche se la differenza con il semplice modello storico è ancora marginale. Per chi deve prendere decisioni di sanità pubblica, affidarsi a un ensemble potrebbe essere la strategia più prudente.
Tuttavia, è chiaro che siamo ancora lontani da previsioni perfette. La tendenza a sottostimare, anche in un anno a bassa incidenza, è un campanello d’allarme. Dobbiamo migliorare. Come?
- Affidare gli approcci: Continuare a sviluppare e calibrare i modelli, specialmente quelli meccanicistici che cercano di simulare la dinamica della trasmissione.
- Integrare più dati (ma con cautela): L’aggiunta di dati in tempo reale (casi recenti, sorveglianza zanzare, dati ambientali aggiornati) potrebbe essere cruciale, soprattutto per previsioni a breve termine (intra-stagionali). Questo richiede però partnership strette con le agenzie locali.
- Pensare locale/regionale: Modelli nazionali faticano a catturare le specificità locali. Forse modelli sviluppati per regioni ecologicamente simili (non necessariamente confini amministrativi) o addirittura a livello di singola contea (dove i dati sono buoni) potrebbero essere più efficaci.
- Separare i problemi: Potrebbe essere utile sviluppare approcci diversi per contee con storie diverse di WNV (nessun caso, pochi casi, alta incidenza). Prevedere il primo caso in assoluto è una sfida diversa dal prevedere fluttuazioni in aree endemiche.
- Esplorare nuove tecniche: Il machine learning ha mostrato grandi potenzialità in altri campi, anche se finora non ha “sfondato” nel forecasting del WNV. Vale la pena continuare a esplorare queste strade.
La sfida è complessa, ma l’obiettivo è importante: ridurre il peso di questa malattia. Il CDC punta a meno di 500 casi gravi all’anno entro il 2035. Le previsioni accurate sono uno strumento fondamentale per raggiungere questo traguardo. Noi continuiamo a lavorarci, sperando che la prossima sfida ci porti ancora più vicini alla soluzione!
Fonte: Springer
