Decifrare il Passato Nascosto: Come Modelli Matematici Svelano Dati Incompleti nel Tempo
Ciao a tutti! Oggi voglio portarvi in un viaggio affascinante nel mondo dei dati, ma non quelli perfetti e ordinati che spesso immaginiamo. Parleremo di registrazioni storiche piene di “buchi”, eventi mancanti, specialmente quando guardiamo indietro nel tempo. Pensate alle eruzioni vulcaniche o ai terremoti: siamo sicuri di avere una registrazione completa di tutto ciò che è successo secoli o millenni fa? Probabilmente no. E la cosa si complica perché il livello di “incompletezza” non è costante, ma cambia nel tempo. Questo è un bel rompicapo, vero? Soprattutto se vogliamo usare questi dati per capire meglio questi fenomeni e magari stimare i rischi futuri.
Il Problema: Dati Fantasma che Cambiano Col Tempo
Immaginate di avere una cronologia di eventi, come le grandi eruzioni vulcaniche globali. Le registrazioni più recenti, grazie alla tecnologia moderna, sono probabilmente abbastanza accurate. Ma più andiamo indietro, più le cose si fanno nebbiose. Le eruzioni più piccole potrebbero non aver lasciato tracce geologiche evidenti, o quelle tracce potrebbero essere state cancellate dall’erosione o da eventi come le glaciazioni. Addirittura, il passaggio da archivi cartacei a digitali può aver introdotto delle lacune.
Il punto cruciale è che questa incompletezza non è statica: è tempo-disomogenea. Significa che la probabilità di “perdere” un evento era molto più alta nel passato rispetto ad oggi. Se ignoriamo questo fatto e analizziamo i dati così come sono, rischiamo di ottenere stime completamente sballate, sia dei parametri del processo (come la frequenza media degli eventi) sia del rischio futuro (la cosiddetta “hazard rate”).
Gli Strumenti del Mestiere: Processi Puntiformi e Modelli Nascosti
Per affrontare questo problema, entriamo nel campo dei processi puntiformi, che sono il modo matematico per descrivere sequenze di eventi che accadono nel tempo. Quando i tempi tra un evento e l’altro sono indipendenti e seguono la stessa distribuzione, parliamo di processi di rinnovo. Un esempio classico è il processo di Poisson (eventi casuali con tasso costante) o il processo Gamma (che generalizza il Poisson).
Ma come gestiamo gli eventi mancanti? Qui entrano in gioco i Modelli di Markov Nascosti (HMM). L’idea geniale degli HMM è che ci sia un processo sottostante, “nascosto”, che non osserviamo direttamente (ad esempio, il “vero” stato di completezza della registrazione in un certo periodo), e questo stato nascosto influenza ciò che effettivamente osserviamo (i tempi tra gli eventi *registrati*).
Immaginate diversi “stati nascosti”: uno stato di “registrazione completa”, e altri stati dove manca un certo numero di eventi tra una registrazione e l’altra. Il sistema “salta” tra questi stati nel tempo secondo certe probabilità (le probabilità di transizione).
La Nostra Proposta: Dare un Nome ai Buchi (SCPG e TSCPG)
Il lavoro su cui si basa questo articolo (linkato in fondo) propone un approccio specifico e, secondo me, molto elegante. Invece di complicare eccessivamente la struttura degli HMM, ci siamo concentrati su come modellare meglio i tempi tra gli eventi *osservati*, tenendo conto esplicitamente degli eventi mancanti.
Abbiamo introdotto due nuovi tipi di processi di rinnovo come “processi osservati” all’interno degli HMM:
- SCPG (Shifted Compound Poisson-Gamma): L’idea è che il tempo *vero* tra due eventi consecutivi segua una distribuzione Gamma (un modello flessibile e molto usato). Il numero di eventi *mancanti* tra due eventi *osservati* è modellato da una variabile casuale di Poisson “traslata” (shifted Poisson – traslata perché assumiamo ci sia almeno l’evento osservato, quindi non può essere zero il numero totale di eventi tra due osservazioni). Il tempo che *osserviamo* è quindi la somma dei tempi di tutti gli eventi (quello osservato alla fine + quelli mancanti).
- TSCPG (Time-dependent SCPG): È l’evoluzione del SCPG. Qui, il parametro della distribuzione di Poisson traslata (che rappresenta il numero medio di eventi mancanti) non è fisso, ma dipende dal tempo. Abbiamo usato una funzione logistica generalizzata per far sì che il numero medio di eventi mancanti diminuisca man mano che ci avviciniamo al presente, rispecchiando il miglioramento delle tecniche di registrazione.
In pratica, abbiamo “incorporato” l’informazione sull’incompletezza variabile direttamente nella distribuzione dei tempi osservati.

Rendere Dinamici anche i Modelli: HMM Omogenei vs Inomogenei
Abbiamo inserito questi processi SCPG e TSCPG all’interno di diverse varianti di HMM:
- HMM Omogenei: I classici HMM dove le probabilità di passare da uno stato nascosto all’altro sono costanti nel tempo.
- HMM Inomogenei (IHMM): Qui la faccenda si fa più interessante. Le probabilità di transizione tra gli stati nascosti cambiano nel tempo. Ad esempio, la probabilità di passare da uno stato “molto incompleto” a uno stato “completo” può aumentare nel tempo. Anche qui, abbiamo usato funzioni logistiche per modellare questa dipendenza temporale.
- HSMM e IHSMM: Esistono anche varianti chiamate Hidden Semi-Markov Models (HSMM), dove si modella esplicitamente la durata della permanenza in uno stato. Nella versione Inomogenea (IHSMM), anche questa durata può variare nel tempo. Il nostro approccio con SCPG/TSCPG dentro HMM/IHMM è un’alternativa che sposta la complessità sulla distribuzione osservata piuttosto che sulla struttura temporale degli stati nascosti.
La novità sta proprio nel combinare questi processi SCPG/TSCPG con le varianti HMM/IHMM, sperando di ottenere modelli più efficienti e interpretabili per dati con incompletezza variabile nel tempo.
Alla Prova dei Fatti: Simulazioni e Vulcani
Prima di lanciarci su dati reali, abbiamo fatto un sacco di simulazioni al computer. Abbiamo generato dati artificiali usando i nostri modelli, e poi abbiamo provato a “fittare” i modelli stessi a questi dati per vedere se riuscivamo a recuperare i parametri originali. I risultati sono stati incoraggianti: all’aumentare della dimensione del campione di dati, le stime dei parametri diventavano sempre più precise e vicine ai valori veri. Questo ci ha dato fiducia nella robustezza del metodo.
Poi è arrivato il momento clou: applicare tutto questo a un caso reale. Abbiamo preso il database LaMEVE (Large Magnitude Explosive Volcanic Eruptions), che raccoglie le grandi eruzioni esplosive globali del Quaternario. Ci siamo concentrati sull’Olocene, gli ultimi 10.000 anni circa. Questo database è noto per avere problemi di incompletezza, specialmente per le eruzioni meno potenti e più antiche.
Abbiamo “fittato” diversi modelli (HMM e IHMM, con 2, 3, 4, 5, 6 stati nascosti, usando sia SCPG che TSCPG) ai dati delle eruzioni (usando i decenni come unità di tempo). Per scegliere il modello migliore, abbiamo usato criteri statistici come l’AIC (Akaike Information Criterion) e l’analisi dei residui (una tecnica per verificare se il modello cattura bene la struttura temporale dei dati) e l’analisi del percorso di Viterbi (la sequenza più probabile di stati nascosti nel tempo).

Cosa Abbiamo Scoperto sui Vulcani dell’Olocene
Il modello risultato migliore è stato un IHMM a 4 stati con processo TSCPG. Cosa significa?
- Stato 1: Rappresenta la “completezza”. Quando il processo è in questo stato, non ci sono eventi mancanti (o almeno, il modello assume così). I tempi tra le eruzioni seguono una distribuzione esponenziale (un caso particolare della Gamma, adatto per eventi globali che sono sovrapposizione di processi indipendenti).
- Stati 2, 3, 4: Rappresentano diversi livelli e tipi di “incompletezza”. In questi stati, i tempi osservati seguono una distribuzione TSCPG, il che significa che il numero medio di eruzioni mancate tra due osservate varia nel tempo e dipende dallo stato specifico.
Analizzando i parametri stimati per questo modello, abbiamo potuto “vedere” cose affascinanti:
- Numero di eventi mancanti nel tempo: Abbiamo stimato come il numero medio di eruzioni mancate per ogni “visita” negli stati 2, 3 e 4 sia diminuito nel corso dei millenni. Ad esempio, lo Stato 3 rappresentava un’incompletezza molto alta migliaia di anni fa (decine di eventi mancati in media), ma questo numero si è ridotto drasticamente avvicinandosi al presente. Lo Stato 4 rappresentava un’incompletezza minore in generale.
- Transizioni tra stati nel tempo: Le probabilità di passare da uno stato all’altro cambiavano. Ad esempio, la probabilità di rimanere nello stato “completo” (Stato 1) è aumentata enormemente negli ultimi secoli. Allo stesso modo, la probabilità di passare da stati molto incompleti a stati meno incompleti è aumentata nel tempo.
- Completezza complessiva del record: Combinando le informazioni sugli stati e le loro probabilità nel tempo, abbiamo potuto stimare la percentuale di completezza del record LaMEVE nell’Olocene. Questa stima mostra che prima di 5000 anni fa, la completezza era probabilmente inferiore al 20%, in linea con studi precedenti. La completezza aumenta significativamente negli ultimi 2000 anni, con un’accelerazione negli ultimi secoli, fino a raggiungere quasi il 100% nel periodo più recente (dopo circa l’anno 1739 secondo le stime del modello).
- Stima del Rischio (Hazard Rate): Usando i parametri dello Stato 1 (quello completo), abbiamo stimato il tasso di eruzioni future. Il risultato è stato di circa 4 eventi per decennio (per eruzioni di magnitudo >= 4). Questo valore è significativamente più alto (più di 6 volte!) rispetto a quello che si otterrebbe analizzando ingenuamente i dati osservati senza tener conto dell’incompletezza. Questo fa capire quanto sia cruciale modellare correttamente i dati mancanti!

Conclusioni e Prossimi Passi
Questo lavoro mostra come l’uso combinato di processi di rinnovo come SCPG e TSCPG all’interno di modelli HMM, specialmente quelli inomogenei (IHMM), sia un approccio potente per analizzare serie storiche di eventi con incompletezza che varia nel tempo. Permette non solo di stimare meglio i parametri fondamentali del processo e il rischio futuro, ma anche di quantificare l’evoluzione della completezza stessa del record.
L’applicazione al database LaMEVE ha dato risultati coerenti con le conoscenze geologiche e ha fornito stime quantitative preziose. Certo, c’è sempre spazio per migliorare. Un passo futuro interessante sarebbe includere nel modello anche informazioni sulla magnitudo delle eruzioni, per capire ancora meglio come l’incompletezza dipenda dalla “dimensione” dell’evento (è più facile perdere eventi piccoli).
Spero che questo viaggio nei dati nascosti e nei modelli che li svelano vi sia piaciuto! È un esempio di come la statistica e la modellistica matematica ci aiutino a leggere tra le righe della storia, anche quando le righe sono sbiadite o mancanti.
Fonte: Springer
