Visualizzazione astratta di dati panel che si dividono in due percorsi luminosi su sfondo scuro, uno rappresenta il risultato osservato (trattamento) e l'altro il controfattuale non osservato, con colori blu e grigio duotone, obiettivo 35mm, profondità di campo.

Controfattuali con Dati Panel: La Sfida della Predizione

Avete mai pensato “cosa sarebbe successo se…”? Ecco, nel mondo dell’analisi dati, specialmente quando vogliamo capire l’impatto reale di una politica, di un farmaco o di una qualsiasi azione (quello che noi tecnici chiamiamo “trattamento”), questa domanda è il pane quotidiano. Il problema è che, per una stessa persona, azienda o paese (la nostra “unità”), non possiamo osservare contemporaneamente cosa succede *con* il trattamento e cosa sarebbe successo *senza*. Possiamo vedere solo una delle due realtà. L’altra, quella che non si è verificata, è il cosiddetto controfattuale.

E qui casca l’asino. Come facciamo a misurare l’effetto di qualcosa se ci manca il termine di paragone fondamentale, cioè cosa sarebbe accaduto altrimenti? La risposta, amici miei, sta tutta in una parola: predizione. Dobbiamo diventare un po’ indovini, o meglio, usare i dati a nostra disposizione per *prevedere* al meglio quel risultato mancante, il nostro controfattuale.

Il punto cruciale, come sottolinea una recente review su Springer che ho avuto modo di leggere (e che ispira questo articolo), è proprio questo: la bontà della nostra stima dell’effetto dipende *interamente* da quanto siamo bravi a prevedere il controfattuale ((hat{y}^0_{it}) o (hat{y}^1_{it}), a seconda di cosa ci manca). Se la nostra predizione è sballata, anche la misura dell’effetto sarà sballata. Semplice, no?

Il vero rompicapo è che non abbiamo la controprova! Non esiste un valore “vero” del controfattuale con cui confrontare la nostra predizione. Quindi, come scegliamo il metodo giusto per fare questa previsione? Dobbiamo basarci su due cose:

  • Quanto le ipotesi alla base di un metodo sembrano compatibili con i dati che osserviamo.
  • Quanto quel metodo sembra bravo a prevedere, date le sue ipotesi e i nostri dati.

In questo viaggio affascinante, i dati panel (cioè dati che seguono le stesse unità nel tempo) sono i nostri migliori alleati.

Perché i Dati Panel sono una Miniera d’Oro?

Lavorare con dati panel è come avere una lente d’ingrandimento potentissima sul mondo. Rispetto ai dati cross-section (una fotografia in un singolo istante) o alle serie storiche pure (l’evoluzione di una singola unità nel tempo), i panel ci offrono vantaggi unici:

  • Controllo della Selezione: Ci aiutano a gestire meglio quei fastidiosi problemi di “selezione”, sia quella basata su fattori che osserviamo (selection on observables) sia quella più subdola basata su fattori che non vediamo (selection on unobservables). In pratica, ci aiutano a confrontare cose più simili tra loro.
  • Effetti Eterogenei vs Omogenei: Possiamo capire se l’effetto del trattamento è più o meno lo stesso per tutti (omogeneo) o se varia significativamente da unità a unità (eterogeneo). Questo è fondamentale per decidere se ha senso parlare di un “effetto medio” (Average Treatment Effect – ATE).
  • Dinamiche Temporali: Non solo vediamo se c’è un effetto, ma anche come questo evolve nel tempo. È un effetto immediato? Cresce? Si stabilizza?
  • Il Meglio dei Due Mondi: Ci permettono di combinare la flessibilità degli approcci non parametrici (che non fanno ipotesi rigide sulla forma della relazione) con la capacità degli approcci parametrici di identificare i fattori causali specifici.

Insomma, i dati panel ci danno una visione molto più ricca e dinamica della realtà, fondamentale per costruire buoni controfattuali.

Primo piano di un grafico complesso con linee di dati panel che si intersecano rappresentando diverse unità nel tempo, illuminazione da studio controllata, obiettivo macro 90mm, alta definizione, focalizzazione precisa sui punti dati.

La Via Causale: Alla Ricerca del Meccanismo Profondo

Un primo modo per affrontare il problema è cercare di capire il “meccanismo” che genera i risultati, sia con che senza trattamento. Questo è l’approccio causale. L’idea di base è postulare un modello, spesso qualcosa del tipo:

(y_{it} = g(varvec{x}_{it}) + varepsilon_{it})

dove (y_{it}) è il risultato, (varvec{x}_{it}) sono le caratteristiche osservabili (le nostre covariate) e (varepsilon_{it}) rappresenta tutto il resto (fattori non osservati, casualità). L’obiettivo è stimare le funzioni (g_1(cdot)) (per lo stato trattato) e (g_0(cdot)) (per lo stato non trattato).

Qui però sorgono le complicazioni. La scelta di partecipare al trattamento ((d_{it}=1)) potrebbe essere correlata sia alle caratteristiche osservabili (varvec{x}_{it}) sia, peggio ancora, ai fattori non osservabili (varepsilon_{it}). Questo è il problema della selection on unobservables, un classico mal di testa per chi fa queste analisi.

Per affrontare queste sfide, abbiamo diverse frecce al nostro arco:

  • Metodi Parametrici: Assumono una forma specifica per le funzioni (g(cdot)) (es. lineare) e spesso anche per la distribuzione degli errori. Se le ipotesi sono corrette, sono efficienti. Ma se sbagliamo le ipotesi… sono guai.
  • Metodi Semiparametrici: Cercano un compromesso, facendo ipotesi solo su alcune parti del modello.
  • Metodi Non Parametrici: Sono i più flessibili, non fanno ipotesi sulla forma di (g(cdot)). Il rovescio della medaglia è che richiedono molti dati e soffrono della “maledizione della dimensionalità” (diventano impraticabili se le covariate (varvec{x}_{it}) sono tante). Inoltre, spesso devono assumere l’assenza di selezione sui non osservabili (unconfoundedness), un’ipotesi forte e non testabile direttamente.

Il vantaggio degli approcci parametrici/semiparametrici è che possono tentare di gestire entrambi i tipi di selezione. Lo svantaggio è che si basano su ipotesi potenzialmente irrealistiche. Viceversa per i non parametrici: più flessibili, ma spesso richiedono l’ipotesi di unconfoundedness. Una bella coperta corta!

La Via Pragmatica: Se Conta Solo Prevedere

E se cambiassimo prospettiva? Se l’obiettivo primario è misurare l’effetto, allora, come dicevamo all’inizio, ciò che conta davvero è ottenere la migliore predizione possibile del controfattuale. Non è strettamente necessario identificare i parametri del “vero” modello causale. Qualsiasi cosa sia correlata con il risultato che vogliamo prevedere può aiutarci, anche se non è una causa diretta. Questo è l’approccio non causale o predittivo.

Qui l’idea è usare la struttura dei dati panel, in particolare le informazioni provenienti dalle unità *non* trattate (il nostro “gruppo di controllo”), per prevedere cosa sarebbe successo all’unità trattata in assenza di trattamento. Si assume, di solito, che per le unità di controllo non ci siano problemi di selezione (unconfoundedness). Vediamo due approcci principali:

1. Modellizzazione Fattoriale (Factor Model – FB)

L’idea qui è che gran parte della variazione nei nostri dati, sia tra individui che nel tempo, possa essere catturata da un numero limitato di “fattori comuni” non osservati ((varvec{f}_t)) che influenzano tutte le unità, ma con “pesi” diversi ((varvec{lambda}_i)) per ciascuna unità. Il modello assomiglia a:

(y_{it} = varvec{lambda}’_i varvec{f}_t + u_{it})

dove (u_{it}) è un errore specifico. Pensatela così: ci sono delle macro-tendenze ((varvec{f}_t)) che guidano l’economia o un settore, e ogni unità ((i)) risponde a queste tendenze a modo suo ((varvec{lambda}_i)). Stimando questi fattori e questi pesi (spesso usando tecniche come l’analisi delle componenti principali sui dati pre-trattamento), possiamo prevedere (y_{it}) per l’unità trattata nel periodo post-trattamento, come se il trattamento non ci fosse stato.

Fotografia concettuale astratta che rappresenta percorsi divergenti 'what if', uno illuminato (trattamento) e uno in ombra (controfattuale), stile film noir, obiettivo 35mm, profondità di campo.

2. Modellizzazione a Proiezione Lineare (Linear Projection – LP)

Questo approccio è forse ancora più diretto. Prevede il risultato dell’unità trattata ((y_{1t})) come una combinazione lineare (una media pesata) dei risultati contemporanei delle unità di controllo ((tilde{varvec{y}}_t = (y_{2t}, ldots, y_{Nt}))):

(y_{1t} = varvec{w}’ tilde{varvec{y}}_t + eta_{t})

I pesi (varvec{w}) vengono stimati usando i dati del periodo pre-trattamento, solitamente con una semplice regressione OLS (minimi quadrati ordinari). L’idea intuitiva è trovare la “migliore” combinazione delle unità di controllo che mima l’andamento dell’unità trattata prima del trattamento, e poi usare questa stessa combinazione per prevedere il controfattuale dopo il trattamento.

Questo approccio è strettamente legato ad altri metodi noti come il Panel Data Approach (PDA) di Hsiao et al. (2012) e il famoso Synthetic Control Method (SCM) di Abadie et al. (2010, 2015). La differenza principale è che LP è una regressione non vincolata, mentre SCM impone vincoli sui pesi (devono essere non negativi e sommare a uno), il che può essere più efficiente se i vincoli sono corretti, ma problematico altrimenti.

FB vs LP: Chi Vince la Sfida della Predizione?

Ok, abbiamo due contendenti principali per la predizione non causale. Quale scegliere? La review analizza la questione confrontando l’errore quadratico medio di predizione (Mean Square Prediction Error – MSPE) dei due metodi in diversi scenari, a seconda della numerosità delle unità (N) e dei periodi temporali (T). Ecco il succo:

  • N e T grandi: Se N e T crescono insieme, i due metodi hanno performance simili se gli errori specifici (u_{it}) sono incorrelati tra l’unità trattata e quelle di controllo. Se invece sono correlati (cosa plausibile), LP tende ad avere un MSPE inferiore perché riesce a catturare implicitamente questa correlazione, mentre FB no.
  • N fisso, T grande: Quando abbiamo poche unità ma molti periodi, LP tende a battere FB in termini di MSPE.
  • T fisso, N grande: Se abbiamo pochi periodi ma tantissime unità (uno scenario comune), LP diretto non è fattibile perché la matrice da invertire sarebbe singolare. Tuttavia, si possono usare varianti (come dividere le unità di controllo in sottogruppi) che, secondo gli studi, performano meglio di FB.
  • N e T finiti (il caso reale!): Qui il confronto teorico è difficile, ma simulazioni e analisi empiriche (come quella sulla riunificazione tedesca citata nella review) suggeriscono che LP sia spesso più robusto e affidabile.

Inoltre, LP è generalmente computazionalmente più semplice: richiede una OLS, mentre FB implica la stima di fattori latenti, che è più complessa. Sembra quindi che, per la pura predizione, l’approccio LP abbia spesso una marcia in più.

Due schermi di computer affiancati che mostrano visualizzazioni di dati diverse, una con analisi fattoriale (FB) e una con proiezione lineare (LP), illuminazione da ufficio controllata, obiettivo 50mm.

E Quando le Unità Trattate Sono Molte?

Finora abbiamo parlato come se ci fosse una sola unità trattata. Se ce ne sono molte, potremmo applicare questi metodi a ciascuna unità e poi aggregare i risultati. Ma questo può essere laborioso.

Un’alternativa è aggregare prima le unità trattate e poi applicare i metodi, ma l’aggregazione ha le sue insidie. Un’altra strada interessante è analizzare non solo l’effetto medio, ma l’intera distribuzione degli effetti individuali. Tecniche come la dominanza stocastica possono aiutarci a confrontare politiche diverse anche quando gli effetti sono molto eterogenei.

Infine, c’è un modo per riconnettere l’approccio predittivo a quello causale. Una volta stimati gli effetti individuali ((hat{Delta}_{it})), possiamo provare a regredirli su altre caratteristiche ((varvec{x}_{it})) per capire quali fattori spiegano le differenze negli effetti del trattamento tra le unità. Unire predizione e comprensione causale!

Conclusioni (Provvisorie) di un Viaggiatore dei Dati

Allora, cosa ci portiamo a casa da questa esplorazione? Se il nostro obiettivo principale è misurare l’effetto di un trattamento usando dati panel, concentrarsi sulla qualità della predizione del controfattuale è la chiave. Gli approcci non causali, in particolare la Proiezione Lineare (LP), sembrano offrire una via promettente, spesso robusta, computazionalmente agevole e performante in diversi scenari N/T.

Certo, dobbiamo essere consapevoli dei limiti. Questi approcci predittivi non ci aiutano molto a simulare scenari politici alternativi (la famosa Critica di Lucas incombe!). Non abbiamo discusso a fondo altri metodi come il Difference-in-Differences (DID), né le complessità legate a trattamenti multipli o a effetti di sistema (quando una politica influenza tutto, non solo l’unità trattata). E il futuro? L’integrazione con algoritmi di machine learning per catturare non linearità complesse o usare dati non strutturati (testo, sentiment) apre frontiere eccitanti.

Ma per ora, ricordiamoci questo: quando vi chiedete “cosa sarebbe successo se…”, i dati panel e una buona strategia di predizione sono i vostri migliori strumenti per tentare una risposta.

Un ricercatore che osserva attentamente uno schermo con grafici di serie storiche e stime controfattuali, luce soffusa sulla scrivania, obiettivo 35mm, profondità di campo che sfoca lo sfondo dell'ufficio.

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *