Fotografia simbolica della campagna elettorale USA 2020: un podio vuoto con microfoni sotto i riflettori in un'arena o sala comizi, bandiere americane leggermente sfocate sullo sfondo. Atmosfera carica di attesa e importanza politica. Lente prime 35mm, profondità di campo ridotta per isolare il podio, illuminazione drammatica stile film noir con contrasti forti.

Discorsi Elettorali USA 2020: Il Tesoro Nascosto nei Dati Testuali è Finalmente Qui!

Ragazzi, parliamoci chiaro: le campagne elettorali sono un fiume in piena di parole. Discorsi, comizi, dichiarazioni… un flusso continuo che cerca di catturare la nostra attenzione e, ovviamente, il nostro voto. Ma vi siete mai chiesti cosa c’è davvero *dentro* quelle parole? Come fanno gli scienziati politici a capire le strategie, le ideologie, l’impatto sui cittadini partendo da semplici testi? Beh, non è magia, è scienza! E per fare scienza servono dati di qualità. Ed è qui che entro in gioco io, o meglio, il fantastico dataset di cui voglio parlarvi oggi.

Il Problema: Dati Frammentati e Incoerenti

Fino ad ora, chi voleva studiare i discorsi delle elezioni presidenziali americane si trovava spesso di fronte a un bel problema. I dataset esistenti erano magari piccoli, provenienti da poche fonti, o peggio ancora, mescolavano discorsi di tipo diverso: comizi, dibattiti, discorsi ufficiali… un minestrone che rendeva difficile fare analisi quantitative serie. Immaginate di voler confrontare le mele con le pere: non funziona! Per capire davvero come un candidato cerca di convincere gli elettori, serve coerenza nel tipo di discorso analizzato. Serve quella che noi chiamiamo coerenza nella struttura retorica.

La Soluzione: Un Dataset Curato nei Minimi Dettagli

Ed ecco la buona notizia! Abbiamo messo insieme un corpus di dati testuali che, modestamente, pensiamo possa fare la differenza. Si tratta di ben 1.056 discorsi della campagna elettorale presidenziale USA 2020, coprendo il periodo da gennaio 2019 a gennaio 2021. E non parliamo solo dei pezzi grossi, Trump e Biden, ma anche dei loro vice, Mike Pence e Kamala Harris, figure spesso trascurate ma importantissime.

La vera chicca? Abbiamo stabilito dei criteri specifici per includere un discorso nel dataset. Volevamo essere sicuri che la struttura retorica fosse consistente, un aspetto fondamentale per le analisi quantitative rigorose. Niente interviste improvvisate o botta e risposta con giornalisti, ma discorsi (orali o scritti) pensati per un pubblico di elettori, parzialmente o totalmente preparati e guidati principalmente dal candidato stesso.

Come lo Abbiamo Costruito? Sudore e Codice!

Mettere insieme questo tesoro non è stata una passeggiata. Abbiamo usato tecniche di web scraping (software scritti apposta in Python, che tra l’altro mettiamo a disposizione!) per raccogliere i testi da diverse fonti autorevoli:

  • Il Miller Center dell’Università della Virginia (specializzato in presidenti USA)
  • Vote Smart (un’organizzazione no-profit super affidabile)
  • C-SPAN (l’archivio delle trasmissioni televisive pubbliche)
  • I blog personali su Medium di Kamala Harris e Joe Biden

Usare più fonti è stato cruciale per avere una copertura ampia, specialmente per i vicepresidenti, i cui discorsi sono stati più difficili da reperire.

Visualizzazione del processo di raccolta dati da diverse fonti web (Miller Center, C-SPAN, Vote Smart, Medium) rappresentate da loghi stilizzati che convergono verso un database centrale simboleggiante il dataset finale. Dettaglio elevato sui loghi e sulle linee di flusso dati. Illuminazione controllata e pulita. Lente macro 60mm.

La Sfida della Pulizia: Il Caso C-SPAN

La parte più tosta? La pulizia e la cura dei dati (quella che chiamiamo curation). Soprattutto per i testi presi da C-SPAN. Immaginatevi le trascrizioni automatiche (closed captioning) fatte in diretta, magari durante comizi all’aperto con vento, rumori di fondo, gente che urla… un incubo! Abbiamo dovuto:

  • Rimuovere discorsi non pertinenti (briefing stampa, visite all’estero non rivolte agli elettori USA).
  • Identificare manualmente l’inizio e la fine del discorso del candidato, togliendo introduzioni, interventi di altri, applausi, e persino la musica!
  • Eliminare le interruzioni del pubblico o le interazioni troppo “conversazionali”, mantenendo solo la parte del candidato.
  • Nel caso di dichiarazioni congiunte (tipo quelle di Harris con altri senatori), abbiamo tenuto solo le sue citazioni dirette.
  • Standardizzare la formattazione, tipo le virgolette (sembra una sciocchezza, ma per l’analisi automatica è importante!).

Un lavoraccio, ve lo assicuro, fatto in parte manualmente e in parte con codice specifico (Algoritmo 1 e 2 nel paper originale, per i più tecnici), ma necessario per garantire la qualità. Nonostante tutto, siamo riusciti a mantenere circa l’87% dei “token” (le parole o unità di testo) originali, segno che la pulizia è stata mirata e non ha buttato via informazioni preziose.

“Text-as-Data”: Non Solo Parole al Vento

Perché tutta questa fatica? Perché vogliamo abilitare studi basati sull’approccio “text-as-data”. Non si tratta solo di fare “text mining” o NLP (Natural Language Processing) per vedere cosa salta fuori da un mare di testo. Qui l’idea è partire da ipotesi specifiche della scienza politica (o sociologia, comunicazione, ecc.) e usare i dati testuali, curati ad hoc, per testarle con modelli statistici rigorosi. Vogliamo capire come il linguaggio viene usato per costruire significati, veicolare ideologie, e fare breccia negli elettori.

La Prova del Nove: Funziona Davvero?

Ok, bello tutto, ma come facciamo a essere sicuri che questo dataset sia davvero “di alta qualità”? Beh, oltre alla reputazione delle fonti e alla trasparenza del processo di pulizia, abbiamo fatto una prova sul campo. Abbiamo usato il dataset per un’applicazione di topic modeling (una tecnica che scopre gli argomenti principali presenti nei testi) un po’ particolare. Non ci siamo limitati a trovare gruppi di parole, ma abbiamo mappato i temi scoperti su argomenti di riferimento della scienza politica (usando dizionari autorevoli come quelli della Oxford University).

Grafico a bolle fotorealistico che mostra l'evoluzione dei temi politici (es. economia, relazioni esterne) nei discorsi dei candidati nel tempo, simile a Fig. 2 dell'articolo originale. Proiettato su uno schermo in una sala analisi dati. Messa a fuoco nitida sul grafico, colori vivaci. Lente zoom 70mm, illuminazione da presentazione.

Il risultato? I temi che emergono dall’analisi del nostro dataset hanno perfettamente senso rispetto al contesto politico di quel periodo! Ad esempio, nel giugno 2019, l’economia e le relazioni esterne erano temi caldi per entrambi i partiti, cosa che corrisponde alle discussioni sui dazi al Messico per l’immigrazione. Questo ci dice che il dataset cattura la struttura statistica rilevante e descrive bene la realtà politica.

Cosa Possiamo Farci? Idee per la Ricerca

Le potenzialità sono enormi! Questo dataset apre le porte a un sacco di ricerche interessanti:

  • Confrontare le strategie retoriche tra Democratici e Repubblicani.
  • Studiare le differenze all’interno dello stesso partito (es. tra candidato presidente e vice).
  • Capire quanto pesano i discorsi dei vicepresidenti sulla campagna complessiva.
  • Analizzare come i candidati adattano (o non adattano) i loro discorsi in risposta a eventi specifici durante la lunga campagna.
  • Misurare come la retorica alimenta (o smorza) la polarizzazione politica nel tempo.
  • Individuare punti di svolta nei discorsi, cambi di focus tematico, ecc.

Insomma, c’è materiale per anni di studi affascinanti nel campo della scienza politica, della retorica, degli studi sui media e della comunicazione politica.

Prendete e Analizzatene Tutti!

La parte migliore? Il dataset è pubblicamente disponibile su Zenodo e GitHub sotto licenza CC BY-NC 4.0 (Creative Commons Attribuzione – Non commerciale). Potete scaricarlo, usarlo, adattarlo (basta citare la fonte e non usarlo per scopi commerciali). Lo trovate in formati comodi come TSV, JSONL e Parquet, facili da usare con i software di analisi dati più comuni (tipo Python con pandas).

Spero di avervi incuriosito! Credo davvero che dati come questi possano aiutarci a capire meglio la politica e il modo in cui viene comunicata. Ora la palla passa a voi ricercatori, analisti, o semplici curiosi: andate a esplorare questo tesoro di parole!

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *