Un'immagine concettuale astratta che rappresenta l'analisi del linguaggio e dei dati testuali, con flussi di parole luminose che si trasformano in grafici complessi e pattern emergenti su uno sfondo scuro, illuminati da una luce soffusa, utilizzando un obiettivo prime da 35mm con profondità di campo per enfatizzare la complessità e l'eleganza del processo di analisi.

Viaggio Affascinante nel Mondo del DAAP: Dai Dizionari Pesati al TDAAP Basato sul Tempo

Ciao a tutti! Oggi voglio portarvi con me in un viaggio esplorativo, un po’ come entrare in una di quelle stanze dei bottoni piene di luci e marchingegni misteriosi. Parleremo del DAAP (Discourse Attributes Analysis Program). Per molti, lo so, il DAAP è una specie di scatola nera: gli si dà in pasto un testo e lui, puff, sputa fuori una marea di dati in forme diverse. Il mio obiettivo qui è farvi capire un po’ come funziona questa “magia”, senza perdermi in formule astruse o codici incomprensibili, ma cercando di farvi afferrare il concetto e le potenzialità.

Cos’è Davvero il DAAP e Perché Dovrebbe Interessarvi?

Immaginate di poter analizzare un testo, che sia la trascrizione di una seduta di psicoterapia, un’intervista, o persino un’opera letteraria, e di poter andare oltre il semplice significato delle parole. Il DAAP fa proprio questo: non si limita a contare quante volte compare una parola, come fanno molti sistemi di analisi testuale che usano semplici “dizionari” (liste di parole). No, il DAAP è molto più sofisticato. Il suo segreto? I dizionari pesati.

Cosa sono? Sono liste di parole a cui è associato un “peso”, un numero che di solito varia tra -1 e +1 (o a volte tra 0 e +1). Questo peso non è casuale, ma riflette, ad esempio, quanto una parola sia indicativa di un certo stile linguistico o di un processo psicologico. Il DAAP usa questi pesi per generare dati su più livelli e, cosa fichissima, produce anche grafici che mostrano come cambia il “paesaggio” del testo in termini di variabili del Processo Referenziale (RP) e altre.

Per farvi un esempio, il DAAP prima “pulisce” il testo da punteggiatura e maiuscole standard, inserisce indicatori per esitazioni o suoni fonetici, e poi aggiunge dei marcatori numerici per aiutarci a collegare i grafici al testo. Le misure che produce descrivono le caratteristiche di un segmento o dell’intero testo, sia in forma numerica che grafica. E attenzione, queste misure dipendono non solo dalle parole usate, ma anche dall’ordine in cui appaiono! Questo è un punto cruciale.

Un Pizzico di Storia: Come Siamo Arrivati Qui?

La storia del DAAP inizia con una scoperta affascinante di Wilma Bucci. Lei notò una connessione tra un certo stile di linguaggio, che chiamò Attività Referenziale (RA), e specifici movimenti delle mani. Le persone il cui linguaggio era più vivido e immaginativo tendevano ad accompagnare il discorso con gesti e movimenti corporei legati ai ritmi e all’intonazione. Pensate alla famosa regola di Strunk e White: “preferisci lo specifico al generale, il definito al vago, il concreto all’astratto”. Partendo da qui, Wilma sviluppò quattro scale RA: Concretezza, Specificità, Chiarezza e Immaginazione. Degli esperti valutavano passaggi di testo su queste dimensioni, ma era un lavoro lungo e faticoso.

Wilma sognava un sistema automatico, specialmente per testi lunghi come le sedute terapeutiche. Qui entra in gioco Erhard Mergenthaler, che insieme a lei, identificò parole usate più frequentemente in discorsi ad alta RA e altre in discorsi a bassa RA, creando i primi dizionari per l’Attività Referenziale Computerizzata (CRA). Era un passo avanti, ma il metodo aveva dei limiti, come la difficoltà nel confrontare i punteggi tra testi diversi e nel visualizzare con precisione i cambiamenti di stile.

Ed è qui che entro in scena io, Bernard Maskit (o meglio, la mia “voce” che vi guida in questo racconto). Wilma mi chiese se potevo trovare un modo per rappresentare graficamente questa mutevolezza del linguaggio. Dopo un periodo in cui pensavo fosse impossibile, ebbi un’illuminazione: lo “smoothing” del DAAP, un concetto piuttosto matematico che cercherò di spiegarvi più avanti. Ma prima, avevamo bisogno di dizionari che ci dessero più sfumature rispetto ai due livelli del CRA. Nasceva così l’esigenza dei dizionari pesati, diventati centrali nel nostro progetto.

Lenti macro, 80 mm, dettagli elevati, messa a fuoco precisa, illuminazione controllata, che mostra un dizionario antico e aperto con parole luminose di intensità variabile, che rappresentano pesi, sulla scrivania di uno studioso circondato da vecchi manoscritti e strumenti scientifici.

L’idea di fondo è che l’RA è un processo psicologico, e una sua manifestazione è lo stile linguistico che associamo alla narrazione o, più in generale, alla simbolizzazione. Il WRAD (Weighted Referential Activity Dictionary) cerca proprio di catturare i diversi livelli di questo stile. Abbiamo analizzato i punteggi RA di vari segmenti di testo e cercato di modellarli usando un dizionario pesato, dove ogni parola ha un peso indicativo del punteggio RA dei segmenti in cui è usata prevalentemente. È importante sottolineare che i valutatori giudicavano interi passaggi, basandosi sulle sensazioni evocate, non su giudizi cognitivi parola per parola.

Costruire i Dizionari Pesati: Un Lavoro da Artigiani (Digitali)

Abbiamo creato diversi dizionari pesati: il WRAD, l’IWRAD (la sua versione italiana), il WRRL (Weighted Reflecting/Reorganizing List), l’IWRRL (italiano), e il WRSL (Weighted Arousal List). La costruzione, ad esempio, del WRRL è stata una sfida. Non avevamo un manuale di punteggio di partenza o una definizione teorica precisa della dimensione “Riflessione/Riorganizzazione”. Abbiamo dovuto costruire la definizione della dimensione mentre sviluppavamo la misura e le istruzioni per il punteggio. Un processo iterativo e interattivo, quasi un “bootstrapping”, che ci ha portato a un dizionario capace di catturare le qualità del linguaggio prodotte quando le persone sono impegnate nell’auto-esame e nel cambiamento emotivo.

Per sviluppare questi dizionari, abbiamo compilato una lista di tutte le parole presenti in almeno due segmenti di un set di “allenamento”. Per ogni parola, abbiamo raccolto i punteggi dei segmenti in cui appariva. Una parola entrava nel dizionario se la distribuzione dei suoi punteggi era sufficientemente “modale” (simile a una curva normale) e non troppo piatta. La mediana di questi punteggi diventava il suo peso. Poi, attraverso trasformazioni non lineari, abbiamo aggiustato i pesi per distribuire meglio i punteggi dei segmenti, rendendoli più leggibili, pur mantenendo l’ordine relativo dei pesi. Questi aggiustamenti sono stati validati confrontando le correlazioni con i giudizi degli esperti.

È interessante notare come alcune parole possano avere ruoli diversi in dizionari diversi. Ad esempio, nel WRAD positivo e nel WRRL negativo troviamo parole come ‘lei’, ‘lui’, ‘era’. Mentre nel WRRL positivo e nel WRAD negativo ci sono ‘io’, ‘che’, ‘è’, ‘tu’, ‘esso’. Questo fenomeno, però, non si verifica in italiano, e stiamo esplorando il perché.

La “Magia” dello Smoothing: Vedere i Pattern Nascosti

Avete presente quando guardate dei dati grezzi e sembrano un groviglio incomprensibile? Ecco, lo smoothing serve a “lisciare” questi dati per far emergere i pattern. Immaginate il sonetto “Ozymandias” di Shelley. Se guardassimo le misure di stile linguistico parola per parola, sarebbe difficile capirci qualcosa. Ma con lo smoothing, emerge un andamento chiaro, che riflette come la descrizione della statua si completa e i significati emotivi vengono espressi.

Paesaggio grandangolare, 15 mm, lunga esposizione, che mostrano linee fluide di luce colorata che rappresentano il lisciatura su un paesaggio testuale complesso e astratto fatto di parole, focalizzarsi in modo forte sui motivi emergenti di luce, con un cielo stellato sullo sfondo.

Lo smoothing del DAAP usa una media mobile pesata con una funzione di ponderazione esponenziale. In parole povere, per calcolare il valore “lisciato” di una parola, non consideriamo solo il suo peso, ma anche quello delle parole vicine, dando più importanza a quelle immediatamente adiacenti e via via meno a quelle più lontane. Questo ci permette di vedere le tendenze e i cambiamenti graduali nello stile del discorso. Un fatto matematico interessante è che la media della funzione del dizionario “lisciata” è uguale alla media della funzione originale. Questo ci dice che la semplice media di utilizzo del dizionario, riportata da molti sistemi, non ci dà molte informazioni sui segmenti di testo.

L’Importanza dell’Ordine delle Parole

Una delle forze del DAAP è la sua capacità di tener conto dell’ordine delle parole. Prendete due segmenti di discorso che usano esattamente le stesse parole ma in ordine diverso. L’effetto comunicativo può essere molto differente! Il DAAP, grazie allo smoothing e a misure derivate come il “Mean High Dictionary Value” (valore medio alto del dizionario) o la “High Dictionary Value Proportion” (proporzione di valore alto del dizionario), riesce a catturare queste differenze. Le covariazioni tra diverse misure sono particolarmente sensibili a questi cambiamenti d’ordine.

Questo apre la strada a esplorazioni affascinanti. Ad esempio, un passaggio molto descrittivo e dettagliato potrebbe ottenere un alto punteggio WRAD, ma essere percepito come “blaterare” piuttosto che come vera simbolizzazione. Servirebbe un dizionario che distingua la simbolizzazione dal semplice chiacchiericcio. O dizionari che colgano più accuratamente le emozioni espresse dal parlante nel momento in cui parla.

Verso il Futuro: TDAAP, l’Analisi Basata sul Tempo

E qui arriviamo a una delle evoluzioni più recenti ed entusiasmanti: il Time DAAP (TDAAP). Wilma Bucci mi aveva lanciato un’altra sfida: produrre una versione del DAAP basata su una linea temporale anziché su una sequenza di parole. Questo ci permetterebbe di rappresentare non solo le parole ma anche i ritmi del linguaggio parlato e i pattern di interazione tra i parlanti. Immaginate di poter integrare l’analisi acustica dei pattern di intonazione! Sarebbe un passo enorme verso una comprensione più completa della relazione tra esperienza corporea ed espressione emotiva nel linguaggio, un principio cardine della Teoria dei Codici Multipli.

Con TDAAP, possiamo studiare le caratteristiche paralinguistiche del discorso, la comunicazione non simbolica tra paziente e terapeuta, le dinamiche di influenza reciproca nella conversazione. Come funziona, in breve?

  • Utilizziamo l’API Speech-To-Text di Google Cloud per trascrivere l’audio e ottenere parola, marcatore temporale e parlante per ogni parola.
  • Un programma chiamato preTDAAP converte questi dati in un foglio di calcolo CSV.
  • Questo foglio viene “ascoltato” e corretto da un essere umano.
  • TDAAP legge i “blocchi di parole” nel file CSV corretto e li separa in “enunciati” (utterances) in base alla lunghezza delle pause (una pausa di almeno mezzo secondo definisce un nuovo enunciato).
  • Produce un file GAP che mostra numero e durata media delle pause.
  • Genera un testo marcato con indicatori ogni 5 secondi e ogni 20 parole.
  • Calcola un punteggio medio di dizionario per ogni blocco di parole.
  • Infine, i valori del dizionario vengono “lisciati” separatamente per ogni enunciato.

Teleto zoom, 150 mm, velocità dell'otturatore rapido, tracciamento dell'azione, cattura di una conversazione dinamica tra due persone in un moderno laboratorio di ricerca, con sottili segnali visivi di onde sonore e tempistiche luminose che fluiscono tra loro, le bolle del linguaggio contengono nuvole di parole e piccoli grafici.

Il TDAAP introduce un nuovo concetto di volubilità, misurata come Parole Per Secondo (WPS), calcolata per ogni blocco di parole e poi lisciata attraverso l’enunciato. Le pause stesse diventano oggetto di analisi: alcune sono intenzionali, altre comunicano significati impliciti. Abbiamo scelto mezzo secondo come linea di demarcazione, ma è una scelta che potrà essere affinata dalla ricerca futura.

Per ogni enunciato, TDAAP fornisce dati come i punti temporali, il WPS medio, i punteggi medi dei dizionari (pesati e non), le misure “High Dictionary Value” e le proporzioni, calcolate però sulla base del tempo (ogni mezzo secondo invece che per ogni parola). E, novità importante, le covariazioni assolute. Mentre la covariazione standard misura quanto due variabili salgono e scendono simultaneamente rispetto alla loro media, la covariazione assoluta, possibile grazie al punto “neutro” intrinseco dei dizionari pesati, misura quanto due variabili siano simultaneamente sopra il loro valore neutro predefinito.

Cosa Ci Riserva il Domani?

Il viaggio non è finito. Le misure del TDAAP, incluse WPS e Covariazioni Assolute, devono ancora essere testate a fondo. Abbiamo set di dati pronti e altri in preparazione. La seconda fase del TDAAP, che prevede l’abbinamento dei dati linguistici con qualità vocali come volume e intonazione, richiederà sperimentazione. E, naturalmente, c’è la necessità di adattare TDAAP all’italiano, allo spagnolo e ad altre lingue.

Spero che questo tour guidato vi abbia incuriosito e vi abbia dato un’idea più chiara di cosa sia il DAAP e di come stia evolvendo. È un campo di ricerca vivo, che cerca di gettare un ponte tra la complessità del linguaggio umano e la potenza dell’analisi computazionale, con l’obiettivo ultimo di comprendere meglio noi stessi e le nostre interazioni.

Con tristezza, ricordiamo che il Dr. Bernard Maskit ci ha lasciati prima di poter rivedere e pubblicare questa sua presentazione. Wilma Bucci ha curato la preparazione di questi appunti per la pubblicazione, con il prezioso contributo di Sean Murphy, Michael Peral e Perry Suskind.

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *