DepreSym: L’IA Può Davvero Capire i Sintomi della Depressione? Vi Racconto la Nostra Ricerca
Ciao a tutti! Oggi voglio parlarvi di un tema che mi sta particolarmente a cuore e che sta rivoluzionando il modo in cui potremmo approcciare la salute mentale: l’uso dell’intelligenza artificiale, e in particolare dei Grandi Modelli Linguistici (LLM), per identificare i segnali della depressione.
Nel mondo digitale di oggi, lasciamo tracce ovunque, specialmente sui social media. E se queste tracce potessero aiutarci a capire meglio la nostra salute mentale, o addirittura a rilevare precocemente condizioni come la depressione? È una domanda affascinante, ma anche complessa. Molti metodi computazionali cercano di “minare” questi dati online, ma spesso i modelli risultanti faticano a generalizzare e non sono molto trasparenti su *come* arrivano a una conclusione.
Perché Focalizzarsi sui Sintomi Specifici?
Qui entra in gioco un’idea che trovo molto potente: invece di cercare segnali generici di depressione (come il numero di parole tristi o gli orari di pubblicazione), perché non concentrarci sull’identificazione di sintomi specifici, proprio come farebbe un clinico? Pensiamo a sintomi come tristezza persistente, irritabilità, perdita di interesse, problemi di sonno… Questi sono i mattoncini che compongono il quadro della depressione, e riconoscerli nel linguaggio naturale potrebbe portare a modelli più robusti, interpretabili e personalizzati.
Questa è la filosofia che ha ispirato diverse iniziative recenti, tra cui il lavoro svolto nell’ambito del CLEF eRisk lab. In particolare, è stata proposta una sfida interessante: sviluppare metodi di ricerca per trovare frasi, all’interno dei post degli utenti (in questo caso su Reddit), che fossero collegate ai sintomi specifici elencati nel Beck Depression Inventory-II (BDI-II). Il BDI-II è un questionario standard, ampiamente utilizzato nella pratica clinica, che copre 21 sintomi chiave della depressione.
Nasce DepreSym: Un Tesoro di Dati Annotati
Partendo dai risultati di questa sfida eRisk, abbiamo intrapreso un lavoro certosino. Abbiamo raccolto un’ampia gamma di frasi candidate, selezionate tramite una tecnica chiamata top-k pooling applicata ai ranking prodotti dai sistemi partecipanti (ben 37 metodi diversi!). Questo ci ha garantito una grande diversità nel materiale di partenza.
E poi è arrivato il lavoro “umano”. Abbiamo messo insieme un team di tre valutatori esperti, inclusa una psicologa clinica, per analizzare queste frasi. Il compito non era banale: una frase era considerata “rilevante” per un sintomo solo se (i) era pertinente all’argomento (es. parlava di sonno) e (ii) forniva informazioni esplicite sulla condizione dell’individuo riguardo a quel sintomo (es. “non riesco a dormire da giorni” vs “mi piace dormire”). Questa doppia condizione rende l’annotazione molto più complessa rispetto ai classici compiti di relevance assessment.
Il risultato di questo sforzo è DepreSym: un dataset composto da 21.580 frasi annotate in base alla loro rilevanza per i 21 sintomi del BDI-II. Ad oggi, è il più grande dataset di questo tipo a livello di sintomi. Crediamo fermamente che questa risorsa possa essere preziosissima per chi sviluppa modelli per il monitoraggio dei marcatori della depressione.
La Sfida dell’Annotazione e l’Accordo tra Esperti
Come potete immaginare, mettere d’accordo tre persone su giudizi così sfumati non è stato semplice. Abbiamo sviluppato linee guida dettagliate e abbiamo fatto un primo round di annotazione su alcuni sintomi. I risultati iniziali sull’accordo tra valutatori (misurato con indici come il Kappa di Cohen e l’Alpha di Krippendorff) non erano altissimi. Questo ci ha confermato la complessità intrinseca del compito.
Dopo una sessione di confronto e chiarimento con i valutatori, abbiamo ripetuto il processo e l’accordo è migliorato significativamente, pur rimanendo su livelli “moderati”. Questo sottolinea quanto sia difficile e soggettiva, a volte, l’interpretazione del linguaggio legato alla salute mentale. Abbiamo quindi definito due livelli di “verità” (ground truth) per il nostro dataset:
- Consensus: frasi giudicate rilevanti da TUTTI e tre i valutatori (più rigoroso).
- Majority: frasi giudicate rilevanti da almeno DUE valutatori su tre.
E i Grandi Modelli Linguistici (LLM)? Possono Fare Questo Lavoro?
Una delle parti più intriganti della nostra ricerca è stata esplorare se i moderni LLM conversazionali potessero svolgere questo complesso compito di annotazione. Abbiamo messo alla prova tre “big”: ChatGPT (GPT-3.5), GPT-4 e Vicuna. Abbiamo fornito loro le stesse istruzioni e gli stessi esempi dati agli annotatori umani.
I risultati? Interessanti e con luci e ombre.
GPT-4 si è dimostrato il migliore tra i tre, mostrando un accordo più elevato con i giudizi umani (specialmente con il ground truth “Majority”). Tuttavia, tutti i modelli hanno mostrato una tendenza particolare: erano abbastanza bravi a identificare le frasi che gli umani avevano etichettato come rilevanti, ma facevano molta fatica con quelle non rilevanti. In pratica, tendevano a vedere “rilevanza” un po’ ovunque, generando molti falsi positivi.
Questo è un punto cruciale: mentre gli LLM sono ottimi nel capire l’argomento generale (topicality), faticano di più a cogliere quella sfumatura aggiuntiva richiesta dal nostro compito, ovvero se la frase fornisce davvero prova dello stato psicologico dell’individuo rispetto al sintomo.
Un Futuro Ibrido per l’Annotazione?
Questa scoperta ci ha fatto riflettere. Forse il ruolo ideale per gli LLM in questo contesto non è sostituire completamente gli umani, ma assisterli. Dato che i modelli sembrano abbastanza affidabili quando dicono che una frase è “non rilevante”, potremmo usarli come un filtro iniziale. L’LLM potrebbe scremare automaticamente una grande quantità di frasi palesemente non pertinenti, lasciando agli esperti umani il compito di revisionare solo quelle candidate come potenzialmente rilevanti. Nel nostro caso, GPT-4 avrebbe potuto ridurre il carico di lavoro umano di circa il 68%, facendo risparmiare decine di ore! Un approccio ibrido potrebbe rendere il processo più efficiente e scalabile.
Mettere alla Prova DepreSym: Il Benchmarking con BEIR
Avere un dataset è fantastico, ma come si comportano i sistemi di recupero dell’informazione (Information Retrieval – IR) quando cercano effettivamente queste frasi rilevanti? Per capirlo, abbiamo integrato DepreSym nel noto framework BEIR (Benchmarking-IR). Questo ci ha permesso di testare un’ampia gamma di modelli di ricerca all’avanguardia:
- Modelli lessicali (come il classico BM25)
- Modelli sparsi (che migliorano il matching di parole chiave con tecniche neurali)
- Modelli densi (che rappresentano query e frasi come vettori in uno spazio semantico)
- Modelli di interazione tardiva (come ColBERT)
- Modelli di ri-ranking (che migliorano un ranking iniziale)
Abbiamo anche sperimentato diverse strategie per formulare le query di ricerca, basandoci sui testi del questionario BDI-II (solo il titolo del sintomo, titolo + risposte, media delle singole risposte).
Cosa Abbiamo Imparato dai Test di Ricerca?
I risultati sono stati illuminanti:
- Il compito è difficile: Anche i modelli migliori faticano a raggiungere performance altissime, confermando che la nostra definizione di rilevanza è sfidante. C’è ampio margine di miglioramento!
- La formulazione della query è cruciale: Query più specifiche, basate sul testo delle singole risposte del BDI-II, funzionano molto meglio di query brevi (solo titolo) o troppo lunghe (titolo + tutte le risposte).
- I modelli densi dominano: Contrariamente a quanto visto in altri benchmark generici, nel nostro caso i modelli densi (come ANCE, TAS-B e quelli basati sulla similarità di frasi) hanno superato nettamente gli altri tipi di modelli. Questo suggerisce che catturare la semantica profonda è fondamentale per questo compito a livello di frase.
- Variabilità tra i sintomi: Come già osservato in studi precedenti, l’efficacia nel trovare frasi varia molto da sintomo a sintomo. Sintomi come “Pianto” (Crying) o “Alterazioni del sonno” sono più facili da trovare rispetto ad “Agitazione” o “Indecisione”. Questo sembra correlato a quanto frequentemente questi temi vengono discussi apertamente online.
Considerazioni Etiche e Prospettive Future
È fondamentale sottolineare un aspetto: DepreSym e i modelli che ne deriveranno sono strumenti di ricerca e potenziali aiuti digitali, non sostituti del giudizio professionale medico. L’obiettivo è supportare, non diagnosticare. Abbiamo seguito rigorosi standard etici, utilizzando dati pubblici e anonimizzati, e siamo consapevoli dei potenziali bias presenti nei dati dei social media (geografici, demografici, ecc.). È essenziale che chiunque utilizzi questi dati ne sia consapevole.
Guardando al futuro, c’è tanto lavoro interessante da fare. Testare altri LLM, affinare gli approcci ibridi uomo-macchina, estendere la ricerca ad altre lingue e piattaforme, e sviluppare metodi per mitigare i bias sono tutte direzioni promettenti.
In conclusione, con DepreSym speriamo di aver fornito una risorsa utile alla comunità scientifica per fare passi avanti nello sviluppo di tecnologie più sensibili e precise per comprendere e monitorare la salute mentale attraverso il linguaggio. La strada è ancora lunga, ma i progressi nell’IA ci offrono strumenti sempre più potenti per affrontarla.
Fonte: Springer