Immagine fotorealistica, obiettivo 35mm, raffigurante un medico che esamina attentamente note cliniche digitali su un tablet, con sottili linee luminose sovrapposte che rappresentano l'analisi AI, profondità di campo, tonalità duotone blu e bianco.

L’Intelligenza Artificiale Legge le Note Mediche: Scoperti Biomarcatori Funzionali Nascosti

Ciao a tutti! Oggi voglio parlarvi di qualcosa che mi appassiona tantissimo e che credo possa davvero cambiare le carte in tavola nella medicina e nella ricerca: come l’intelligenza artificiale (IA), in particolare i modelli linguistici di grandi dimensioni (LLM), ci sta aiutando a “leggere tra le righe” delle note cliniche. Immaginate la quantità di informazioni preziose nascoste in quei testi che medici e specialisti scrivono ogni giorno!

Biomarcatori Funzionali: Cosa Sono e Perché Sono Cruciali

Avete mai sentito parlare di biomarcatori funzionali? In parole povere, sono caratteristiche che possiamo misurare oggettivamente per capire come sta funzionando il nostro corpo. Nel contesto dei disturbi del neurosviluppo (IDD) o della paralisi cerebrale (CP), due biomarcatori fondamentali sono la capacità verbale (parlare) e la capacità deambulatoria (camminare).

Capire queste abilità è essenziale per:

  • Pianificare i trattamenti giusti.
  • Monitorare come sta andando un intervento.
  • Identificare altri problemi di salute associati (comorbidità).
  • Fare ricerca per comprendere meglio queste condizioni.

Il problema? Le valutazioni standardizzate attuali, pur essendo importanti, hanno i loro limiti. Richiedono tempo e risorse dedicate da parte di medici, specialisti, pazienti e caregiver. Spesso forniscono solo una “fotografia” istantanea delle capacità di una persona, rendendo difficile seguire l’evoluzione nel tempo (la cosiddetta valutazione longitudinale). Inoltre, possono esserci incongruenze, dati mancanti e una certa soggettività. Insomma, un bel carico per tutti.

L’EHR: Una Miniera d’Oro (Spesso Non Strutturata)

Qui entra in gioco la cartella clinica elettronica (EHR). È una fonte incredibile di dati longitudinali raccolti durante le normali visite mediche: dati demografici, diagnosi, farmaci, procedure, risultati di laboratorio, note cliniche… un tesoro! Peccato che, come evidenziato anche da studi e raccomandazioni (persino del Dipartimento della Salute e dei Servizi Umani degli Stati Uniti), le informazioni sulle capacità funzionali come parlare o camminare raramente siano inserite in tabelle strutturate facili da analizzare.

Macro Lens Shot, 80 mm, catturando l'intricata trama di note cliniche scritte a mano su carta anziana sotto un'illuminazione morbida, morbida, dettagli elevati, messa a fuoco precisa.

Però, attenzione: anche se non strutturate, le note cliniche contengono descrizioni dettagliate! Uno studio del 2011 sulla paralisi cerebrale ha scoperto che nel 90% dei casi le note mediche contenevano informazioni sufficienti per classificare le capacità motorie grossolane (come il sistema GMFCS), con un buon accordo tra i medici valutatori. Quindi, l’informazione c’è, bisogna solo trovarla!

NLP e LLM: Gli Strumenti per Scavare nel Testo

Estrarre queste informazioni non è banale, data la diversità di linguaggio e struttura delle note. Qui ci viene in aiuto l’Elaborazione del Linguaggio Naturale (NLP). In passato si usavano metodi basati su regole (rule-based), efficaci ma estremamente laboriosi da creare e adattare a note diverse.

Recentemente, però, sono emersi i Large Language Models (LLM), come i famosi modelli GPT. Questi giganti dell’IA sono pre-addestrati su quantità enormi di testo e possono essere usati “out of the box”, senza bisogno di creare regole manualmente o di un addestramento specifico (fine-tuning) troppo intensivo. Hanno già dimostrato di saper estrarre informazioni da testi clinici con successo.

La nostra ipotesi? Possiamo automatizzare l’identificazione delle capacità funzionali dall’EHR usando questi LLM all’avanguardia. Questo ridurrebbe il carico su pazienti e medici e ci darebbe uno strumento efficiente per raccogliere dati longitudinali importantissimi.

Il Nostro Studio: Mettere alla Prova GPT

Ed è proprio quello che abbiamo fatto! Abbiamo sviluppato un sistema automatico basato su LLM per determinare la capacità verbale e deambulatoria partendo dalle note cliniche. Lo abbiamo testato su due gruppi indipendenti di pazienti:

  1. Il National Brain Gene Registry (BGR): un registro multi-istituzionale (dodici centri medici accademici!) con partecipanti affetti da rare malattie neurogenetiche.
  2. Una coorte di pazienti con Paralisi Cerebrale (CP) seguita presso un singolo ospedale (il St. Louis Children’s Hospital).

L’obiettivo era duplice: verificare se il sistema funzionasse bene (efficacia) e se fosse applicabile in contesti diversi (generalizzabilità). Volevamo creare una pipeline che, in futuro, potesse essere usata per estrarre anche altri fenotipi clinici negli IDD.

Come Abbiamo Fatto? Dati e Metodi

Per il BGR, abbiamo usato le note cliniche (progress notes) dall’EHR e i dati di valutazioni neurocomportamentali standardizzate (il RNAP – Rapid Neurobehavioral Assessment Protocol) che fungevano da “verità” (ground-truth) per confrontare i risultati dell’IA. Abbiamo selezionato note scritte da specialisti rilevanti (14 specialità), per pazienti con dati di ground-truth, di almeno 3 anni d’età e con almeno 5 note disponibili. Alla fine, avevamo 3.245 note da 125 persone.

Per la coorte CP, avevamo dati simili: note cliniche dall’EHR e valutazioni standardizzate documentate dai medici (GMFCS per la funzione motoria, VSS e CFCS per linguaggio e comunicazione) come ground-truth. Anche qui, abbiamo filtrato le note (stesse 14 specialità del BGR, note scritte entro 1.5 anni dalla valutazione ground-truth, lunghe almeno 500 parole, almeno 5 note per paziente). Per evitare che l’IA “barasse”, abbiamo rimosso dalle note qualsiasi menzione esplicita dei punteggi GMFCS, VSS o CFCS. Il dataset finale era di 5.462 note da 260 persone.

Scatto grandangolare, 15 mm, rappresentazione astratta delle connessioni di rete neurale che brillano blu e grigio, focalizzati acuti sui nodi centrali, che simboleggiano i dati di elaborazione dell'IA, una lunga esposizione.

Abbiamo poi “interrogato” tre diversi modelli LLM (GPT-3.5 Turbo, GPT-4 Turbo, e il nuovissimo GPT-4 Omni), usando un ambiente sicuro e conforme alla HIPAA (la legge sulla privacy sanitaria USA) tramite Azure di Washington University. Ad ogni modello abbiamo fornito una nota clinica e abbiamo chiesto, usando un formato conversazionale e istruzioni dettagliate (il “prompt”):

  • “L’individuo usa qualche parola?” (per la capacità verbale)
  • “L’individuo può camminare senza aiuto?” (per la capacità deambulatoria)

Abbiamo affinato i prompt iterativamente per massimizzare la performance, ad esempio specificando che camminare con un ausilio non conta come “camminare senza aiuto”. Abbiamo testato diverse varianti: permettendo all’IA di rispondere “sì”, “no” o “sconosciuto” (multi-class), oppure solo “sì” o “no” (binary-class), e usando tutte le note o solo quelle scritte entro 1.5 anni dalla valutazione ground-truth.

Poiché le valutazioni ground-truth erano a livello di individuo, abbiamo dovuto “mappare” le risposte ottenute per ogni singola nota a una previsione unica per paziente. Per il BGR, abbiamo usato una regola di maggioranza (più “sì” che “no” = “sì”). Per la coorte CP, a causa di note ripetitive da terapie settimanali, abbiamo adottato un approccio leggermente diverso per la deambulazione: bastava un solo “sì” in una nota per classificare l’individuo come “sì”.

I Risultati: Cosa Abbiamo Scoperto?

Ebbene, i risultati sono stati davvero incoraggianti!

Capacità Deambulatoria: Un Successo!

Per la capacità di camminare senza aiuto, gli LLM (specialmente GPT-4 Turbo e Omni) hanno raggiunto accuratezze molto elevate (punteggi F1 ponderati superiori a 0.90) in entrambe le coorti! Questo probabilmente perché:

  1. La terminologia usata per descrivere la deambulazione è meno ambigua.
  2. Entrambe le coorti usavano il GMFCS come base per il ground-truth, rendendo il confronto più diretto con la nostra domanda.

Questo dimostra che la nostra pipeline è generalizzabile per questo tipo di biomarcatore.

Capacità Verbale: Più Sfumature

Per la capacità di usare parole, i risultati sono stati più variabili. L’accuratezza è stata molto buona nella coorte BGR (F1 fino a 0.92 con GPT-4 Omni), ma significativamente inferiore nella coorte CP (F1 massimo di 0.68). Perché questa differenza?

Still Life, lenti macro da 100 mm, due diversi marmi di vetro colorati (uno chiaro che rappresenta BGR, uno leggermente nuvoloso che rappresenta CP) fianco a fianco su una superficie riflettente, messa a fuoco precisa, illuminazione controllata, dettagli elevati.

Crediamo dipenda da quanto la nostra domanda (“usa qualche parola?”) fosse allineata alle valutazioni ground-truth specifiche di ciascuna coorte. Nel BGR, le valutazioni (CARS-2, telehealth screener) chiedevano esplicitamente se la persona usasse parole o quante ne usasse. Nella coorte CP, invece, le scale VSS e CFCS sono più complesse: valutano l’impatto del deficit motorio sulla produzione del linguaggio (VSS) o la capacità generale di dare/ricevere informazioni con persone familiari/non familiari (CFCS). In questo contesto, “usare parole” può essere interpretato in molti modi (parole singole? linguaggio orale? dispositivo di comunicazione? segni?).

Questo ci insegna una lezione importante: mentre la pipeline generale funziona, per compiti più sfumati come la valutazione della comunicazione, potrebbe essere necessario adattare il prompt in modo più specifico alla definizione usata nel ground-truth di quella particolare coorte.

Quali Note Sono Più Utili?

Abbiamo anche analizzato quali tipi di note cliniche fornissero le risposte più informative (cioè, meno risposte “sconosciuto”). Per la capacità verbale, le note di logopedia (speech therapy) erano spesso le più utili in entrambe le coorti (anche se nel CP, stranamente, le previsioni da queste note erano meno accurate). Per la capacità deambulatoria, le note di fisioterapia (physical therapy) erano le più informative in entrambi i gruppi. Interessante notare che non c’era una relazione diretta tra quanto una nota fosse informativa e quanto fosse corretta la previsione.

E i Costi? È Sostenibile?

Usare modelli come GPT tramite servizi cloud (come Azure) ha un costo, calcolato per “token” (pezzi di parole) in input e output. Abbiamo fatto un’analisi dei costi: per eseguire tutte le nostre analisi (3 versioni di GPT, 2 coorti, migliaia di note, diverse varianti di prompt) abbiamo speso circa 460 dollari in totale.

Fotografia di ritratto, obiettivo da 35 mm, una ricercatrice ponderata che guarda uno schermo del computer che mostra codice e grafici relativi all'analisi LLM, profondità di campo che sfoca le apparecchiature di laboratorio di fondo, effetto duotone in verde acqua e arancione.

Considerando la quantità di dati analizzati e le iterazioni fatte, riteniamo che sia un costo ragionevole, soprattutto se confrontato con il tempo e lo sforzo umano necessari per fare lo stesso lavoro manualmente o tramite valutazioni standardizzate ripetute. Certo, è più costoso di metodi rule-based o altri approcci di machine learning che potrebbero non avere costi monetari diretti (ma hanno alti costi di sviluppo). In futuro, esploreremo anche l’uso di LLM open-source (come Llama, Mixtral, FLAN) che possono essere eseguiti localmente, eliminando i costi per token e aggirando potenziali problemi di privacy dei dati.

Limiti e Prospettive Future

Come ogni studio, anche il nostro ha dei limiti. Gli LLM evolvono rapidamente, e non sempre conosciamo i dettagli del loro addestramento. C’è il rischio di bias demografici se i dati non sono rappresentativi (anche se le nostre coorti avevano una certa diversità, alcuni gruppi erano sottorappresentati rispetto alla popolazione generale USA). Le coorti provenivano da centri accademici, che potrebbero avere note più dettagliate rispetto a contesti di cura meno specialistici.

Per il futuro, abbiamo in programma di:

  • Testare la pipeline su altre popolazioni (es. pazienti pediatrici generici).
  • Provare a estrarre informazioni più complesse e granulari (es. l’età in cui si sono visti progressi/declini, il livello specifico GMFCS invece di un semplice sì/no).
  • Utilizzare questi metodi per capire meglio quali valutazioni standardizzate siano più utili per studi di storia naturale o trial clinici.

Conclusione: Un Passo Avanti per Ricerca e Clinica

In sintesi, abbiamo dimostrato che gli strumenti LLM possono essere progettati e applicati con successo per estrarre dati di biomarcatori funzionali (capacità verbale e deambulatoria) da dati EHR esistenti, ottenendo previsioni clinicamente significative. Abbiamo visto che GPT-4 Turbo e Omni sono superiori a GPT-3.5 e che il tutto può essere fatto a costi ragionevoli.

La capacità di estrarre questi biomarcatori in modo efficiente e a basso costo apre porte enormi sia per la ricerca (correlazioni genotipo-fenotipo, valutazione di terapie, studi di storia naturale, specialmente per malattie rare) sia per la clinica (identificazione di pazienti a rischio che potrebbero beneficiare di trattamenti mirati).

È un campo in rapida evoluzione, ma l’opportunità di sfruttare la ricchezza dei dati EHR con l’IA per migliorare la ricerca e la cura dei pazienti con IDD, e potenzialmente per tutta la popolazione, è davvero entusiasmante!

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *