LLM e Oncologia: La Rivoluzione IA per Trovare il Trial Clinico Perfetto!
Ciao a tutti! Oggi voglio parlarvi di un argomento che mi sta particolarmente a cuore e che, credetemi, ha il potenziale per cambiare le carte in tavola nella lotta contro il cancro: l’uso dei Large Language Models (LLM), i cervelloni artificiali di cui tanto si parla, per migliorare l’abbinamento dei pazienti ai trial clinici oncologici basati su biomarcatori. Sembra complicato? Tranquilli, cercherò di spiegarvelo in modo semplice e, spero, affascinante!
Il Dramma del Cancro e la Speranza dei Trial Clinici
Partiamo da un dato di fatto, purtroppo crudo: il cancro è una delle principali cause di morte nel mondo. Le stime per il 2022 parlavano di quasi 20 milioni di nuovi casi e circa 9,7 milioni decessi a livello globale. Le terapie standard come chirurgia, chemioterapia e radioterapia, da sole o combinate, sono il nostro arsenale principale. Ma, diciamocelo chiaramente, hanno i loro limiti. La chirurgia è un’opzione valida soprattutto nelle fasi iniziali, mentre chemio e radio non sono efficaci per tutti i tipi di tumore e, ahimè, colpiscono anche le cellule sane, portando con sé effetti collaterali non trascurabili.
Qui entra in gioco la medicina di precisione. L’idea è studiare la genetica del paziente, il suo stile di vita, l’ambiente in cui vive, per cucirgli addosso la terapia più adatta. Questo non solo migliora la qualità delle cure, ma riduce anche test diagnostici e terapie inutili. E un pilastro fondamentale della medicina di precisione sono i biomarcatori genomici: specifici geni o alterazioni che possono predire la risposta di un paziente a un determinato farmaco. Pensate che i trial clinici che usano biomarcatori per stratificare i pazienti hanno tassi di successo più alti, specialmente in oncologia!
L’Inghippo: Trovare il Trial Giusto è un Labirinto
Nonostante i benefici, molti trial clinici faticano a trovare partecipanti. Le ragioni sono tante: a volte i medici non ne parlano per preferenze terapeutiche, mancanza di conoscenza o perché lo ritengono un processo troppo lungo e complesso. E come dar loro torto? Le informazioni sui trial, pur disponibili su piattaforme come clinicaltrials.gov, sono spesso un mare magnum di testi non strutturati, con nomi non standardizzati per i biomarcatori. Cercare il trial giusto per un paziente diventa un lavoro manuale, estenuante e, spesso, frustrante.
Negli anni si è cercato di automatizzare questo processo. All’inizio c’erano algoritmi basati su regole, che però richiedevano un enorme sforzo manuale per tradurre i criteri di eleggibilità in un formato comprensibile dalle macchine. Poi sono arrivate le ontologie mediche, che hanno aiutato a standardizzare la terminologia, ma faticavano con le sfumature del linguaggio naturale. Anche i progressi nel Natural Language Processing (NLP) hanno dato una mano, ma sistemi come Watson for Clinical Trial Matching, pur accurati, mostravano ancora limiti nella comprensione del ragionamento clinico complesso.
La vera sfida, vedete, non è tanto confrontare i biomarcatori una volta estratti, quanto interpretare correttamente i criteri dei trial scritti in linguaggio naturale, spesso ambiguo. Ad esempio, un trial potrebbe richiedere “mutazione di HER2/ERRB2”, e il sistema deve capire che si tratta dello stesso gene e strutturare questa informazione correttamente, magari specificando se è un criterio di inclusione o esclusione.

La Svolta: Entrano in Scena i Large Language Models (LLM)
E qui, amici miei, arrivano i Large Language Models (LLM) come GPT-3, GPT-4 e altri modelli open-source. Questi modelli sono addestrati su quantità immense di testo e dimostrano una capacità superiore di comprendere il linguaggio, inclusi il gergo medico complesso e le sottili sfumature linguistiche dei criteri di eleggibilità. Possono processare dati non strutturati senza una preparazione massiccia, alleggerendo il carico di lavoro dei professionisti sanitari. E sono adattabili: possono essere “raffinati” (fine-tuned) per compiti specifici.
Nel nostro studio, ci siamo concentrati proprio su questo: usare gli LLM per estrarre e strutturare i biomarcatori genomici dalle descrizioni dei trial clinici, in particolare dal riassunto breve e dai criteri di eleggibilità. L’obiettivo? Rendere questi dati pronti per un abbinamento paziente-trial più efficiente. È importante sottolineare che non abbiamo processato dati di singoli pazienti, ma ci siamo focalizzati sulla strutturazione delle informazioni dei trial.
Abbiamo adottato un approccio “structure-then-match”: prima l’LLM estrae e struttura le entità (i biomarcatori) dal testo del trial, poi avviene l’abbinamento. La parte cruciale è la prima. Volevamo che il modello non solo estraesse i biomarcatori, ma li organizzasse anche secondo una logica precisa, chiamata Forma Normale Disgiuntiva (DNF). Immaginatela come una “ricetta” logica: il paziente è eleggibile se soddisfa (CondizioneA E CondizioneB) OPPURE (CondizioneC E CondizioneD). Questo è fondamentale per catturare le complesse relazioni tra i biomarcatori.
Cosa Abbiamo Scoperto: Open Source Sorprendente e il Potere del Fine-Tuning
Per la nostra ricerca, abbiamo creato un dataset partendo dal database CIViC, che contiene informazioni sui biomarcatori oncologici. Abbiamo identificato 500 biomarcatori rilevanti e poi cercato trial su clinicaltrials.gov che potessero contenerli. Ne abbiamo selezionati e annotati manualmente 166, specificando per ognuno i biomarcatori di inclusione ed esclusione in formato JSON (un formato strutturato per dati).
Abbiamo messo alla prova diversi LLM, sia “closed-source” (come GPT-3.5-Turbo e GPT-4) sia “open-source” (come NousResearch/Hermes-2-Pro-Mistral-7B), usando varie tecniche di “prompting” (cioè, come si danno le istruzioni al modello):
- Zero-shot prompting: si danno solo le istruzioni.
- Prompt chaining: si scompone il compito in sotto-compiti sequenziali.
- Few-shot prompting: si forniscono al modello alcuni esempi di come svolgere il compito.
I risultati? Sorprendenti! Il modello open-source Hermes-2-Pro-Mistral-7B, già “out-of-the-box” (cioè senza modifiche specifiche), ha superato i modelli closed-source nell’estrarre i biomarcatori di inclusione ed esclusione. Ad esempio, con lo zero-shot prompting, Hermes ha ottenuto punteggi F2 (una metrica di accuratezza) di 0.98 per i biomarcatori di inclusione e 0.66 per quelli di esclusione, mentre GPT-4 si fermava a 0.56 e 0.42 rispettivamente.
Quando abbiamo chiesto ai modelli di strutturare i biomarcatori anche in formato DNF, il divario è diventato ancora più evidente. Hermes ha continuato a brillare, dimostrando capacità di ragionamento superiori. GPT-3.5-Turbo, in questa configurazione, ha faticato enormemente.

Ma la vera ciliegina sulla torta è arrivata con il fine-tuning. Abbiamo preso il modello Hermes e lo abbiamo ulteriormente addestrato (fine-tuned) usando una tecnica chiamata Direct Preference Optimization (DPO). In pratica, si “insegna” al modello a preferire le risposte corrette rispetto a quelle errate. Abbiamo creato due versioni fine-tuned: una (Hermes-FT) addestrata su un set di dati più piccolo (92 campioni annotati manualmente) e un’altra (Hermes-FT-synth) addestrata su un set più grande (156 campioni), che includeva anche dati generati sinteticamente da GPT-4 (e poi revisionati da noi umani, ovviamente!).
Ebbene, Hermes-FT-synth ha sbaragliato tutti, ottenendo i punteggi F2 migliori in assoluto sia per l’estrazione che per la strutturazione in DNF dei biomarcatori (0.86 per l’inclusione e 0.94 per l’esclusione in DNF). Questo dimostra due cose importantissime: primo, il fine-tuning mirato può migliorare drasticamente le prestazioni; secondo, anche i dati sintetici, se ben generati e controllati, possono essere preziosissimi per addestrare i modelli, soprattutto quando annotare manualmente grandi quantità di dati è costoso e richiede tempo.
Perché Questa Differenza? E le Sfide Future
Una delle possibili spiegazioni per la superiorità del modello open-source “out-of-the-box” potrebbe risiedere nel modo in cui i modelli closed-source come GPT-3.5 e GPT-4 sono stati addestrati. Questi modelli passano attraverso un processo chiamato Reinforcement Learning with Human Feedback (RLHF), che li aiuta a generare risposte più simili a quelle umane. Tuttavia, questo potrebbe comportare una sorta di “tassa di allineamento”: la capacità del modello di dare risposte “piacevoli” potrebbe andare a scapito della sua comprensione profonda di compiti complessi e multi-step come il nostro.
Il nostro studio ha anche evidenziato che:
- La dimensione del dataset per il fine-tuning è cruciale: addestrare con pochi dati può portare a overfitting (il modello impara troppo bene i dati di training ma generalizza male su nuovi dati).
- Il “prompt chaining” non è sempre la soluzione migliore; a volte, dare troppi pochi contesti in ogni step può peggiorare le cose.
- La scelta degli esempi nel “few-shot prompting” è delicata e può influenzare molto i risultati.
Certo, il nostro lavoro ha delle limitazioni. Il dataset di test è relativamente piccolo, e ci siamo concentrati solo sui biomarcatori genomici, tralasciando altri criteri importanti come stadio della malattia, età, sesso, ecc. Tuttavia, data la crescente importanza dei biomarcatori nelle terapie oncologiche, migliorare questo aspetto è già un passo avanti enorme.
Guardando al futuro, le metodologie che abbiamo esplorato potrebbero essere estese per analizzare altre fonti di dati clinici non strutturati, come le note dei medici o i genotipi tumorali incorporati in PDF, magari combinando tecniche di OCR (Riconoscimento Ottico dei Caratteri) con NLP avanzato. Sarebbe fantastico poter colmare il divario tra diversi tipi di dati clinici!
In conclusione, sono davvero entusiasta delle potenzialità che gli LLM, specialmente quelli open-source e ben affinati, offrono per rivoluzionare il modo in cui abbiniamo i pazienti ai trial clinici oncologici. È un campo in rapidissima evoluzione, e ogni progresso ci avvicina all’obiettivo di offrire a ogni paziente la migliore opportunità terapeutica possibile. La strada è ancora lunga, ma la direzione intrapresa è, a mio avviso, incredibilmente promettente!
Fonte: Springer
