Immagine concettuale di un cervello stilizzato con aree tumorali evidenziate da un pattern luminoso, sovrapposto a codici binari e grafici di dati, simboleggiando la segmentazione di tumori tramite intelligenza artificiale e l'analisi di immagini PET. Lente prime da 35mm, duotone blu e grigio, profondità di campo.

Tumori e PET: E se il “Coefficiente di Dice” Avesse Bisogno di Occhiali Nuovi?

Ciao a tutti! Oggi voglio parlarvi di un argomento che mi sta particolarmente a cuore e che, credetemi, potrebbe fare la differenza nel modo in cui noi ricercatori “vediamo” e valutiamo i tumori attraverso le immagini mediche. Nello specifico, mi riferisco alla tomografia a emissione di positroni, la famosa PET, uno strumento potentissimo ma che, come tutte le tecnologie, ha le sue piccole idiosincrasie.

Il Dilemma della Segmentazione nelle Immagini PET

Quando analizziamo un’immagine PET, uno dei compiti fondamentali è la “segmentazione”, ovvero identificare con precisione i confini del tumore. Immaginate di dover colorare una figura complessa senza uscire dai bordi: ecco, la segmentazione è un po’ così, ma con implicazioni ben più serie. Per valutare quanto bene un algoritmo (spesso basato su intelligenza artificiale, come le reti neurali convoluzionali o CNN) riesce in questo compito, usiamo delle metriche. La più gettonata è il Coefficiente di Similarità di Sørensen-Dice (DSC), o più semplicemente Score di Dice.

Il DSC è intuitivo: un valore di 1 significa una sovrapposizione perfetta tra la segmentazione dell’algoritmo e quella di riferimento (fatta da un esperto umano), mentre 0 indica nessuna sovrapposizione. Sembra perfetto, no? Beh, non proprio. Il problema principale del DSC è che considera solo il numero di pixel o voxel (i pixel tridimensionali) mal posizionati, ma non la loro posizione rispetto al segmento corretto. In pratica, un errore di pochi pixel vicino al bordo del tumore pesa tanto quanto un gruppo di pixel classificati erroneamente in una zona completamente diversa. Questo è un bel grattacapo, specialmente con le immagini PET, dove i confini tra le diverse regioni non sono sempre nettissimi a causa di effetti come quello del volume parziale. A volte, anche due radiologi esperti potrebbero disegnare contorni leggermente diversi per lo stesso tumore!

La Nostra Proposta: Coefficienti di Dice “Potenziati”

Partendo da questa criticità, ci siamo chiesti: e se potessimo modificare il DSC per renderlo più “intelligente”, più sensibile alla posizione degli errori? Da qui nascono le nostre due proposte, due nuovi coefficienti che abbiamo battezzato Weighted Dice Coefficient (WDC) e Loss-based Dice Coefficient (LDC).

Il WDC, o Coefficiente di Dice Ponderato, introduce dei pesi. L’idea è semplice: i pixel corretti hanno peso 1, mentre quelli circostanti (gli “ambienti” del tumore) hanno pesi progressivamente minori man mano che ci si allontana. Così, un errore vicino al bordo “pesa” meno di un errore lontano. È un po’ come dare un punteggio bonus se, pur sbagliando, l’algoritmo ci è andato vicino.

L’LDC, o Coefficiente di Dice Basato sulla Perdita, adotta un approccio diverso: aggiunge un termine di “penalità” al denominatore della formula del DSC. Questa penalità aumenta per i pixel falsi che si trovano troppo distanti dal segmento corretto. Immaginatela come una “multa” per gli errori grossolani.

Mettiamoli alla Prova: Il Nostro Studio “Proof-of-Concept”

Per vedere se queste idee funzionavano, abbiamo condotto uno studio “proof-of-concept”. Abbiamo utilizzato immagini PET di 89 pazienti con carcinoma a cellule squamose della testa e del collo. Una rete neurale convoluzionale (una U-Net, per i più tecnici) è stata addestrata per segmentare i tumori in queste immagini. Abbiamo così ottenuto 191 maschere di segmentazione predette.

A questo punto, la parte cruciale: due valutatori umani (un ricercatore post-doc con esperienza in segmentazione medica e un professore associato con vent’anni di esperienza nel campo) hanno assegnato un punteggio da 0 (pessimo) a 4 (eccellente) a ciascuna di queste 191 maschere, basandosi su un confronto visivo con le segmentazioni di riferimento fatte da un medico. Questo senza conoscere i valori dei coefficienti, ovviamente!

Abbiamo quindi calcolato i valori di DSC, WDC e LDC per ogni maschera e li abbiamo confrontati con i punteggi umani. Per il WDC, abbiamo scelto tre “ambienti” attorno al tumore con pesi decrescenti (0.7, 0.5, 0.3). Per l’LDC, abbiamo definito una certa distanza oltre la quale un errore veniva considerato “troppo lontano”.

Un'immagine PET ad alta definizione di un'area testa-collo, visualizzata su un monitor medicale. Accanto, grafici stilizzati che rappresentano la sovrapposizione di segmenti tumorali, con colori diversi per DSC, WDC e LDC. Lente macro da 100mm, illuminazione controllata per evidenziare i dettagli dell'immagine e la chiarezza dei grafici.

I dati sono stati raccolti retrospettivamente da pazienti del Turku PET Centre, in Finlandia, tra il 2014 e il 2022. L’età media era di 62 anni. Abbiamo usato solo le immagini PET, escludendo le MRI, e per ogni paziente una sola scansione. Le immagini originali, composte da slice (fette) 2D, sono state ridimensionate e normalizzate. Le slice con pochissimi pixel positivi sono state escluse, portandoci a un dataset finale di 962 slice, divise poi in training set e test set (191 slice per il test).

I Risultati: Il WDC Brilla!

E indovinate un po’? I risultati sono stati davvero incoraggianti, soprattutto per il WDC! Abbiamo usato il coefficiente di correlazione di Spearman per misurare quanto i nostri coefficienti andassero d’accordo con i giudizi umani. Il WDC ha mostrato una correlazione più alta (0.892) rispetto sia al DSC tradizionale (0.832) sia all’LDC (0.867). Non solo: nelle classi di punteggio più alte (cioè per le segmentazioni giudicate “buone” o “eccellenti” dagli umani, punteggi 3 e 4), il WDC ha mostrato una variazione significativamente minore. Questo significa che è più stabile e affidabile nel giudicare le segmentazioni di alta qualità.

Un’osservazione interessante: valori di WDC superiori a 0.85 nel nostro esperimento corrispondevano a situazioni in cui non c’erano componenti completamente falsi positivi (FP) o falsi negativi (FN). In altre parole, l’algoritmo aveva individuato tutte le regioni cancerose senza classificare erroneamente come tumore tessuti sani. Questo è un aspetto cruciale!

L’accordo tra i due valutatori umani è stato molto alto (85.3% di punteggi identici), con un coefficiente di correlazione di Spearman di 0.956, il che rafforza la validità dei punteggi usati come riferimento. Anche usando i punteggi del secondo valutatore, il WDC manteneva la sua superiorità.

Abbiamo esteso l’analisi anche a maschere tridimensionali, ottenute combinando le slice 2D per ogni paziente nel test set. Anche qui, il WDC ha mostrato la correlazione più forte con i punteggi medi umani (0.941 contro 0.899 del DSC e 0.911 dell’LDC).

Considerazioni e Prospettive Future

Certo, non è tutto oro quello che luccica. Il WDC, a volte, può dare valori positivi molto piccoli anche per segmentazioni che visivamente sono completamente sbagliate, ma i cui pixel predetti sono casualmente vicini al tumore reale. Un modo per ovviare potrebbe essere un approccio ibrido: se il DSC è 0, allora anche il WDC è 0. Inoltre, il WDC potrebbe non essere l’ideale per distinguere tra due segmentazioni entrambe molto scarse.

L’LDC, nel nostro studio, si è comportato in modo abbastanza simile al DSC. Forse, per renderlo più efficace, bisognerebbe rivedere la scelta degli “ambienti” o dare un peso maggiore al termine di penalità.

Un ricercatore in un laboratorio high-tech analizza dati di segmentazione tumorale su un grande schermo trasparente olografico. L'immagine mostra grafici di correlazione e visualizzazioni 3D di tumori. Lente prime 24mm, atmosfera da film noir con contrasti forti, duotone ciano e magenta per un look futuristico.

Una cosa è chiara: la scelta dei parametri (come i pesi per il WDC o le dimensioni degli ambienti) è importante e andrebbe studiata più a fondo, magari considerando anche il tipo di cancro e la risoluzione dell’immagine. Standardizzare questi parametri sarà fondamentale per poter confrontare risultati tra studi diversi.

Nonostante queste piccole precisazioni, crediamo fermamente che il WDC, in particolare, abbia un grande potenziale. Potrebbe diventare una metrica clinicamente più significativa del DSC tradizionale, specialmente nella ricerca oncologica e in tutti gli studi che si basano sull’imaging PET. Riuscire a valutare meglio l’accuratezza della segmentazione significa, in ultima analisi, poter fornire diagnosi più precise e piani di trattamento più efficaci.

Il nostro è stato uno studio “proof-of-concept”, un primo passo, ma i risultati ci dicono che siamo sulla strada giusta. C’è ancora lavoro da fare, come testare questi coefficienti su dataset più ampi e diversificati, ma l’orizzonte è promettente!

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *