Immagine concettuale di una rete neurale Vision Transformer che analizza una scansione TAC della colonna lombare, wide-angle 10mm, con linee luminose che collegano diverse aree dell'immagine, simboleggiando l'analisi globale e l'attenzione ai dettagli ossei e discali per la diagnosi dell'ernia.

Ernia del Disco? La TAC incontra l’AI: Vi presento il Vision Transformer!

Ciao a tutti! Oggi voglio parlarvi di qualcosa che mi appassiona tantissimo: l’incontro tra intelligenza artificiale e medicina diagnostica. In particolare, ci tufferemo nel mondo dell’ernia del disco lombare (LDH) e di come una tecnologia chiamata Vision Transformer (ViT) stia cambiando le carte in tavola nell’analisi delle immagini TAC (Tomografia Assiale Computerizzata).

Mal di schiena: un nemico comune, una diagnosi complessa

Sappiamo tutti quanto possa essere invalidante il mal di schiena. L’ernia del disco lombare è una delle cause più comuni, colpendo circa l’1-2% degli adulti ogni anno. Si verifica quando una parte del disco intervertebrale si sposta e comprime i nervi vicini. La diagnosi standard si basa spesso sulla Risonanza Magnetica (RM), considerata il “gold standard”. Tuttavia, la TAC ha i suoi vantaggi: è più accessibile, veloce e offre una visualizzazione superiore delle strutture ossee. Inoltre, recenti progressi nelle tecniche di riduzione della dose di radiazioni la rendono ancora più interessante clinicamente.

L’AI entra in gioco: limiti delle vecchie guardie (CNN)

L’intelligenza artificiale, specialmente il deep learning, ha già mostrato grandi potenzialità nell’analisi di immagini mediche. Le Reti Neurali Convoluzionali (CNN) sono state le protagoniste per molto tempo, anche nella diagnosi di ernie discali basate su RM. Ma quando si tratta di analizzare le TAC per l’ernia del disco, le CNN mostrano qualche limite:

  • Faticano a cogliere le relazioni tra vertebre distanti a causa del loro “campo visivo” locale.
  • Le operazioni di “pooling” che usano per ridurre i dati possono far perdere dettagli fini, cruciali per identificare anomalie discali sottili.
  • Sono sensibili alla posizione esatta delle strutture, il che può ridurre la loro capacità di generalizzare tra pazienti diversi.

Insomma, serviva qualcosa di nuovo, un approccio che potesse “vedere” il quadro generale.

Ecco il Vision Transformer (ViT): l’AI che guarda lontano

Ed è qui che entra in scena il Vision Transformer (ViT). Immaginate un sistema AI che non si limita a guardare piccoli dettagli isolati, ma che riesce a mettere in relazione parti diverse dell’immagine, capendo le dipendenze globali. Questo è possibile grazie a un meccanismo chiamato “auto-attenzione” (self-attention). A differenza delle CNN con i loro “filtri” fissi, i ViT possono concentrarsi dinamicamente sulle interfacce clinicamente rilevanti, indipendentemente dalla loro posizione spaziale nell’immagine. È un po’ come se avessero una visione d’insieme più simile a quella umana. I ViT stanno già dimostrando il loro valore in altri campi medici, come la diagnosi di demenza, la classificazione di tumori cerebrali e la valutazione della gravità del COVID-19.

Immagine medica TAC della colonna lombare, stile macro 100mm, alta definizione, illuminazione controllata, che mostra dettagli delle vertebre e dei dischi intervertebrali con sovrapposta una griglia che simboleggia la divisione in patch operata dal Vision Transformer.

Il nostro studio: la prima volta di TAC e ViT insieme per l’ernia

Nel nostro studio, abbiamo deciso di sfidare lo status quo. Per la prima volta, abbiamo proposto un framework che combina i punti di forza della TAC (visualizzazione ossea) con la capacità di analisi globale del ViT per diagnosticare l’ernia del disco lombare. Abbiamo addestrato e validato il nostro modello ViT su un dataset di 983 pazienti, per un totale di 2100 immagini TAC. Il lavoro è stato meticoloso: abbiamo selezionato pazienti con criteri specifici (età 18-90 anni, sintomi di LDH, esclusione di chirurgie precedenti o altre patologie significative) e le immagini sono state pre-processate (normalizzate, ridimensionate) e annotate da un team multidisciplinare di radiologi e chirurghi ortopedici esperti.

Due compiti cruciali: localizzare e classificare

Il nostro modello AI doveva affrontare due compiti principali:

  1. Localizzazione delle vertebre: Identificare correttamente il segmento discale (es. L3-L4, L4-L5, L5-S1).
  2. Classificazione delle anomalie discali: Determinare se il disco in quel segmento fosse normale, presentasse un “bulging” (protrusione) o una vera e propria ernia.

Abbiamo confrontato le performance del nostro ViT con quelle di diverse CNN ben note (ResNet18, ResNet50, LeNet, AlexNet, VGG16).

I risultati parlano chiaro: il ViT vince!

Ebbene, i risultati sono stati entusiasmanti! Il nostro modello ViT ha superato tutte le CNN testate in entrambi i compiti.

  • Nella localizzazione delle vertebre, ha raggiunto un’accuratezza del 97.13%. Ha dimostrato grande precisione e affidabilità su tutti i segmenti spinali analizzati (L3-L4, L4-L5, L5-S1).
  • Nella classificazione delle anomalie discali, l’accuratezza è stata del 93.63%, con ottime performance nel distinguere tra dischi normali, bulging ed ernie. Anche qui, ha distaccato le CNN, con ResNet50 (la migliore tra le CNN) quasi 10 punti percentuali indietro in termini di accuratezza generale.

Questi numeri non sono solo statistiche, rappresentano un potenziale passo avanti significativo per diagnosi più rapide e precise.

Grafico a barre comparativo che mostra l'accuratezza di diversi modelli AI (ViT, ResNet, VGG, etc.) nella diagnosi dell'ernia del disco, con la barra del ViT nettamente più alta. Stile infografica chiara e moderna.

Ma come “ragiona” l’AI? Sveliamo la scatola nera con Grad-CAM

Una delle critiche più comuni all’AI in medicina è la sua natura di “scatola nera”. Come possiamo fidarci di una diagnosi se non capiamo come l’algoritmo è arrivato a quella conclusione? Qui entra in gioco un’altra tecnica affascinante: Grad-CAM (Gradient-weighted Class Activation Mapping). È una tecnica di visualizzazione che ci permette di creare delle “mappe di calore” sull’immagine originale, mostrando quali regioni l’AI ha considerato più importanti per prendere la sua decisione.

Abbiamo applicato una variante di Grad-CAM adattata ai ViT. I risultati sono stati incredibilmente rassicuranti: le mappe di calore hanno rivelato che il nostro modello ViT si concentra proprio sulle regioni anatomicamente e patologicamente critiche, quelle che anche un radiologo esperto guarderebbe!

  • Per la localizzazione, l’AI ha “guardato” i piatti vertebrali, la morfologia dei peduncoli, le ali sacrali e l’orientamento delle faccette articolari, proprio come farebbe un medico.
  • Per la classificazione:
    • Nei dischi normali, ha verificato l’integrità dei confini e l’altezza uniforme del disco.
    • Nei dischi con bulging, ha evidenziato l’espansione circonferenziale dell’anello fibroso.
    • Nei dischi erniati, l’attenzione si è spostata sui margini postero-laterali, sulle zone di obliterazione del grasso epidurale e sullo spostamento delle radici nervose, replicando il processo diagnostico umano.

Questa interpretabilità è fondamentale per costruire fiducia e facilitare l’adozione clinica.

Mappa di calore Grad-CAM sovrapposta a una sezione trasversale di TAC lombare, 35mm, stile duotone rosso e nero, che evidenzia specificamente un'ernia del disco postero-laterale, profondità di campo.

Una scoperta inaspettata: l’AI guarda anche i muscoli?

Durante l’analisi con Grad-CAM, abbiamo notato qualcosa di curioso. In alcuni casi, la mappa di calore evidenziava il muscolo erettore della spina (erector spinae), una regione che i clinici di solito non considerano prioritaria per la diagnosi diretta dell’ernia del disco. Questo ci ha fatto riflettere: è un “errore” dell’AI, una deviazione dalle aree clinicamente significative? Oppure l’algoritmo sta identificando pattern sottili, magari legati a cambiamenti biomeccanici associati all’ernia, che l’occhio umano fatica a cogliere? La letteratura suggerisce che questo muscolo può avere un ruolo nei cambiamenti biomeccanici dell’LDH. Se così fosse, l’AI potrebbe aprirci gli occhi su nuovi marker diagnostici, offrendo una prospettiva inedita sulla patologia. È un’area intrigante che merita ulteriori indagini!

Limiti e orizzonti futuri: la strada è ancora lunga (ma promettente!)

Come ogni studio pionieristico, anche il nostro ha delle limitazioni. Il dataset, seppur curato, proviene da un singolo centro e potrebbe non essere rappresentativo di tutte le popolazioni o protocolli di imaging. La disponibilità di grandi dataset TAC annotati specifici per l’LDH è una sfida chiave. Inoltre, l’integrazione di questi modelli nei flussi di lavoro clinici reali richiede il superamento di ostacoli normativi e la validazione attraverso trial clinici. L’interpretabilità, come dimostra il caso del muscolo erettore della spina, necessita di continui affinamenti.

Cosa ci riserva il futuro?

  • Dataset più grandi e multicentrici: Per migliorare la generalizzabilità e la robustezza dei modelli.
  • Architetture ibride: Esplorare modelli che combinino i punti di forza delle CNN (analisi locale) e dei ViT (visione globale).
  • Integrazione clinica e validazione: Lavorare per portare questi strumenti dal laboratorio alla pratica clinica quotidiana.
  • Affinemento dell’interpretabilità: Per allineare sempre meglio il “ragionamento” dell’AI con quello clinico, scoprendo magari anche nuove correlazioni.

In conclusione, il nostro lavoro dimostra il potenziale enorme dei Vision Transformers applicati alle immagini TAC per migliorare la diagnosi dell’ernia del disco lombare. Offrono maggiore accuratezza e, grazie a tecniche come Grad-CAM, una trasparenza che può facilitare la loro adozione. La strada per l’integrazione clinica diffusa è ancora in salita, ma le prospettive sono davvero entusiasmanti. L’AI sta diventando un alleato sempre più prezioso per la salute della nostra schiena!

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *