Immagine concettuale di onde cerebrali EEG astratte che si trasformano in un occhio umano stilizzato e focalizzato, simboleggiando la predizione dello sguardo. Illuminazione high-tech, obiettivo prime da 50mm, profondità di campo, duotone blu elettrico e argento metallizzato.

Occhi Puntati sul Cervello: Come l’EEG Predice Dove Guardiamo (E Perché è una Figata!)

Amici appassionati di scienza e tecnologia, mettetevi comodi perché oggi vi porto in un viaggio affascinante al confine tra neuroscienze e intelligenza artificiale. Avete mai pensato se fosse possibile sapere dove state guardando, quali punti catturano la vostra attenzione, semplicemente analizzando le onde del vostro cervello? Beh, la risposta è un sonoro “sì, ci stiamo lavorando sodo!” e i risultati sono a dir poco elettrizzanti.

Da tempo, noi ricercatori siamo affascinati dall’idea di decodificare gli stati cognitivi interni, come le emozioni o il carico mentale, attraverso le interfacce cervello-computer (BCI). Ma quando si tratta di “leggere” informazioni legate agli occhi, come le fissazioni (cioè quando i nostri occhi si soffermano su un punto) e la posizione dello sguardo, i metodi basati sull’EEG (elettroencefalogramma) sono ancora un po’ indietro rispetto ai classici eye-tracker. Questi ultimi sono fantastici per stimare l’attenzione visiva umana, cruciale in un sacco di compiti interattivi. Il problema? Molti eye-tracker si basano su video e necessitano di una linea visiva diretta tra occhi e telecamera. Quelli indossabili esistono, certo, ma la loro precisione a volte lascia a desiderare.

E se potessimo fare a meno di un dispositivo separato per tracciare lo sguardo, ottenendo queste informazioni direttamente dai segnali cerebrali? Pensateci: non solo semplificheremmo la vita (un solo setup, una sola calibrazione), ma apriremo porte incredibili per persone con sindrome locked-in, che hanno movimenti oculari estremamente limitati. Sarebbe, per loro, l’unica alternativa.

La Sfida: Decifrare i Segnali Cerebrali per lo Sguardo

Il cervello è una macchina complessa, e le aree corticali coinvolte nei movimenti oculari sono state studiate a fondo. Esistono persino BCI che permettono di “scrivere” con il pensiero senza muovere gli occhi! Quello che io e il mio team abbiamo voluto fare è stato approfondire come le rappresentazioni spazio-temporali dei segnali cerebrali, catturati dall’EEG, potessero aiutarci a predire le fissazioni e a stimare le coordinate dello sguardo.

Non siamo i primi a cimentarci in questa impresa, sia chiaro. Lavori precedenti hanno esplorato la stima dell’attività oculare dai dati cerebrali, confrontando modelli come EEGNet con analisi discriminanti lineari, o usando modelli di deep learning per segmentare il segnale EEG e rilevare eventi oculari. Il guaio, spesso, è la disponibilità di dataset pubblici che includano simultaneamente dati EEG e oculari di buona qualità e adatti allo scopo. Molti dataset esistenti, pur essendo preziosi, si concentrano su compiti specifici (come la lettura di frasi, che implica micro-saccadi prevalentemente orizzontali) o sono troppo piccoli per allenare i potenti modelli di deep learning.

Fortunatamente, il dataset EEGEyeNet è venuto in nostro soccorso! Include registrazioni sincronizzate di EEG e dati oculari durante compiti di acquisizione di target. È sufficientemente generale per i nostri scopi di ricerca e abbastanza grande da poterci “giocare” con i modelli di deep learning. E, cosa non da poco, ci permette di confrontare i nostri risultati con lo stato dell’arte.

Negli ultimi anni, l’architettura Vision Transformer (ViT) ha fatto faville, mostrando prestazioni migliorate se pre-allenata su dataset di immagini generiche come ImageNet. Altri hanno proposto CNN profonde ispirate a ResNet, o l’inclusione di livelli di auto-attenzione per migliorare l’interpretabilità. Insomma, il campo è in fermento!

Un primo piano di una persona che indossa una cuffia EEG con elettrodi illuminati, mentre guarda uno schermo con grafici di onde cerebrali sovrapposti. Atmosfera da laboratorio high-tech, illuminazione controllata, obiettivo prime da 35mm, profondità di campo, duotone ciano e magenta.

Il Nostro Contributo: Nuovi Modelli e un Pizzico di Follia Creativa

Cosa abbiamo portato di nuovo sul tavolo? Principalmente tre cose:

  • Un framework concettuale per discutere i modelli esistenti e motivarne di nuovi, analizzando come vengono processati i pattern spazio-temporali e locali/globali del segnale EEG.
  • Due nuovi modelli di deep learning per il tracciamento oculare basato su EEG, che combinano reti neurali convoluzionali (CNN), cellule di memoria a breve-lungo termine (LSTM) e Transformer encoder. Li abbiamo battezzati Model A e Model B.
  • Un’analisi approfondita delle prestazioni di questi modelli in due compiti (predizione della fissazione e stima dello sguardo) e in condizioni “difficili”, come avere meno canali EEG o segnali temporalmente più corti.

Ma come funzionano questi segnali EEG? Immaginateli come serie temporali provenienti da diversi canali EEG posizionati sullo scalpo. Quindi, abbiamo due dimensioni chiave: la relazione spaziale tra gli elettrodi e l’evoluzione temporale del segnale. Potremmo anche considerare il dominio della frequenza, ma per ora ci siamo concentrati su quello spazio-temporale. Oltre a questo, è cruciale come l’informazione EEG viene processata: localmente o globalmente? E come si connettono i moduli di processamento? Un bel rompicapo, ve lo assicuro!

Vi Presento Model A e Model B

Il Model A (che potremmo chiamare 2D-Ta) parte processando il segnale EEG con una CNN 2D, che cattura informazioni locali sia nello spazio che nel tempo. L’output viene poi dato in pasto a una LSTM, che si occupa di cogliere le relazioni temporali in modo “glocal” (un mix di globale e locale). Infine, un blocco di livelli densi fornisce la predizione finale. Abbiamo anche testato una variante con un Transformer al posto della LSTM (Model Att), ma ha performato leggermente peggio, forse perché le sequenze temporali non erano così lunghe o perché i Transformer, pur essendo più flessibili, necessitano di più dati per esprimere il loro potenziale.

Questo ci ha fatto riflettere. E se le convoluzioni 2D non fossero l’ideale, dato che l’ordine dei canali in una matrice 2D non riflette perfettamente la loro disposizione spaziale reale sullo scalpo? E se un Transformer focalizzato sullo spazio fosse meglio di uno focalizzato sul tempo? Da queste riflessioni è nato il Model B (1D-Sa-Ta).

Nel Model B, la prima mossa è un processamento temporale locale con una CNN 1D, dove ogni canale viene trattato indipendentemente. Poi, per catturare le relazioni spaziali globali tra i canali, ma facendolo localmente per ogni segmento temporale, abbiamo introdotto una serie di Transformer encoder. Ogni Transformer analizza le relazioni tra tutti i canali in un dato segmento di tempo. Infine, come nel Model A, una LSTM e un blocco FC si occupano del processamento temporale “glocal” e della predizione finale.

Entrambi i modelli sono architetture end-to-end, ma il Model B è, diciamo, più sofisticato nel modo in cui gestisce le informazioni spaziali e temporali in maniera gerarchica.

Visualizzazione astratta 3D di una rete neurale complessa, con nodi luminosi che rappresentano i canali EEG e connessioni che simboleggiano i Transformer e le LSTM. Flussi di dati colorati si muovono attraverso la rete. Obiettivo macro da 100mm, high detail, illuminazione controllata con riflessi sulle superfici.

Mettiamoli alla Prova: Fissazioni e Posizione dello Sguardo

Abbiamo testato i nostri modelli su due compiti principali usando il dataset EEGEyeNet:

  1. Predizione dell’evento di fissazione: un compito di classificazione binaria (l’utente sta fissando o no?).
  2. Predizione della posizione dello sguardo: un compito di regressione per stimare le coordinate (x,y) dello sguardo sullo schermo.

Inoltre, abbiamo voluto vedere come se la cavavano i modelli riducendo la lunghezza del segnale EEG (mantenendo solo la parte centrale) e utilizzando un numero ridotto di canali EEG (simulando dispositivi consumer con solo 8 canali invece dei 128 di un sistema medicale).

I Risultati: Cosa Abbiamo Imparato?

Partiamo dalla predizione della fissazione. Quando abbiamo usato tutti i canali EEG, sia Model A che Model B hanno raggiunto prestazioni eccellenti, con un’accuratezza media intorno al 99%! Sembra che predire se una persona sta fissando o meno sia un compito relativamente facile per l’EEG. Anche con un set ridotto di canali, le prestazioni sono calate solo leggermente, attestandosi intorno al 95%. In questo scenario “ristretto”, Model A ha superato Model B, specialmente con segnali più corti. Forse la complessità aggiuntiva di Model B non paga in un compito così semplice e con meno dati.

Passando alla predizione della posizione dello sguardo, la sfida si è fatta più interessante. Con tutti i canali e segnali interi, Model B ha leggermente superato Model A, ed entrambi i nostri modelli si sono dimostrati competitivi, con Model B che ha offerto prestazioni marginalmente migliori rispetto agli approcci più recenti. Tuttavia, con il set ridotto di canali, la situazione si è invertita: Model A ha superato Model B, suggerendo che Model B è più sensibile alla “povertà” del segnale, sia in termini di numero di canali che di lunghezza.

Abbiamo anche visualizzato l’importanza dei canali EEG per la predizione, basandoci sul meccanismo di auto-attenzione dei Transformer nel Model B. I risultati? Molti dei canali selezionati come importanti e la distribuzione generale dell’importanza corrispondevano agli elettrodi frontali, in linea con studi precedenti. Anche con soli 8 canali, l’importanza maggiore era localizzata nella parte frontale, sebbene la distribuzione fosse più uniforme, quasi come un meccanismo di compensazione per la minore densità di elettrodi.

Mappa di calore stilizzata della testa umana vista dall'alto, con aree frontali illuminate in rosso e arancione a indicare l'alta importanza dei canali EEG in quella zona per la predizione dello sguardo. Sfondo scuro, dettagli scientifici, obiettivo da 50mm, focus preciso sulle aree illuminate.

Conclusioni (Provvisorie) di un Viaggio Emozionante

Allora, cosa ci portiamo a casa da questa avventura? I nostri modelli, in particolare Model B, che codifica l’informazione spaziale tra i canali a un livello temporale locale (tramite i Transformer) e poi a un livello temporale più globale (tramite LSTM), si sono dimostrati molto efficaci, spesso alla pari o migliori dello stato dell’arte, e senza bisogno di pre-allenamento su dataset esterni come richiesto da alcuni approcci basati su ViT.

È emerso chiaramente che tenere conto delle dinamiche temporali dell’EEG (grazie alle LSTM) è potente, e che apprendere rappresentazioni spaziali (relative ai canali) prima della modellazione temporale è benefico. Model B sembra catturare bene le relazioni spazio-temporali, ma tende ad essere meno robusto alla lunghezza del segnale quando si usano pochi canali. Questo ci ricorda un po’ il teorema del “no-free-lunch”: non esiste un modello perfetto per tutte le stagioni, e bisogna saper adattare l’architettura non solo al problema specifico ma anche alle condizioni dei dati.

Usare molti meno canali EEG non ha un effetto drammatico sulla predizione della fissazione, ma impatta di più sul compito, più difficile, della stima della posizione dello sguardo. Curiosamente, anche se “tagliare” il segnale non peggiora drasticamente le prestazioni, avere il set completo di canali EEG aiuta a compensare la perdita di informazione dovuta al taglio, grazie alla ricchezza (e forse ridondanza) dei dati provenienti da più sensori.

Nonostante i progressi, predire accuratamente la posizione dello sguardo dall’EEG rimane un problema aperto e stimolante. Potrebbe esserci un limite pratico all’informazione effettivamente discriminante legata agli occhi presente nei segnali EEG, oppure potrebbero essere necessarie soluzioni più sofisticate, approcci diversi o un’ulteriore pulizia e pre-elaborazione dei dati.

Noi, nel frattempo, non ci fermiamo. Stiamo già pensando a come esplorare altre strade, come le reti neurali su grafo (GNN), l’apprendimento auto-supervisionato o lo sfruttamento di informazioni temporali passate ancora più estese. Il viaggio per svelare i segreti dello sguardo nascosti nelle nostre onde cerebrali è appena iniziato, e promette di essere ancora pieno di sorprese. Restate sintonizzati!

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *