Decifrare lo Sguardo: Come l’IA Sta Imparando a Prevedere i Nostri Movimenti Oculari nella Ricerca Quotidiana
Avete mai pensato a quante volte al giorno i vostri occhi si muovono freneticamente per cercare qualcosa? Che sia la tazza preferita per il caffè mattutino, le chiavi prima di uscire o un amico in mezzo alla folla, la ricerca visiva è una parte fondamentale della nostra interazione con il mondo. È un processo cognitivo talmente radicato che spesso non ci facciamo nemmeno caso. Ma cosa succede quando non cerchiamo un solo oggetto, ma dobbiamo tenere a mente una lista intera, come quando facciamo la spesa e dobbiamo trovare latte, pane e uova? Questa si chiama ricerca ibrida, un mix affascinante tra la ricerca nel mondo esterno (visiva) e quella nella nostra memoria.
Recentemente, con il mio team, ci siamo tuffati proprio in questo campo, cercando di capire e, soprattutto, di prevedere come si muovono i nostri occhi in questi scenari complessi. Immaginate la scena: siete in cucina e dovete preparare la colazione. Non cercate solo la tazzina, ma anche il caffè, il cucchiaino, magari lo zucchero. Non seguite un ordine rigido, e non cercate una tazzina specifica, ma “una qualsiasi tazzina”. Ecco, questa è la ricerca ibrida in azione!
La Sfida della Ricerca Ibrida: Non Solo Guardare, Ma Ricordare
Il bello (e il difficile!) della ricerca ibrida è che dobbiamo destreggiarci tra ciò che vediamo e ciò che abbiamo immagazzinato in memoria. I nostri occhi compiono movimenti rapidissimi, le saccadi, per spostare il focus da un punto all’altro, intervallati da fissazioni, momenti in cui l’occhio si ferma per acquisire informazioni (circa 200 millisecondi di “pausa attiva”). La sequenza di queste fissazioni, chiamata scanpath, è influenzata da tantissimi fattori: il compito che stiamo svolgendo, le caratteristiche della scena (luminosità, contrasto, orientamento) e, cosa importantissima, il contesto. Pensateci: cercare un oggetto quotidiano in una normale stanza è molto più facile che cercarlo in un ambiente totalmente sconosciuto o astratto.
Studi recenti hanno evidenziato come il “significato” di una porzione di scena sia più importante della sua semplice “salienza” (quanto spicca visivamente) nel guidare la nostra attenzione. Nonostante l’importanza di questi processi, la maggior parte degli esperimenti sulla ricerca ibrida, finora, si è basata su immagini artificiali, poco rappresentative della realtà. E, cosa ancora più sorprendente, mancavano modelli computazionali capaci di simulare la ricerca ibrida in scene naturali. Una lacuna che abbiamo voluto colmare!
Il Nostro Segreto? Un Modello Ibrido che Imita l’Uomo
Abbiamo quindi sviluppato un modello potenziato, che abbiamo chiamato nnELM (neural network Entropy Limit Minimization), basato su un approccio Bayesiano e sulla teoria della detezione del segnale. Lo so, suona complicato, ma l’idea di fondo è creare un “cervello artificiale” che impari a cercare come farebbe un umano. Per “allenarlo” e testarlo, abbiamo anche creato un enorme database, l’HSEM (Hybrid Search Eye Movements) Dataset, che contiene migliaia di registrazioni dei movimenti oculari di persone reali impegnate in compiti di ricerca ibrida.
Una delle sfide principali nella ricerca ibrida è che i partecipanti devono cercare oggetti diversi contemporaneamente. Come fa il nostro cervello a gestire questa complessità? E come può farlo un modello? Abbiamo esplorato diverse strategie, concentrandoci su come il modello aggiorna le sue “convinzioni” (tecnicamente, le distribuzioni di probabilità a posteriori) dopo ogni fissazione.

Ci siamo resi conto che due aspetti erano cruciali per rendere il nostro modello più “umano”:
- Migliorare la visibilità periferica: Anche se la nostra visione più nitida è al centro (la fovea), la periferia del nostro campo visivo gioca un ruolo fondamentale nel guidarci. Abbiamo quindi “insegnato” al modello a tenerne maggiormente conto, soprattutto nelle fasi iniziali della ricerca.
- Limitare la memoria del modello: Noi umani non abbiamo una memoria infinita. Dopo un po’, tendiamo a dimenticare dove abbiamo già guardato, specialmente in ricerche lunghe. Limitare la capacità di memoria del nostro nnELM ha reso le sue performance, soprattutto nelle ricerche più estese, molto più simili a quelle umane.
Dentro il Modello: Visibilità Periferica e Memoria (Limitata!)
Il modello originale su cui ci siamo basati, proposto nel 2024, utilizzava un framework Bayesiano che aggiornava le informazioni in modo iterativo ad ogni saccade. Il “cuore” di questo processo è il calcolo della probabilità a posteriori, che combina una “convinzione iniziale” (prior) con le nuove “prove visive” raccolte. Il prior iniziale è una mappa di salienza generata da una rete neurale profonda (DeepGaze II), una sorta di prima “impressione” della scena. La novità che abbiamo introdotto riguarda principalmente la mappa di visibilità.
Precedentemente, il modello acquisiva informazioni prevalentemente dalla regione foveale. Noi abbiamo modificato questo aspetto per permettere al modello di “vedere” e utilizzare informazioni anche dalla periferia, pur mantenendo un meccanismo di “inibizione del ritorno” (evitare di guardare subito di nuovo dove si è appena guardato) confinato alla fovea. Questo ha permesso al modello di integrare informazioni da tutto il campo visivo, rendendo le sue saccadi più simili a quelle umane, senza dover aggiungere vincoli artificiali sulla loro ampiezza.
Per quanto riguarda la memoria di lavoro visiva (quante fissazioni precedenti il modello “ricorda”), abbiamo testato due approcci:
- Dimenticare completamente le fissazioni più vecchie di un certo numero N (ad esempio, ricordare solo le ultime 4).
- Applicare un decadimento esponenziale: le fissazioni più recenti sono ricordate meglio, mentre il ricordo di quelle più lontane nel tempo svanisce progressivamente.
Curiosamente, il secondo approccio, quello del decadimento esponenziale (con un parametro che fa sì che dopo circa 8 fissazioni il ricordo sia quasi svanito), si è rivelato il migliore, superando anche i modelli con un limite fisso. Questo suggerisce che la nostra memoria delle posizioni esplorate decade in modo graduale, un po’ come accade in altri sistemi mnemonici, ad esempio la memoria iconica.
Cercare Aghi nel Pagliaio (Multiplo): Le Strategie del Modello
Ma come fa il modello a gestire la ricerca di più oggetti contemporaneamente? Qui entra in gioco la vera natura “ibrida”. Abbiamo ipotizzato che il modello calcoli, per ogni oggetto target nella memoria, una mappa di probabilità. Ma quale mappa seguire per la prossima fissazione? Abbiamo testato quattro strategie:
- Random: Scegliere una mappa a caso.
- MinEntropy (Minima Entropia): Scegliere la mappa che, se esplorata, fornirebbe la maggior quantità di informazione (cioè, quella con minore incertezza o “entropia”).
- CorrectTarget: Una strategia “ideale” in cui il modello sa già qual è il vero target e si concentra solo su quello (utile come termine di paragone).
- LikelihoodMean: Calcolare una singola mappa combinando le “prove visive” per tutti i target.
Indovinate un po’? L’approccio MinEntropy si è dimostrato il più efficace, specialmente quando il numero di oggetti da tenere a mente era 2 o 4. Questo suggerisce che, anche a livello computazionale, una strategia basata sulla massimizzazione del guadagno informativo per ogni “sguardo” è vincente.

Mettere Tutto alla Prova: Il Dataset HSEM e i Risultati
Per validare tutte queste modifiche, abbiamo utilizzato il nostro HSEM dataset. Abbiamo diviso i dati dei partecipanti in un set di “allenamento” (per mettere a punto i parametri del modello) e un set di “validazione” (per testare le sue performance su dati mai visti prima). I risultati sono stati davvero incoraggianti! Il nostro modello nnELM migliorato non solo gestisce efficacemente i compiti di ricerca ibrida in scene naturali, ma replica anche molto da vicino il comportamento umano. Abbiamo misurato l’efficienza (quanti target trovati in un certo numero di fissazioni), la somiglianza degli scanpath (usando una metrica chiamata Multi-Match) e la capacità di predire la prossima fissazione umana (HSP).
Inoltre, per assicurarci che il nostro modello non fosse bravo solo con il nostro dataset, lo abbiamo testato anche su un benchmark esterno chiamato ViSioNS, che include diversi dataset di ricerca visiva. Anche qui, il nostro modello ha superato le performance di modelli precedenti e di altri approcci allo stato dell’arte. Questo ci ha dato grande fiducia sul fatto che le modifiche apportate fossero realmente significative e generalizzabili.
Ad esempio, abbiamo osservato che i tempi di risposta dei partecipanti umani aumentavano in modo logaritmico con il numero di oggetti da memorizzare (Memory Set Size, MSS), e anche il numero di fissazioni cresceva. Il nostro modello, con le nuove implementazioni, ha mostrato tendenze simili, avvicinandosi al comportamento umano in modo più fedele rispetto alle versioni precedenti o ad altri modelli.
Non è Tutto Oro Quel che Luccica: Limiti e Prospettive Future
Certo, il nostro modello è un passo avanti, ma la strada per comprendere appieno i meccanismi della ricerca visiva è ancora lunga. Ci sono diverse aree in cui possiamo migliorare:
- Contesto Semantico: Attualmente, il “prior” del nostro modello (la sua conoscenza iniziale) non incorpora esplicitamente informazioni contestuali avanzate. Se cerchiamo un uccello, guarderemo in cielo; se cerchiamo un coniglio, probabilmente no. Integrare questo tipo di conoscenza semantica, magari usando le nuove frontiere dell’IA generativa, potrebbe rendere il modello ancora più realistico.
- Mappa di Visibilità: La nostra mappa di visibilità, seppur migliorata, è ancora un’approssimazione. Studi più specifici su come decade la visibilità nella periferia potrebbero aiutarci a raffinarla ulteriormente.
- Rappresentazione degli Oggetti: Usiamo una rete neurale (ResNeXt-101) per creare una “mappa di somiglianza” tra il target e le regioni dell’immagine. Esplorare nuove architetture neurali potrebbe portare a rappresentazioni ancora più informative.
- Subottimalità Umana: I modelli Bayesiani ideali sono, appunto, “ideali”. Gli umani, invece, sono cercatori subottimali. Trovare un framework che tenga conto di questa subottimalità in modo più intrinseco è una sfida aperta.
- Bias di Memoria: Abbiamo assunto che tutti i target fossero memorizzati allo stesso modo. In realtà, effetti come la priorità o la recenza potrebbero influenzare come ricordiamo e cerchiamo gli oggetti, specialmente con liste più lunghe.

Nonostante queste sfide, siamo entusiasti dei progressi fatti. Aver sviluppato il primo modello computazionale per i movimenti oculari durante la ricerca ibrida in scene naturali e aver creato il dataset HSEM sono, a nostro avviso, contributi importanti. Dimostrano come aggiustamenti ispirati cognitivamente possano portare a una rappresentazione più accurata del comportamento di ricerca umano in compiti complessi.
Il nostro obiettivo finale? Continuare a svelare i segreti dietro i nostri sguardi, avvicinando sempre di più i modelli computazionali al meraviglioso e complesso modo in cui noi umani percepiamo e interagiamo con il mondo che ci circonda. E chissà, magari un giorno queste scoperte potranno avere applicazioni pratiche, dal design di interfacce più intuitive al miglioramento dei sistemi di assistenza visiva.
Fonte: Springer
