Un'immagine concettuale che mostra un occhio umano dettagliato con un reticolo digitale sovrapposto che ne traccia il movimento, simboleggiando la precisione della stima dello sguardo. Sullo sfondo, elementi grafici astratti rappresentano una rete neurale. Obiettivo prime 50mm, profondità di campo ridotta per focalizzare sull'occhio, illuminazione cinematografica con riflessi high-tech.

MobGazeNet: Occhi Puntati sull’Efficienza nella Stima dello Sguardo Mobile!

Ciao a tutti, appassionati di tecnologia e curiosi del futuro! Oggi voglio parlarvi di qualcosa che mi sta particolarmente a cuore e che, ne sono certo, cambierà il modo in cui interagiamo con i nostri dispositivi mobili: la stima dello sguardo. Sembra fantascienza, vero? Eppure, capire dove stiamo guardando è una miniera d’oro per un sacco di applicazioni, dalla sicurezza alla guida assistita, passando per la realtà virtuale e aumentata. Ma c’è un “ma”, anzi, ce n’erano parecchi, soprattutto quando si tratta di farlo su uno smartphone, con risorse limitate.

Perché la Stima dello Sguardo è una Sfida (Soprattutto su Mobile)?

Immaginate di dover insegnare a un computer a capire dove state guardando solo analizzando un’immagine del vostro volto. Non è banale! Gli occhi, che contengono le informazioni cruciali, sono una porzione piccolissima dell’intera immagine. Le vecchie reti neurali convoluzionali (CNN), pur essendo potenti, faticavano a cogliere quei dettagli finissimi, concentrandosi magari su aree del viso più grandi ma meno informative. E non parliamo della difficoltà nel capire le relazioni spaziali tra i vari elementi del volto, come la correlazione tra occhi e sopracciglia, fondamentale per una stima precisa.

Certo, i ricercatori non sono stati con le mani in mano. All’inizio si usavano immagini sia degli occhi che del volto intero. Questo dava buoni risultati, ma richiedeva una potenza di calcolo enorme, perché si usavano più CNN in parallelo. Un po’ troppo per il nostro amato smartphone, non trovate? Allora si è provato a usare solo l’immagine del volto intero per ridurre il carico computazionale. Meno complesso, sì, ma sono emersi i problemi di cui parlavo prima: l’area degli occhi è piccola, le CNN tradizionali non sono bravissime a “zoomare” sui dettagli giusti e a capire il contesto spaziale.

Più di recente, sono entrati in gioco i modelli Transformer con i loro meccanismi di auto-attenzione. Questi sì che sono bravi a considerare il contesto dell’intero volto e hanno mostrato prestazioni superiori. Però, applicarli direttamente a immagini facciali ad alta risoluzione comporta un costo computazionale notevole. Un altro ostacolo era la rappresentazione stessa dello sguardo: le coordinate sferiche (angoli di azimut ed elevazione), molto usate, soffrono di problemi di discontinuità e ambiguità che possono confondere le reti neurali durante l’apprendimento.

MobGazeNet: La Risposta Leggera e Intelligente

Ed è qui che entro in scena io, o meglio, il frutto del nostro lavoro: MobGazeNet! Abbiamo pensato: “E se potessimo avere la botte piena e la moglie ubriaca? Ovvero, alta precisione e basso consumo di risorse?” L’idea era di creare una rete efficiente e leggera, perfetta per i dispositivi mobili, che sfruttasse in modo intelligente i meccanismi di attenzione per concentrarsi sulle caratteristiche cruciali dello sguardo, mantenendo al contempo un’efficienza computazionale invidiabile.

Come ci siamo riusciti? Abbiamo preso il meglio delle architetture mobili esistenti e ci abbiamo aggiunto un tocco di magia: una combinazione progressiva di meccanismi di attenzione. Sto parlando di nomi un po’ tecnici come Squeeze-and-Excitation (SE), Convolutional Block Attention Module (CBAM) e Coordinate Attention (CA). Non preoccupatevi, vi spiego subito a cosa servono!

  • SE (Squeeze-and-Excitation): Aiuta la rete a capire quali “canali” di informazione sono più importanti, un po’ come un equalizzatore audio che alza il volume delle frequenze giuste.
  • CBAM (Convolutional Block Attention Module): Permette di catturare informazioni contestuali locali, aiutando il modello a concentrarsi sulle regioni rilevanti nonostante occlusioni o variazioni di posa e illuminazione.
  • CA (Coordinate Attention): Integra le informazioni posizionali nell’attenzione sui canali, consentendo alla rete di considerare relazioni spaziali sia locali che globali. Fondamentale per capire le dipendenze a lungo raggio tra diverse caratteristiche dello sguardo.

La cosa fantastica è che questa combinazione ci permette di trovare caratteristiche discriminanti dello sguardo, enfatizzare le informazioni cruciali e catturare il contesto spaziale senza appesantire la rete. E non è finita qui!

Primo piano di un occhio umano con sovrapposizioni digitali high-tech che ne analizzano la pupilla e l'iride, simboleggiando la stima dello sguardo. Obiettivo macro 90mm, alta definizione, illuminazione da studio controllata per enfatizzare i dettagli dell'occhio.

Sotto il Cofano di MobGazeNet: Architettura e Meccanismi di Attenzione

L’architettura di MobGazeNet si ispira a MobileNetV2, nota per la sua efficienza. Abbiamo creato dei “blocchi base” che iniziano con una convoluzione puntuale 1×1 per espandere la rappresentazione a bassa dimensionalità, seguita da una convoluzione depth-wise 3×3 per filtrare, e infine una convoluzione puntuale 1×1 lineare per proiettare di nuovo le caratteristiche a una rappresentazione a bassa dimensionalità. È dopo la convoluzione depth-wise che inseriamo i nostri moduli di attenzione.

La sequenza è studiata: prima i blocchi con SE per migliorare la capacità di catturare relazioni importanti tra i canali, poi CBAM per il contesto locale e infine CA per le relazioni spaziali globali. Crediamo che questo impiego sequenziale porti a un progressivo affinamento dell’attenzione, migliorando significativamente le prestazioni. Abbiamo anche sostituito il classico Global Average Pooling (GAP) alla fine della rete con un Global Depth-wise Convolution (GDC) lineare. Il GAP tratta tutte le unità della mappa delle caratteristiche finali allo stesso modo, mentre il GDC può assegnare pesi diversi, enfatizzando la regione informativa dell’occhio.

Dire Addio agli Angoli Sferici: La Magia della Matrice di Rotazione 6D

Ricordate i problemi di discontinuità degli angoli sferici? Per superarli, abbiamo adottato la matrice di rotazione per rappresentare lo sguardo. Questa offre una rappresentazione continua e una parametrizzazione unica per ogni rotazione. Invece di predire direttamente tutti e 9 i valori della matrice 3×3 (che comporterebbe dei vincoli di ortogonalità e determinante unitario difficili da gestire), ci siamo ispirati a lavori precedenti e abbiamo semplificato il compito: prediciamo solo sei valori! In pratica, omettiamo l’ultima colonna della matrice di rotazione e ci concentriamo sulla predizione di due vettori 1×3. Questi vengono poi mappati nuovamente nel gruppo ortogonale speciale SO(3) tramite lo schema di ortogonalizzazione di Gram-Schmidt. Questo ci dà una rappresentazione 6D continua e unica, più facile da apprendere per le reti neurali.

Per affinare ulteriormente l’addestramento, abbiamo introdotto una funzione di perdita basata sulla distanza geodesica. Questa misura in modo affidabile la “vicinanza” tra due matrici di rotazione, penalizzando la rete in modo geometricamente accurato.

I Risultati Parlano Chiaro: MobGazeNet Batte la Concorrenza

Naturalmente, non ci siamo fidati solo delle nostre intuizioni. Abbiamo messo alla prova MobGazeNet su tre dataset pubblici molto usati e impegnativi: MPIIGaze, Gaze360 e RT-GENE. Questi dataset contengono immagini raccolte in condizioni non controllate, con grande varietà di pose della testa, angoli di sguardo, illuminazione e soggetti.

Ebbene, i risultati sono stati entusiasmanti! MobGazeNet ha superato gli attuali metodi allo stato dell’arte (SOTA) sia in termini di prestazioni (errore angolare medio) che di efficienza. Per darvi un’idea, su MPIIGaze abbiamo ottenuto un errore di 3.89°, su Gaze360 di 10.48° e su RT-GENE di 6.52°. La cosa ancora più incredibile è che MobGazeNet rientra nella categoria dei modelli compatti, con meno di 5 milioni di parametri, il numero più basso tra tutti i metodi confrontati! Se guardate i grafici che confrontano errore angolare, GFLOPs (miliardi di operazioni in virgola mobile al secondo) e numero di parametri, MobGazeNet si piazza costantemente nell’angolo in basso a sinistra, dimostrando un compromesso SOTA tra prestazioni, FLOPs e compattezza. Per intenderci, il tempo di esecuzione è di circa 3.4 ms per immagine su una GPU NVIDIA RTX 1080.

Visualizzazione 3D astratta di una matrice di rotazione che si trasforma fluidamente, con linee di codice binarie sullo sfondo. Illuminazione drammatica con toni blu e viola, profondità di campo per mettere a fuoco la matrice, stile futuristico.

Non Solo Numeri: Vedere per Credere (con Grad-CAM)

Per capire meglio l’efficacia dei nostri meccanismi di attenzione, abbiamo usato una tecnica chiamata Grad-CAM per visualizzare quali parti dell’immagine la nostra rete “guarda” di più. Le immagini parlano da sole: MobGazeNet con i meccanismi di attenzione riesce ad assegnare maggiore importanza alle regioni degli occhi, specialmente in condizioni difficili (es. illuminazione scarsa). Un modello MobGazeNet senza questi meccanismi, invece, fatica a catturare le caratteristiche cruciali dell’occhio in tali scenari. Questo dimostra quanto sia fondamentale l’attenzione per estrarre le informazioni rilevanti.

Ogni Pezzo al Suo Posto: L’Importanza di Ogni Componente

Abbiamo anche condotto degli “studi di ablazione”, che in pratica significa smontare il nostro modello pezzo per pezzo per vedere quanto contribuisce ogni componente. Abbiamo provato a rimuovere i singoli meccanismi di attenzione (SE, CBAM, CA) uno alla volta, e a sostituire il GDC con il GAP. I risultati hanno confermato che la combinazione progressiva di SE, CBAM e CA migliora significativamente le prestazioni e la robustezza. Anche la sostituzione del GAP con il GDC ha portato a un notevole aumento delle prestazioni, indicando l’efficacia del GDC nel concentrarsi sulle regioni informative dell’occhio.

Allo stesso modo, abbiamo confrontato la nostra rappresentazione 6D dello sguardo con la regressione diretta degli angoli sferici. Anche qui, la rappresentazione 6D si è dimostrata superiore, con un margine di almeno l’8%, sottolineando la sua efficacia nel raggiungere una stima dello sguardo accurata e continua.

Cosa Bolle in Pentola? Sfide e Prospettive Future

Nonostante i risultati eccellenti, c’è sempre spazio per migliorare. Una delle sfide principali per MobGazeNet è la generalizzazione del dominio. Sebbene il nostro metodo funzioni bene sui dataset usati per la valutazione, la sua robustezza in domini diversi (ambienti mai visti, condizioni di illuminazione estreme, diverse angolazioni della telecamera) rimane una limitazione. Questo perché i modelli di stima dello sguardo sono molto sensibili alla qualità e alle caratteristiche dei dati di input. Il lavoro futuro dovrà esplorare tecniche di adattamento del dominio e strategie di aumento dei dati più robuste per migliorare la generalizzazione.

Un volto umano stilizzato, metà realistico e metà wireframe, con un focus luminoso sulla regione degli occhi evidenziata da una mappa di calore (heatmap) colorata (dal blu freddo al rosso caldo), a simboleggiare i meccanismi di attenzione. Obiettivo da ritratto 35mm, effetto duotone ciano e magenta, leggero film grain.

In Conclusione: Uno Sguardo al Futuro (Mobile)

Insomma, MobGazeNet non è solo un altro algoritmo. È un passo avanti significativo verso una stima dello sguardo precisa, efficiente e robusta, specificamente pensata per i dispositivi che teniamo in tasca ogni giorno. Combinando in modo intelligente architetture leggere, meccanismi di attenzione progressivi e una rappresentazione dello sguardo più solida, abbiamo dimostrato che è possibile ottenere prestazioni SOTA senza sacrificare l’efficienza computazionale.

Sono davvero entusiasta delle potenzialità di MobGazeNet e non vedo l’ora di vedere come questa tecnologia potrà essere integrata in future applicazioni per rendere le nostre interazioni con il mondo digitale ancora più intuitive e naturali. Chissà, magari il prossimo smartphone che comprerete avrà un po’ della nostra “magia” al suo interno!

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *