Un robot umanoide e una persona si guardano intensamente negli occhi, creando un momento di connessione. L'immagine è un ritratto fotografico, obiettivo da 35mm, con un leggero effetto duotone blu e grigio per un'atmosfera futuristica ma intima, profondità di campo che sfoca leggermente lo sfondo per concentrarsi sull'interazione.

Robot, mi guardi negli occhi? Il segreto del coinvolgimento è (quasi) tutto lì!

Amici appassionati di tecnologia e futuri coinquilini di robot, mettetevi comodi! Oggi voglio parlarvi di una cosa che mi ha letteralmente fatto sgranare gli occhi (e capirete presto perché è un’espressione quanto mai azzeccata). Avete presente quando parlate con qualcuno e capite subito se è interessato, annoiato o sta per filarsela? Ecco, gran parte di quella magia passa attraverso gli sguardi. E se vi dicessi che i nostri amici robotici stanno imparando a fare lo stesso, in modo sorprendentemente efficiente?

Ho messo le mani su uno studio freschissimo che propone un approccio rivoluzionario per capire se siamo “presi bene” durante un’interazione con un robot. Il titolo è un po’ tecnico, “Eye contact based engagement prediction for efficient human–robot interaction”, ma la sostanza è da urlo: basta guardarsi negli occhi (o quasi) per capire il livello di coinvolgimento. Sembra banale? Pensateci un attimo: fino ad oggi, per far sì che un robot capisse il nostro umore o il nostro interesse, si usavano un sacco di sensori, si analizzavano espressioni facciali complesse, la postura, il tono della voce… un lavoraccio, insomma! E spesso, con risultati così così o che arrivavano con il “delay” di una vecchia connessione internet.

La vecchia scuola: tanti dati, tanta fatica

Immaginate un robot che deve analizzare decine, se non centinaia, di parametri per capire se state per sbadigliare dalla noia o se siete pronti a dargli un “cinque”. Questo approccio, che gli addetti ai lavori chiamano “feature-based”, ha i suoi meriti, ma anche parecchi contro. Primo, il rischio di accumulare errori: se un sensore sbaglia, tutto il castello di carte rischia di crollare. Secondo, la complessità computazionale: elaborare tutti quei dati in tempo reale è una sfida enorme, soprattutto per robot che magari non hanno la potenza di calcolo di un supercomputer. E poi c’è il problema dei dataset: per addestrare questi sistemi servono montagne di dati, spesso difficili e costosi da raccogliere e annotare.

C’è anche chi ha provato la via “end-to-end”, dove il sistema impara direttamente dai dati grezzi, un po’ come facciamo noi umani. Figo, eh? Però anche qui, servono dataset giganteschi, e non sempre si capisce bene perché il robot prenda certe decisioni. Insomma, la strada per un’interazione uomo-robot (HRI) davvero naturale e fluida sembrava ancora lunga e tortuosa.

La svolta: il potere del contatto visivo

Ed ecco che arriva la genialata: e se ci concentrassimo su un segnale sociale potentissimo, che usiamo costantemente tra noi umani? Esatto, il contatto visivo. Non parlo solo di “direzione dello sguardo”, che è un po’ riduttivo. Parlo di quel mix di intensità, espressioni facciali associate, e quella sensazione di “esserci” che trasmettiamo quando guardiamo qualcuno negli occhi. Questo nuovo studio sostiene, e a quanto pare dimostra, che il contatto visivo, analizzato nel tempo, può essere un indicatore super affidabile del nostro livello di coinvolgimento.

La cosa pazzesca è che questo approccio riduce il numero di “feature” (le caratteristiche da analizzare) da oltre 100 a… due! Avete capito bene: contatto visivo e distanza (quanto siamo vicini al robot). Questo significa sistemi più semplici, più veloci, e che possono funzionare in tempo reale. E i risultati? Da capogiro! Sul dataset di riferimento (UE-HRI), questo metodo ha raggiunto un’accuratezza dell’80.73% e un F1-Score (una misura che bilancia precisione e “richiamo”) dell’80.68%, superando i metodi più blasonati. Non solo, testato su un nuovo dataset registrato appositamente con il robot Tiago di Pal Robotics, ha fatto ancora meglio: 86.8% di accuratezza e 87.9% di F1-score! Roba da non credere.

Un primo piano del volto di una persona che stabilisce un contatto visivo intenso con un robot umanoide, illuminazione da studio, obiettivo da 35mm, profondità di campo per enfatizzare gli occhi, duotone seppia e blu per un effetto cinematografico.

Come funziona questa magia? Vi presento EyeConNet

Il sistema proposto, battezzato EyeConNet, è elegante nella sua semplicità. Immaginate una sequenza di immagini video catturate dalla telecamera del robot. Ecco i passaggi:

  1. Rilevamento del volto: Per ogni fotogramma, il sistema individua i volti presenti.
  2. Calcolo del contatto visivo: Per ogni volto, un modello specializzato (addestrato su un dataset chiamato NITEC, creato dagli stessi ricercatori e focalizzato proprio sul contatto visivo “intenzionale”) calcola un valore che rappresenta l’intensità del contatto visivo. Questo modello è furbo: non guarda solo dove puntano gli occhi, ma considera anche sottili segnali facciali, come un sorriso sociale, che possono indicare un reale interesse comunicativo.
  3. Classificazione del coinvolgimento: Questi valori di contatto visivo (e opzionalmente la distanza) vengono dati in pasto a una rete neurale molto semplice (solo tre livelli!) che, analizzando la sequenza nel tempo con un approccio a “finestra scorrevole”, classifica il livello di coinvolgimento.

La “finestra scorrevole” è un concetto chiave: il sistema non guarda un singolo istante, ma una breve sequenza di momenti, proprio come facciamo noi per capire se l’attenzione di chi ci sta di fronte sta scemando. Questo permette di cogliere le dinamiche temporali e i cambiamenti sottili nel comportamento.

Perché il contatto visivo è così speciale?

Forse vi starete chiedendo: ma perché proprio il contatto visivo? Beh, pensateci. Il contatto visivo è fondamentale nella comunicazione non verbale. Segnala l’inizio o la fine di un’interazione, l’attenzione che svanisce, l’interesse. È un segnale ricco, che va oltre la semplice direzione dello sguardo. Include micro-espressioni, il focus dell’interlocutore. Addirittura, il modello usato per rilevare il contatto visivo è stato addestrato a riconoscere quando uno sguardo è “vuoto” o perso nel nulla, distinguendolo da un contatto visivo genuino, carico di intenzione comunicativa.

Nello studio, si evidenzia come i segnali di “diminuzione del coinvolgimento” (SED – Signs of Engagement Decrease) registrati nel dataset UE-HRI mostrino una forte ridondanza. Molti di questi segnali, alla fine, si riconducono a variazioni nel contatto visivo e nelle sue dinamiche temporali. In pratica, il contatto visivo è uno degli indizi più distintivi e meno ambigui.

Un aspetto interessante è che il dataset UE-HRI presenta delle sfide non da poco: le interazioni avvengono in uno spazio pubblico (un corridoio universitario), quindi con distrazioni, persone che passano, e la libertà per i partecipanti di andarsene quando vogliono. Inoltre, il robot Pepper usato per raccogliere i dati ha uno schermo sul petto, e a volte le persone guardano lo schermo invece che il “volto” del robot. Questo potrebbe far pensare a un calo di coinvolgimento, quando in realtà l’utente sta interagendo con le informazioni mostrate. Il modello EyeConNet, però, sembra cavarsela egregiamente anche in queste situazioni complesse, grazie alla sua capacità di cogliere le sfumature del contatto visivo.

Non solo “sì/no”: le sfumature del coinvolgimento

Una delle cose che mi ha entusiasmato di più è che questo approccio non si limita a dire “coinvolto” o “non coinvolto”. I ricercatori hanno testato il modello per classificare diversi livelli e tipi di coinvolgimento, come:

  • ENG (Engaged): Coinvolto.
  • SED (Signs of Engagement Decrease): Primi segnali di calo del coinvolgimento.
  • EBD (Early signs of future Engagement Breakdown): Segnali precoci di un futuro “sganciamento”.
  • BD (Engagement Breakdown): Sganciamento, l’interazione sta finendo.
  • TD (Temporary Engagement Decrease): Calo temporaneo del coinvolgimento (magari per una distrazione momentanea).

Ebbene, EyeConNet (soprattutto nella sua versione EyeConNet-D, che include la distanza) si è dimostrato capace di distinguere queste diverse fasi con una buona accuratezza. Ad esempio, distinguere tra SED e ENG è fondamentale per permettere al robot di adattare il suo comportamento e cercare di “recuperare” l’attenzione dell’utente. Saper distinguere tra un calo temporaneo (TD) e uno sganciamento definitivo (BD) è altrettanto cruciale.

Un robot umanoide che interagisce con un gruppo di persone in un ambiente pubblico come una hall universitaria, obiettivo grandangolare da 20mm per catturare l'intera scena e le dinamiche di gruppo, luce naturale diffusa.

Pensate alle implicazioni: un robot che capisce che state per perdere interesse potrebbe cambiare argomento, fare una battuta, o proporre un’attività diversa. Un robot che capisce che siete momentaneamente distratti potrebbe attendere pazientemente o richiamare la vostra attenzione con delicatezza. Questo apre la strada a interazioni molto più naturali, empatiche e, diciamocelo, piacevoli!

Velocità e generalizzazione: i superpoteri di EyeConNet

Un altro punto di forza di questo approccio è la capacità di elaborazione in tempo reale. EyeConNet e EyeConNet-D possono analizzare fino a 45 fotogrammi al secondo! Questo è un enorme passo avanti rispetto ad altri modelli basati su RGB che si fermano a 16 fps o modelli end-to-end che arrivano a 25 fps. Per un’interazione fluida, la velocità è tutto.

Inoltre, il fatto che il modello di contatto visivo sia stato addestrato su un dataset ampio e variegato (NITEC) lo rende robusto e capace di generalizzare bene a situazioni diverse, anche con condizioni di illuminazione difficili, persone con occhiali, o pose della testa inusuali. La prova del nove è stata il test sul nuovo dataset con il robot TIAGo: il modello, addestrato sul dataset UE-HRI (con il robot Pepper), ha funzionato alla grande in un contesto completamente nuovo, con un robot diverso e partecipanti diversi. Questa è la vera cartina di tornasole per un modello di intelligenza artificiale.

I ricercatori hanno anche esplorato come la lunghezza della “finestra scorrevole” e del “buffer” (quanto in anticipo si cerca di prevedere lo stato di coinvolgimento) influenzino i risultati. È emerso che sequenze di circa 15 fotogrammi (poco più di un secondo, considerando il frame rate variabile del dataset UE-HRI) danno i risultati migliori per la classificazione binaria (es. coinvolto/non coinvolto), mentre per classificazioni più complesse (con più classi di coinvolgimento) sequenze un po’ più lunghe possono aiutare. Questo ha senso: per capire le sfumature più sottili, serve un po’ più di contesto temporale.

Cosa ci riserva il futuro?

Questo studio, a mio parere, è una vera e propria pietra miliare. Dimostra che, a volte, la soluzione più elegante è anche la più semplice (o almeno, la meno complicata). Concentrarsi su un segnale sociale così fondamentale come il contatto visivo apre scenari incredibili per l’interazione uomo-robot.

Le direzioni future sono tante. Innanzitutto, testare questi modelli in contesti ancora più vari: pensate all’educazione online, dove capire il coinvolgimento degli studenti è cruciale, o durante le videochiamate di lavoro (quante volte ci siamo chiesti se i nostri interlocutori stessero davvero seguendo?). Ogni contesto sociale ha le sue specificità, e i modelli andranno adattati.

Poi, c’è l’idea di integrare, quando serve, altri tipi di informazioni. In scenari di lavoro collaborativo dove non c’è sempre contatto visivo diretto, magari altri segnali (come quelli linguistici) potrebbero diventare più importanti. Ma la base, quella del contatto visivo come pilastro del coinvolgimento, sembra ormai solidissima.

L’obiettivo finale? Robot che non siano solo strumenti, ma veri e propri partner sociali, capaci di capirci al volo, di adattarsi a noi, e di costruire relazioni significative e durature. E tutto questo, forse, comincia con un semplice sguardo.

Io sono elettrizzato all’idea, e voi? Fatemi sapere cosa ne pensate!

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *