Visualizzazione concettuale di un cervello digitale luminoso connesso a diverse interfacce utente stilizzate che si adattano dinamicamente. Flussi di dati colorati rappresentano il feedback umano e l'apprendimento per rinforzo che convergono verso il cervello. Obiettivo prime da 35mm, effetto duotone blu elettrico e arancione caldo, profondità di campo accentuata per mettere a fuoco il cervello digitale e i flussi di dati.

Interfacce Utente che Imparano da Noi: Il Segreto è nel Feedback (Umano)?

Ciao a tutti! Oggi voglio portarvi con me in un viaggio affascinante nel mondo delle interfacce utente (UI) che si adattano, quasi magicamente, a chi le usa. Immaginate software che capiscono le vostre esigenze, il vostro contesto, e si modificano per offrirvi la migliore esperienza possibile. Sembra fantascienza? Beh, non proprio, e l’apprendimento per rinforzo (Reinforcement Learning, RL) è una delle chiavi per rendere tutto questo realtà.

Adattare un’interfaccia utente è un bel rompicapo: bisogna capire quale modifica fare, quando farla e dove, affinché sia davvero utile. È qui che entra in gioco la mia passione per il Machine Learning (ML). Credo fermamente che i recenti progressi in questo campo possano darci una grossa mano. In particolare, l’RL si è dimostrato molto promettente per pianificare sequenze di adattamenti UI su lunghi periodi.

Il “problema” dell’RL, se così vogliamo chiamarlo, è che ha bisogno di una “funzione di ricompensa” (reward function) definita manualmente, oppure deve imparare un “modello di ricompensa” (reward model). E qui casca l’asino: ad oggi, non c’erano prove concrete sull’utilità di questi modelli di ricompensa specificamente per l’adattamento delle UI. Ecco perché, insieme al mio team, abbiamo deciso di vederci chiaro!

Due Approcci a Confronto: Modelli HCI vs. Feedback Umano

Nel nostro studio, abbiamo voluto mettere sotto la lente d’ingrandimento due modi diversi per generare questi modelli di ricompensa nel contesto dell’adattamento UI con RL. L’obiettivo? Capire quale fosse il più efficace per migliorare l’esperienza utente (User Experience, UX), misurata sia in termini di coinvolgimento (oggettivo e soggettivo) che di soddisfazione.

I due contendenti erano:

  • AUI-HCI: un modello di ricompensa basato esclusivamente su modelli predittivi di Interazione Uomo-Computer (Human-Computer Interaction, HCI). In pratica, modelli che simulano il comportamento dell’utente.
  • AUI-HCI-HF: un modello di ricompensa che partiva dai modelli HCI, ma arricchito con il feedback umano (Human Feedback, HF). Sì, avete capito bene, abbiamo chiesto direttamente alle persone!

Ovviamente, per avere un termine di paragone, abbiamo incluso anche interfacce non adattive (NA), quelle statiche a cui siamo più abituati.

L’idea di fondo è che l’adattamento dell’UI può essere visto come un problema decisionale sequenziale stocastico: il sistema adattivo deve pianificare una serie di modifiche nel tempo. L’RL addestra un “agente” a prendere decisioni basate sulle ricompense che riceve dall’ambiente per determinate azioni. Nel nostro caso, l’agente decide quali adattamenti applicare in base al comportamento dell’utente.

Il vero nodo cruciale, come dicevo, è definire funzioni di ricompensa efficaci. Qui entra in gioco il reward modeling, che ci permette di specificare gli obiettivi dell’utente e fornire feedback al sistema. Ma progettarli è complesso, specialmente quando i risultati sono incerti. Per questo, si sono esplorate due strategie: derivare i modelli da quelli predittivi HCI, che simulano il comportamento utente, oppure integrare il feedback umano, un campo promettente noto come Reinforcement Learning from Human Feedback (RLHF).

L’Esperimento: Come Abbiamo Testato i Modelli

Per capire quale approccio funzionasse meglio, abbiamo condotto un esperimento controllato con un design crossover AB/BA. Questo significa che i partecipanti hanno provato diverse condizioni, permettendoci di fare confronti più robusti. Abbiamo coinvolto studenti universitari che hanno interagito con interfacce adattive in tre diversi domini: viaggi (Trip Planner), e-commerce (articoli sportivi) ed e-learning (gestione corsi).

Le capacità adattive delle interfacce includevano:

  • Modifiche al Layout: da lista a griglie con 2, 3, 4 o 5 colonne.
  • Regolazione Dimensione Font: piccolo, predefinito, grande.
  • Densità del Contenuto: mostrare tutte le informazioni, una parte o nasconderle.
  • Modifiche al Tema: chiaro o scuro.

Abbiamo modellato il problema come un Processo Decisionale di Markov (MDP) all’interno dell’ambiente OpenAI Gym. Lo spazio degli stati considerava tutte le possibili configurazioni dell’UI e le preferenze utente (un bel po’ di combinazioni, pensate a 90 per l’UI e altrettante per le preferenze, portando a 8100 stati possibili!). Lo spazio delle azioni includeva le 13 modifiche possibili più un’azione “nessuna operazione”.

La funzione di ricompensa che abbiamo definito considerava due aspetti: la generalità (G), ovvero le tendenze comuni tra gli utenti, e le preferenze individuali (I). Per questo studio specifico, ci siamo concentrati sull’aspetto della generalità (G), sviluppando un modello HCI predittivo del coinvolgimento utente basato su dati raccolti da interazioni precedenti. Per migliorare ulteriormente G, abbiamo integrato il feedback umano, basandoci sull’approccio di rl-teacher, dove un valutatore (uno degli sperimentatori, nel nostro caso) esprimeva preferenze tra coppie di sequenze di adattamento mostrate in video.

Un'interfaccia utente futuristica su un tablet trasparente che si adatta dinamicamente, mostrando grafici e opzioni personalizzate. La mano di una persona interagisce con lo schermo. Illuminazione da studio controllata, obiettivo macro da 100mm per evidenziare i dettagli dell'interfaccia e l'interazione, alta definizione.

L’algoritmo Monte Carlo Tree Search (MCTS) è stato poi utilizzato per guidare la selezione degli adattamenti ottimali, simulando sequenze di modifiche e valutandole con i modelli di ricompensa.

I Risultati: Cosa Abbiamo Imparato (e Cosa No)

E veniamo al dunque! I risultati sono stati… interessanti, e con qualche sorpresa.

Coinvolgimento Oggettivo: Qui abbiamo avuto la conferma più forte! L’approccio AUI-HCI-HF (quello con il feedback umano) ha mostrato un miglioramento significativo nel coinvolgimento oggettivo degli utenti rispetto alle interfacce non adattive. Il coinvolgimento oggettivo lo misuriamo con dati concreti: numero di click, scroll, tempo speso, ecc. C’è stata anche una debole evidenza che AUI-HCI-HF fosse superiore ad AUI-HCI (senza feedback umano) su questo fronte.

Invece, non abbiamo trovato differenze significative nel coinvolgimento oggettivo tra AUI-HCI (solo modelli predittivi) e le interfacce non adattive. Questo suggerisce che i modelli HCI da soli, senza l’arricchimento del feedback umano, potrebbero non bastare a fare la differenza in termini di interazione misurabile.

Coinvolgimento Soggettivo e Soddisfazione Utente: E qui le cose si fanno più complesse. Nonostante i buoni risultati sul coinvolgimento oggettivo, non abbiamo riscontrato differenze significative per quanto riguarda il coinvolgimento soggettivo (misurato con il questionario User Engagement Scale – UES) o la soddisfazione utente (misurata con il Questionnaire for User Interaction Satisfaction – QUIS) tra nessuna delle condizioni. Né AUI-HCI né AUI-HCI-HF si sono distinte significativamente dalle interfacce non adattive, o tra di loro, su queste metriche.

Questo ci dice una cosa importante: integrare il feedback umano nei modelli di ricompensa RL migliora l’interazione oggettiva, ma il suo impatto sul coinvolgimento percepito e sulla soddisfazione generale sembra, al momento, limitato. Probabilmente, la percezione soggettiva e la soddisfazione sono influenzate da una gamma molto più ampia di fattori, alcuni dei quali magari non direttamente catturati dalle metriche usate per addestrare l’agente RL.

Riflessioni e Prossimi Passi: La Strada è Ancora Lunga (ma Promettente!)

Cosa ci portiamo a casa da questo studio? Sicuramente, il feedback umano ha un potenziale enorme per rendere i sistemi di adattamento UI più efficaci, almeno per quanto riguarda le metriche di interazione diretta. L’approccio RLHF (Reinforcement Learning from Human Feedback) si conferma una direzione di ricerca molto valida.

Per noi ricercatori e sviluppatori, questo significa che vale la pena investire tempo e risorse per integrare meccanismi di feedback umano nei nostri sistemi adattivi. Tuttavia, dobbiamo anche essere consapevoli che migliorare i click e gli scroll non si traduce automaticamente in utenti più felici o che si sentono più “presi” dall’esperienza. C’è bisogno di ulteriore ricerca per capire come allineare meglio i modelli di ricompensa con le percezioni e le preferenze più ampie degli utenti.

Una delle sfide pratiche è come raccogliere questo feedback in modo scalabile e non invasivo. Magari con sondaggi integrati, prompt di valutazione brevi, o persino feedback implicito derivato dalle azioni dell’utente. E poi, come generalizzare? Forse creando modelli di preferenza per gruppi di utenti simili.

Un gruppo diversificato di persone che interagiscono con vari dispositivi (laptop, tablet, smartphone) le cui interfacce si stanno visibilmente adattando. L'ambiente è un moderno co-working space. Obiettivo zoom 24-35mm, luce naturale diffusa, profondità di campo per mantenere a fuoco sia le persone che gli schermi.

Dal punto di vista del design dell’interfaccia, è cruciale selezionare le giuste caratteristiche adattive e permettere agli utenti un periodo di “assestamento”. A volte, un cambiamento, anche se positivo, può inizialmente disorientare. Educare gli utenti su come e perché l’interfaccia si adatta potrebbe aiutare.

Per il futuro, vedo diverse direzioni:

  • Studi longitudinali: per vedere come l’esperienza cambia nel tempo.
  • Diversi domini e utenti: per generalizzare i risultati. È fondamentale includere partecipanti con background diversi, non solo studenti di informatica!
  • Esplorare altri algoritmi RL: MCTS è ottimo, ma ci sono altre opzioni.
  • Modelli HCI più ricchi: che integrino aspetti come il carico cognitivo o l’efficienza nel task.

Insomma, il campo dell’adattamento UI con RL e feedback umano è ancora giovane ma incredibilmente stimolante. I risultati del nostro studio, seppur preliminari, ci incoraggiano a continuare su questa strada. L’obiettivo finale è creare sistemi che non solo funzionino bene, ma che siano anche un piacere da usare, plasmati sulle esigenze di ognuno di noi. E chissà, magari un giorno le interfacce che “ci capiscono al volo” non saranno più un’eccezione, ma la norma!

Se siete curiosi di approfondire, il nostro ambiente OpenAI Gym per l’adattamento UI con RL e tutti i dati dell’esperimento sono disponibili pubblicamente. La ricerca è condivisione!

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *