Fotografia ritratto, stile duotone blu e grigio, di un volto umano diviso a metà, una parte organica e pensierosa, l'altra composta da circuiti digitali luminosi che si intersecano, obiettivo 35mm, profondità di campo, sfondo scuro.

AI o Esperto Umano? Abbiamo Creato un ‘Simulatore’ per Capire Chi Decide Meglio (e Quando)

Ciao a tutti! Oggi voglio parlarvi di qualcosa che mi appassiona tantissimo: la collaborazione tra esseri umani e intelligenza artificiale (AI), specialmente quando si tratta di prendere decisioni importanti. Immaginatevi scenari ad alto rischio, come scovare frodi finanziarie dove un errore può costare i risparmi di una vita a qualcuno. Qui entra in gioco un concetto affascinante chiamato Learning to Defer (L2D).

Ma cos’è esattamente questo L2D?

In parole povere, si tratta di algoritmi intelligenti che cercano di capire quando è meglio affidare una decisione all’AI e quando invece è più saggio “passare la palla” a un esperto umano. L’idea di base è che umani e AI hanno punti di forza e di debolezza complementari. L’AI magari è velocissima ad analizzare montagne di dati, ma l’intuito e l’esperienza umana possono cogliere sfumature che alla macchina sfuggono. I sistemi L2D cercano proprio di orchestrare questa collaborazione, scegliendo di volta in volta il “giocatore” migliore – l’AI o uno degli esperti umani disponibili – per massimizzare l’accuratezza delle decisioni. Sembra fantastico, vero? E lo è, potenzialmente.

Il Grattacapo: Testare questi Sistemi è un Bel Problema

Qui casca l’asino, come si suol dire. Per addestrare e soprattutto per valutare se questi sistemi L2D funzionano davvero bene, avremmo bisogno di un sacco di dati: nello specifico, dovremmo sapere cosa avrebbe deciso *ogni* esperto umano per *ogni* singolo caso analizzato. Capite bene che ottenere questi dati nel mondo reale è costosissimo e complicato. Pensate a riunire un team di radiologi e fargli analizzare migliaia di lastre, tutti quanti! Impraticabile.

A causa di questa difficoltà, spesso la ricerca si è dovuta accontentare di usare simulazioni molto semplificate del comportamento umano. Magari si simula un esperto che è bravissimo su certi tipi di casi e totalmente a caso su altri. Utile fino a un certo punto, ma poco realistico. L’errore umano è più complesso, dipende dalle caratteristiche specifiche di ogni caso (quello che tecnicamente chiamiamo instance-dependent label noise o IDN), non solo dalla categoria generale. E poi c’è un altro dettaglio che spesso viene trascurato: gli esperti umani non sono macchine instancabili! Hanno una capacità di lavoro limitata, non possono analizzare infiniti casi in un giorno. Questo è un vincolo fondamentale nei sistemi reali.

Fotografia ritratto di un analista finanziario concentrato davanti a due schermi, uno mostra grafici complessi (AI), l'altro dati tabellari (umano), stile film noir, obiettivo 35mm, profondità di campo.

La Nostra Soluzione: Nasce OpenL2D

Sentivamo che c’era bisogno di qualcosa di più. Per questo abbiamo tirato su le maniche e creato OpenL2D. Cos’è? È un framework open-source che abbiamo progettato proprio per affrontare queste sfide. OpenL2D ci permette di:

  • Creare esperti sintetici (virtuali, se preferite) super personalizzabili. Possiamo decidere quanto le loro decisioni dipendano da specifiche caratteristiche dei dati, quanto siano influenzati da eventuali bias (pregiudizi, ad esempio verso certi attributi protetti come età o genere), e quale sia il loro livello medio di performance.
  • Simulare in modo realistico i limiti della capacità lavorativa umana. Possiamo impostare quanti casi ogni esperto può gestire in un certo lasso di tempo (come una giornata lavorativa).
  • Generare set di dati per l’addestramento che rispecchino la realtà, dove spesso per un dato caso abbiamo la valutazione di un solo esperto (a causa proprio dei limiti di capacità), e creare scenari di test che tengano conto della disponibilità e della capacità variabile degli esperti.

Insomma, OpenL2D ci dà gli strumenti per creare “campi di prova” molto più realistici per mettere alla frusta gli algoritmi L2D, sfidandoli con le complessità del mondo reale.

FiFAR: OpenL2D all’Opera nel Mondo delle Frodi Finanziarie

Per dimostrare le potenzialità di OpenL2D, l’abbiamo applicato a un dataset pubblico di rilevamento frodi nelle richieste di apertura di conti bancari. Il risultato è il dataset FiFAR (Financial Fraud Alert Review). Abbiamo generato un team di 50 analisti di frode sintetici, ognuno con le sue caratteristiche e il suo modo (realistico!) di prendere decisioni. Per ben 30.000 richieste di conto bancario segnalate come sospette da un modello AI (simulando uno scenario comune di “revisione allerta”), abbiamo la previsione di *tutti e 50* i nostri analisti virtuali.

E la cosa bella è che questi analisti sintetici non sono pupazzi senza spessore. Abbiamo verificato che mostrano comportamenti simili a quelli degli esperti reali studiati in letteratura: hanno livelli variabili di coerenza interna (intra-rater agreement – quanto un esperto è coerente con se stesso nel tempo), di accordo tra di loro (inter-rater agreement – quanto diversi esperti concordano sullo stesso caso), e persino bias simili a quelli osservati negli umani. Abbiamo anche confrontato il loro processo decisionale con dati (privati, purtroppo) di veri analisti di frode, trovando notevoli somiglianze.

Immagine macro di un chip di silicio con circuiti luminosi blu e verdi che si trasformano in profili stilizzati di persone, obiettivo macro 100mm, illuminazione controllata, alto dettaglio, sfondo nero.

Perché Tutta Questa Fatica per la Realisticità?

Potreste chiedervi: ma perché impazzire a creare esperti virtuali così complessi? La risposta sta nei risultati del nostro benchmark. Abbiamo preso alcuni algoritmi L2D esistenti (quelli che tengono conto dei vincoli di capacità) e li abbiamo addestrati e testati usando FiFAR, con i suoi scenari realistici e i suoi team di esperti virtuali diversi.

Ebbene, abbiamo scoperto che la classifica delle performance di questi algoritmi cambiava significativamente a seconda di quali “esperti” erano disponibili nel team! Questo è un risultato importantissimo: dimostra che valutare gli L2D con simulazioni troppo semplici può portare a conclusioni sbagliate. Un algoritmo che sembra il migliore con un team di esperti “sempliciotti” potrebbe non esserlo affatto quando si confronta con la varietà e la complessità del comportamento umano reale (o simulato realisticamente). Serve considerare la diversità degli esperti per fare un benchmarking serio.

Come Funziona la Magia di OpenL2D (in Breve)

Senza entrare in formule matematiche troppo complesse (che trovate nel paper originale, ovviamente!), l’idea è questa: per ogni esperto sintetico e per ogni caso, calcoliamo la probabilità che l’esperto commetta un errore (un falso positivo o un falso negativo). Questa probabilità non è fissa, ma dipende dalle caratteristiche del caso specifico (instance-dependent), da un modello AI ausiliario (se vogliamo simulare che l’esperto veda il suggerimento dell’AI), e da parametri specifici dell’esperto.

Questi parametri controllano:

  • La performance media dell’esperto (quanto è bravo in generale).
  • La sua “coerenza” o “affidabilità” (il parametro α: più è alto, più le sue decisioni sono determinate dalle caratteristiche del caso e meno dal caso).
  • La sua dipendenza da specifiche caratteristiche (possiamo fare in modo che un esperto sia più influenzato dall’età del cliente, ad esempio, simulando un bias).
  • La sua dipendenza dal suggerimento dell’AI.

Campionando questi parametri da distribuzioni che definiamo noi, possiamo creare un team di esperti con proprietà eterogenee ma realistiche.

Fotografia grandangolare di un moderno data center con file di server luminosi e cavi intricati, sovrapposta a un'immagine d'archivio in bianco e nero di analisti al lavoro con calcolatrici negli anni '60, obiettivo grandangolare 20mm, messa a fuoco nitida, esposizione lunga.

Validazione: I Nostri Esperti Virtuali Sembrano Veri?

Abbiamo dedicato molto tempo a validare FiFAR. Abbiamo confrontato le proprietà dei nostri 50 analisti virtuali con quanto riportato in letteratura su decision-making umano in contesti ad alto rischio (medicina, finanza, legge).

  • Coerenza Interna (Intra-rater agreement): Gli umani non sono perfettamente coerenti. Anche un esperto può valutare lo stesso caso in modo leggermente diverso in momenti diversi. I nostri esperti mostrano livelli di coerenza (misurati con il Kappa di Cohen) simili a quelli osservati in studi reali su compiti difficili, con valori variabili all’interno del team.
  • Accordo tra Esperti (Inter-rater agreement): Anche tra esperti dello stesso campo, l’accordo non è mai totale. Abbiamo misurato l’accordo tra coppie dei nostri esperti virtuali e abbiamo trovato una distribuzione di valori (sia Kappa che percentuale di accordo) paragonabile a quella riportata in studi su team di medici, ad esempio. Ci sono esperti che concordano molto e altri che la pensano diversamente, proprio come nella realtà.
  • Distribuzione delle Performance: Non tutti gli esperti sono ugualmente bravi. Nel nostro team FiFAR, le performance (misurate come costo atteso di errore) variano, ma sono tutte realisticamente migliori rispetto a una strategia banale (come rifiutare tutte le richieste sospette).
  • Bias e Ingiustizia (Unfairness): È noto che gli umani possono avere bias inconsci. Nel nostro dataset di frodi, i clienti più anziani (≥50 anni) sono leggermente più a rischio frode. Abbiamo modellato i nostri esperti in modo che mostrassero vari livelli di bias contro questo gruppo, misurando la “predictive equality”. Questo permette di usare FiFAR per studiare come i sistemi L2D impattano sulla fairness delle decisioni finali.
  • Dipendenza dalle Caratteristiche e dal Modello AI: Usando dati reali (privati) di analisti di frode, abbiamo analizzato quali fattori influenzano di più le loro decisioni. Abbiamo scoperto che il suggerimento del modello AI è molto importante, seguito da altre caratteristiche specifiche. Abbiamo configurato i nostri esperti sintetici per replicare un pattern simile di dipendenze.

Fotografia still life di una lente d'ingrandimento antica posata su un estratto conto bancario cartaceo con cifre evidenziate in rosso e grafici a torta, obiettivo macro 60mm, illuminazione drammatica laterale con ombre profonde, messa a fuoco precisa sui numeri.

Limiti e Prospettive Future

Ovviamente, OpenL2D e FiFAR non sono la panacea. Il framework attualmente funziona solo per problemi di classificazione binaria e con dati tabellari. Creare esperti realistici richiede una certa comprensione della letteratura sul decision-making umano. E, cosa fondamentale, i nostri esperti sintetici sono uno strumento per il benchmarking e la ricerca, non possono e non devono sostituire i dati reali e il coinvolgimento di veri esperti umani quando si costruisce un sistema da usare nel mondo reale. L’obiettivo è aiutare la comunità scientifica a sviluppare e testare approcci L2D migliori e più robusti, grazie a dati sintetici più fedeli alla realtà di quelli usati finora.

Speriamo che OpenL2D e FiFAR possano dare una bella spinta alla ricerca sulla collaborazione uomo-macchina, rendendo i test più rigorosi e aiutandoci a costruire sistemi AI che lavorino davvero insieme a noi, nel modo più efficace e sicuro possibile. È un campo in continua evoluzione, e strumenti come questi sono, secondo me, fondamentali per fare passi avanti concreti.

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *