AI o Esperto Umano? Abbiamo Creato un ‘Simulatore’ per Capire Chi Decide Meglio (e Quando)
Ciao a tutti! Oggi voglio parlarvi di qualcosa che mi appassiona tantissimo: la collaborazione tra esseri umani e intelligenza artificiale (AI), specialmente quando si tratta di prendere decisioni importanti. Immaginatevi scenari ad alto rischio, come scovare frodi finanziarie dove un errore può costare i risparmi di una vita a qualcuno. Qui entra in gioco un concetto affascinante chiamato Learning to Defer (L2D).
Ma cos’è esattamente questo L2D?
In parole povere, si tratta di algoritmi intelligenti che cercano di capire quando è meglio affidare una decisione all’AI e quando invece è più saggio “passare la palla” a un esperto umano. L’idea di base è che umani e AI hanno punti di forza e di debolezza complementari. L’AI magari è velocissima ad analizzare montagne di dati, ma l’intuito e l’esperienza umana possono cogliere sfumature che alla macchina sfuggono. I sistemi L2D cercano proprio di orchestrare questa collaborazione, scegliendo di volta in volta il “giocatore” migliore – l’AI o uno degli esperti umani disponibili – per massimizzare l’accuratezza delle decisioni. Sembra fantastico, vero? E lo è, potenzialmente.
Il Grattacapo: Testare questi Sistemi è un Bel Problema
Qui casca l’asino, come si suol dire. Per addestrare e soprattutto per valutare se questi sistemi L2D funzionano davvero bene, avremmo bisogno di un sacco di dati: nello specifico, dovremmo sapere cosa avrebbe deciso *ogni* esperto umano per *ogni* singolo caso analizzato. Capite bene che ottenere questi dati nel mondo reale è costosissimo e complicato. Pensate a riunire un team di radiologi e fargli analizzare migliaia di lastre, tutti quanti! Impraticabile.
A causa di questa difficoltà, spesso la ricerca si è dovuta accontentare di usare simulazioni molto semplificate del comportamento umano. Magari si simula un esperto che è bravissimo su certi tipi di casi e totalmente a caso su altri. Utile fino a un certo punto, ma poco realistico. L’errore umano è più complesso, dipende dalle caratteristiche specifiche di ogni caso (quello che tecnicamente chiamiamo instance-dependent label noise o IDN), non solo dalla categoria generale. E poi c’è un altro dettaglio che spesso viene trascurato: gli esperti umani non sono macchine instancabili! Hanno una capacità di lavoro limitata, non possono analizzare infiniti casi in un giorno. Questo è un vincolo fondamentale nei sistemi reali.

La Nostra Soluzione: Nasce OpenL2D
Sentivamo che c’era bisogno di qualcosa di più. Per questo abbiamo tirato su le maniche e creato OpenL2D. Cos’è? È un framework open-source che abbiamo progettato proprio per affrontare queste sfide. OpenL2D ci permette di:
- Creare esperti sintetici (virtuali, se preferite) super personalizzabili. Possiamo decidere quanto le loro decisioni dipendano da specifiche caratteristiche dei dati, quanto siano influenzati da eventuali bias (pregiudizi, ad esempio verso certi attributi protetti come età o genere), e quale sia il loro livello medio di performance.
- Simulare in modo realistico i limiti della capacità lavorativa umana. Possiamo impostare quanti casi ogni esperto può gestire in un certo lasso di tempo (come una giornata lavorativa).
- Generare set di dati per l’addestramento che rispecchino la realtà, dove spesso per un dato caso abbiamo la valutazione di un solo esperto (a causa proprio dei limiti di capacità), e creare scenari di test che tengano conto della disponibilità e della capacità variabile degli esperti.
Insomma, OpenL2D ci dà gli strumenti per creare “campi di prova” molto più realistici per mettere alla frusta gli algoritmi L2D, sfidandoli con le complessità del mondo reale.
FiFAR: OpenL2D all’Opera nel Mondo delle Frodi Finanziarie
Per dimostrare le potenzialità di OpenL2D, l’abbiamo applicato a un dataset pubblico di rilevamento frodi nelle richieste di apertura di conti bancari. Il risultato è il dataset FiFAR (Financial Fraud Alert Review). Abbiamo generato un team di 50 analisti di frode sintetici, ognuno con le sue caratteristiche e il suo modo (realistico!) di prendere decisioni. Per ben 30.000 richieste di conto bancario segnalate come sospette da un modello AI (simulando uno scenario comune di “revisione allerta”), abbiamo la previsione di *tutti e 50* i nostri analisti virtuali.
E la cosa bella è che questi analisti sintetici non sono pupazzi senza spessore. Abbiamo verificato che mostrano comportamenti simili a quelli degli esperti reali studiati in letteratura: hanno livelli variabili di coerenza interna (intra-rater agreement – quanto un esperto è coerente con se stesso nel tempo), di accordo tra di loro (inter-rater agreement – quanto diversi esperti concordano sullo stesso caso), e persino bias simili a quelli osservati negli umani. Abbiamo anche confrontato il loro processo decisionale con dati (privati, purtroppo) di veri analisti di frode, trovando notevoli somiglianze.

Perché Tutta Questa Fatica per la Realisticità?
Potreste chiedervi: ma perché impazzire a creare esperti virtuali così complessi? La risposta sta nei risultati del nostro benchmark. Abbiamo preso alcuni algoritmi L2D esistenti (quelli che tengono conto dei vincoli di capacità) e li abbiamo addestrati e testati usando FiFAR, con i suoi scenari realistici e i suoi team di esperti virtuali diversi.
Ebbene, abbiamo scoperto che la classifica delle performance di questi algoritmi cambiava significativamente a seconda di quali “esperti” erano disponibili nel team! Questo è un risultato importantissimo: dimostra che valutare gli L2D con simulazioni troppo semplici può portare a conclusioni sbagliate. Un algoritmo che sembra il migliore con un team di esperti “sempliciotti” potrebbe non esserlo affatto quando si confronta con la varietà e la complessità del comportamento umano reale (o simulato realisticamente). Serve considerare la diversità degli esperti per fare un benchmarking serio.
Come Funziona la Magia di OpenL2D (in Breve)
Senza entrare in formule matematiche troppo complesse (che trovate nel paper originale, ovviamente!), l’idea è questa: per ogni esperto sintetico e per ogni caso, calcoliamo la probabilità che l’esperto commetta un errore (un falso positivo o un falso negativo). Questa probabilità non è fissa, ma dipende dalle caratteristiche del caso specifico (instance-dependent), da un modello AI ausiliario (se vogliamo simulare che l’esperto veda il suggerimento dell’AI), e da parametri specifici dell’esperto.
Questi parametri controllano:
- La performance media dell’esperto (quanto è bravo in generale).
- La sua “coerenza” o “affidabilità” (il parametro α: più è alto, più le sue decisioni sono determinate dalle caratteristiche del caso e meno dal caso).
- La sua dipendenza da specifiche caratteristiche (possiamo fare in modo che un esperto sia più influenzato dall’età del cliente, ad esempio, simulando un bias).
- La sua dipendenza dal suggerimento dell’AI.
Campionando questi parametri da distribuzioni che definiamo noi, possiamo creare un team di esperti con proprietà eterogenee ma realistiche.

Validazione: I Nostri Esperti Virtuali Sembrano Veri?
Abbiamo dedicato molto tempo a validare FiFAR. Abbiamo confrontato le proprietà dei nostri 50 analisti virtuali con quanto riportato in letteratura su decision-making umano in contesti ad alto rischio (medicina, finanza, legge).
- Coerenza Interna (Intra-rater agreement): Gli umani non sono perfettamente coerenti. Anche un esperto può valutare lo stesso caso in modo leggermente diverso in momenti diversi. I nostri esperti mostrano livelli di coerenza (misurati con il Kappa di Cohen) simili a quelli osservati in studi reali su compiti difficili, con valori variabili all’interno del team.
- Accordo tra Esperti (Inter-rater agreement): Anche tra esperti dello stesso campo, l’accordo non è mai totale. Abbiamo misurato l’accordo tra coppie dei nostri esperti virtuali e abbiamo trovato una distribuzione di valori (sia Kappa che percentuale di accordo) paragonabile a quella riportata in studi su team di medici, ad esempio. Ci sono esperti che concordano molto e altri che la pensano diversamente, proprio come nella realtà.
- Distribuzione delle Performance: Non tutti gli esperti sono ugualmente bravi. Nel nostro team FiFAR, le performance (misurate come costo atteso di errore) variano, ma sono tutte realisticamente migliori rispetto a una strategia banale (come rifiutare tutte le richieste sospette).
- Bias e Ingiustizia (Unfairness): È noto che gli umani possono avere bias inconsci. Nel nostro dataset di frodi, i clienti più anziani (≥50 anni) sono leggermente più a rischio frode. Abbiamo modellato i nostri esperti in modo che mostrassero vari livelli di bias contro questo gruppo, misurando la “predictive equality”. Questo permette di usare FiFAR per studiare come i sistemi L2D impattano sulla fairness delle decisioni finali.
- Dipendenza dalle Caratteristiche e dal Modello AI: Usando dati reali (privati) di analisti di frode, abbiamo analizzato quali fattori influenzano di più le loro decisioni. Abbiamo scoperto che il suggerimento del modello AI è molto importante, seguito da altre caratteristiche specifiche. Abbiamo configurato i nostri esperti sintetici per replicare un pattern simile di dipendenze.

Limiti e Prospettive Future
Ovviamente, OpenL2D e FiFAR non sono la panacea. Il framework attualmente funziona solo per problemi di classificazione binaria e con dati tabellari. Creare esperti realistici richiede una certa comprensione della letteratura sul decision-making umano. E, cosa fondamentale, i nostri esperti sintetici sono uno strumento per il benchmarking e la ricerca, non possono e non devono sostituire i dati reali e il coinvolgimento di veri esperti umani quando si costruisce un sistema da usare nel mondo reale. L’obiettivo è aiutare la comunità scientifica a sviluppare e testare approcci L2D migliori e più robusti, grazie a dati sintetici più fedeli alla realtà di quelli usati finora.
Speriamo che OpenL2D e FiFAR possano dare una bella spinta alla ricerca sulla collaborazione uomo-macchina, rendendo i test più rigorosi e aiutandoci a costruire sistemi AI che lavorino davvero insieme a noi, nel modo più efficace e sicuro possibile. È un campo in continua evoluzione, e strumenti come questi sono, secondo me, fondamentali per fare passi avanti concreti.
Fonte: Springer
