Concetto astratto di sicurezza informatica e rilevamento frodi con carta di credito, visualizzazione di dati digitali e lucchetti stilizzati, obiettivo prime 35mm, profondità di campo, duotono blu e verde acqua.

Carte di Credito e IA: Scovare le Frodi Anche Senza Indizi (Grazie a SHAP e Autoencoder!)

Ciao a tutti! Oggi voglio parlarvi di una sfida davvero intrigante nel mondo dell’intelligenza artificiale e della finanza: come possiamo scovare le frodi con le carte di credito quando abbiamo montagne di dati, ma… nessuna etichetta che ci dica quali transazioni sono “buone” e quali “cattive”? Sembra un bel rompicapo, vero?

Il Grosso Problema dei Dati Senza Etichetta

Immaginate di avere accesso a milioni, magari miliardi, di transazioni con carta di credito. Un tesoro di informazioni! Però, c’è un “ma”. Spesso, questi enormi dataset non hanno le cosiddette “etichette di classe”. In pratica, nessuno ci ha detto quali sono le transazioni fraudolente e quali quelle legittime. Ottenere queste etichette è un lavoraccio: costa tempo, denaro e, diciamocelo, chi etichetta manualmente può sbagliare o essere incoerente. Si parla di “rumore” nelle etichette, che può mandare all’aria le prestazioni dei nostri modelli di machine learning.

Nel caso specifico delle frodi con carta di credito, la situazione è ancora più complessa. C’è il fattore privacy: non è che si possano dare in giro dati finanziari sensibili a chiunque per etichettarli. E poi c’è lo squilibrio delle classi (class imbalance): le frodi, per fortuna, sono rare rispetto alle transazioni normali. Questo squilibrio pazzesco (a volte meno di una frode ogni mille transazioni!) rende difficilissimo per gli algoritmi imparare a riconoscerle bene. È come cercare un ago in un pagliaio enorme!

L’Approccio “Unsupervised”: Lavorare al Buio (Ma con Intelligenza!)

Ecco dove entriamo in gioco noi con un approccio completamente unsupervised, cioè “non supervisionato”. Che significa? Significa che non abbiamo bisogno delle etichette preesistenti per far funzionare i nostri metodi. Questo risolve un sacco di problemi:

  • Privacy? Rispettata, perché non serve l’intervento umano diretto sui singoli dati per etichettare.
  • Costi e tempi? Ridotti drasticamente, perché automatizziamo il processo.

Certo, i modelli unsupervised a volte sono considerati meno performanti dei loro cugini “supervisionati” (quelli che usano le etichette). Ma è qui che la ricerca fa passi da gigante! Il nostro obiettivo? Creare etichette di alta qualità in modo automatico, anche partendo da dati “difficili”.

La Coppia Vincente: SHAP per Scegliere e Autoencoder per Etichettare

Per affrontare questa sfida, abbiamo combinato due strumenti potenti:

1. SHAP (SHapley Additive exPlanations) per la Selezione delle Feature: Immaginate le “feature” come le caratteristiche di ogni transazione (importo, ora, e altre variabili spesso anonimizzate). Non tutte sono ugualmente importanti per scovare una frode. SHAP ci aiuta a capire quali feature contano di più, anche senza sapere in anticipo quali transazioni sono fraudolente. È un po’ come dare un punteggio di importanza a ogni indizio sulla scena del crimine. Usando SHAP in modo unsupervised (lo applichiamo dopo aver addestrato un modello base come Isolation Forest, che non richiede etichette), possiamo “scremare” i dati, tenendo solo le feature più promettenti. Questo semplifica il lavoro successivo, riduce i costi computazionali e spesso migliora pure i risultati! Nel nostro studio, abbiamo provato a tenere le 10 e le 15 feature più importanti secondo SHAP, oltre a usarle tutte (29 nel nostro dataset, dopo aver tolto quella relativa all’orario, poco utile).

2. Autoencoder per Generare le Etichette: Una volta selezionate le feature migliori, entra in scena l’autoencoder. È un tipo di rete neurale che impara a “ricostruire” i dati che gli vengono dati in input. L’idea geniale è questa: l’autoencoder imparerà bene a ricostruire le transazioni normali (che sono tante e simili tra loro), mentre farà più fatica con le frodi (che sono poche e diverse). Misurando l'”errore di ricostruzione” per ogni transazione, possiamo stilare una classifica: quelle con errore più alto sono le più sospette, le più probabili candidate ad essere frodi! Stabiliamo una soglia (ad esempio, decidiamo che le prime P transazioni con errore più alto sono “frodi”) e voilà, abbiamo le nostre etichette generate automaticamente! Abbiamo anche aggiunto un piccolo trucco: per rendere la classe “frode” un po’ più varia, includiamo anche alcune transazioni che sono appena sotto la soglia. Abbiamo testato con P = 500, 1000 e 1500.

Visualizzazione astratta di una rete neurale autoencoder con strati di codifica e decodifica, nodi luminosi e connessioni su sfondo scuro, che simboleggia l'apprendimento non supervisionato, obiettivo grandangolare 20mm, lunga esposizione per scie luminose.

Mettiamo alla Prova il Metodo: Il Dataset delle Carte di Credito

Per vedere se la nostra idea funzionava, abbiamo usato un dataset molto conosciuto e pubblicamente disponibile (una rarità in questo campo!) sulle frodi con carta di credito. Contiene circa 284.000 transazioni europee, con feature anonimizzate tramite PCA (una tecnica statistica per ridurre la dimensionalità e proteggere la privacy). È un dataset perfetto perché è reale e presenta proprio le sfide di cui parlavamo: è grande, sbilanciato e le feature non sono immediatamente interpretabili.

Cosa abbiamo fatto?

  • Abbiamo preso il dataset originale.
  • Abbiamo usato SHAP (unsupervised) per creare due versioni ridotte: una con le top 15 feature e una con le top 10.
  • Su tutte e tre le versioni (10, 15, 29 feature), abbiamo applicato il nostro metodo basato su autoencoder per generare le etichette (provando P=500, 1000, 1500). Abbiamo ottenuto 9 set di dati etichettati artificialmente.
  • Importante: Le etichette originali del dataset (quelle vere) le abbiamo tenute da parte, nascoste! Le abbiamo usate SOLO alla fine, per valutare quanto fossero buone le etichette generate da noi.

Come Misurare la “Bontà” delle Etichette Generate?

Questa è la parte cruciale. Come capiamo se le etichette che abbiamo creato sono utili? Abbiamo fatto così:

  1. Abbiamo preso i nostri 9 dataset con le etichette generate.
  2. Su ciascuno, abbiamo addestrato dei classificatori supervisionati standard (Decision Tree, Random Forest, Logistic Regression, Multi-Layer Perceptron – una rete neurale). Questi modelli usano le etichette per imparare.
  3. Abbiamo poi testato questi modelli usando le etichette originali (quelle vere) per vedere quanto fossero bravi a distinguere le frodi reali.
  4. Abbiamo misurato le loro performance usando l’AUPRC (Area Under the Precision-Recall Curve). È una metrica particolarmente adatta per dati sbilanciati come i nostri. Più alto è il valore AUPRC (tra 0 e 1), migliori sono le performance, e quindi, indirettamente, migliore è la qualità delle etichette generate su cui i modelli hanno imparato.
  5. Infine, abbiamo confrontato i risultati ottenuti con un baseline unsupervised: l’Isolation Forest (IF). Questo è un algoritmo che cerca anomalie (le nostre frodi) senza bisogno di etichette. Abbiamo visto come si comportava l’IF sui dataset con 10, 15 e 29 feature e abbiamo confrontato il suo AUPRC con quello dei modelli addestrati sulle nostre etichette generate.

Abbiamo ripetuto tutto il processo più volte (5-fold cross-validation per 10 volte) per essere sicuri che i risultati fossero statisticamente solidi.

Primo piano di una mano che analizza grafici AUPRC su un tablet digitale, con curve che mostrano miglioramenti nelle prestazioni del rilevamento frodi, illuminazione da ufficio soffusa, obiettivo macro 60mm, alta definizione dei dettagli sullo schermo.

I Risultati? La Selezione delle Feature Fa la Differenza!

Ebbene, i risultati sono stati davvero incoraggianti! L’analisi statistica (ANOVA e test di Tukey HSD) ha parlato chiaro:

  • La selezione delle feature con SHAP funziona! Quasi sempre, usare un numero ridotto di feature (specialmente le top 15) ha portato a generare etichette di qualità significativamente migliore rispetto a usare tutte le feature. Lo abbiamo visto misurando l’AUPRC dei classificatori addestrati su queste etichette.
  • Le etichette generate battono il baseline. I classificatori addestrati sulle nostre etichette (sia con che senza selezione delle feature) hanno ottenuto performance AUPRC superiori rispetto all’Isolation Forest usato direttamente sui dati senza etichette. Questo dimostra che il nostro processo di etichettatura unsupervised aggiunge valore.
  • Top 15 sembra il punto giusto. Nella maggior parte dei casi, usare le 15 feature più importanti selezionate da SHAP ha dato i risultati migliori in termini di qualità delle etichette generate. Usarne solo 10 a volte era leggermente peggio, ma comunque quasi sempre meglio che usarle tutte e 29.
  • Anche il baseline migliora. È interessante notare che anche le performance dell’Isolation Forest (il nostro baseline) tendevano a migliorare leggermente quando veniva applicato sui dati con feature selezionate da SHAP.

In un caso (con la Logistic Regression), usare le top 15 feature ha dato risultati statisticamente simili a usare tutte le feature. Ma anche qui, poter ottenere la stessa performance usando quasi metà delle feature è un vantaggio enorme in termini di efficienza e semplicità del modello!

Conclusioni: Un Passo Avanti per l’IA nelle Frodi

Cosa ci portiamo a casa da questo lavoro? Che affrontare il problema dei dati non etichettati e sbilanciati nel rilevamento frodi è possibile, e che le tecniche unsupervised possono darci una grossa mano.

La combinazione di SHAP unsupervised per selezionare le feature più rilevanti e di un autoencoder per generare automaticamente le etichette si è dimostrata una strategia vincente per questo specifico dataset di frodi con carta di credito. Non solo abbiamo gestito l’assenza di etichette e il forte squilibrio, ma abbiamo anche dimostrato che la selezione intelligente delle feature migliora significativamente la qualità delle etichette che possiamo creare.

Questo apre strade interessanti: poter applicare modelli di machine learning potenti anche quando non si hanno etichette a disposizione, risparmiando tempo e denaro e rispettando la privacy. È un contributo, crediamo, significativo nel campo, e siamo curiosi di vedere come queste tecniche potranno essere applicate ad altri dataset e domini in futuro!

Concetto di sicurezza finanziaria futura: un lucchetto digitale olografico che protegge una carta di credito virtuale fluttuante, sfondo tecnologico astratto, obiettivo prime 50mm, effetto bokeh, duotono viola e ciano.

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *