Immagine fotorealistica di un braccio robotico con una telecamera high-tech che ispeziona da vicino una superficie metallica liscia alla ricerca di micro-difetti. Illuminazione da studio controllata, obiettivo macro 100mm, alta definizione, focus preciso sull'interfaccia tra robot e superficie, rappresentando il controllo qualità automatizzato.

AI e Difetti Invisibili: Quanto sono Tosti i Metodi Non Supervisionati Quando i Dati non sono Perfetti?

Ciao a tutti! Oggi voglio parlarvi di una sfida affascinante nel mondo dell’intelligenza artificiale applicata al controllo qualità: il rilevamento di anomalie superficiali nelle immagini. Immaginate di dover controllare migliaia di pezzi prodotti in una fabbrica. Ogni piccolo difetto, anche quasi invisibile, potrebbe compromettere la sicurezza o la durata del prodotto finale. È un compito cruciale!

La Sfida dei Dati Mancanti e l’Ascesa del Non Supervisionato

Tradizionalmente, per addestrare un’IA a riconoscere questi difetti (le “anomalie”), si usano metodi “supervisionati”. Funzionano alla grande, ma hanno un grosso limite: richiedono tantissime immagini di esempio, sia normali che difettose, tutte etichettate con precisione a livello di pixel. E qui casca l’asino: i difetti sono spesso rari, e etichettarli è un lavoro lungo e costoso.

Ecco perché negli ultimi anni hanno preso piede i metodi non supervisionati. La loro genialità? Imparano cosa è “normale” guardando solo immagini senza difetti. L’idea è che, quando poi vedranno un’immagine con un’anomalia, la riconosceranno come “strana” perché non corrisponde a ciò che hanno imparato. Niente più bisogno di etichettare i difetti! Sembra perfetto, no?

Il Piccolo, Grande Problema: E se i Dati “Normali” non Fossero Davvero Normali?

C’è un presupposto fondamentale dietro questi metodi non supervisionati: che il set di dati usato per l’addestramento (il training set) sia perfettamente “pulito”, cioè contenga solo ed esclusivamente immagini normali. Ma siamo onesti, nella pratica questo è quasi impossibile. Perché?

  • Errori umani: A volte i difetti sono così piccoli o subdoli che sfuggono anche all’occhio umano più attento durante la raccolta dati.
  • Ambiguità: Cosa è esattamente un difetto? Una micro-imperfezione è accettabile, ma una leggermente più grande no? Questa linea sottile può portare a includere campioni “borderline” o leggermente anomali nel training set “normale”.

Quindi, la domanda sorge spontanea: cosa succede a questi brillanti metodi non supervisionati quando, nel mondo reale, il loro training set è “inquinato” da qualche immagine anomala che non doveva esserci? Quanto sono robusti a questa contaminazione? Questa è una domanda cruciale per chiunque voglia usare queste tecniche in produzione.

Misurare la Robustezza: Nasce l’ADR

Per rispondere a questa domanda, nel lavoro di ricerca che sto esplorando, ci siamo posti l’obiettivo di misurare proprio questa robustezza. Abbiamo proposto una metrica specifica, che abbiamo chiamato Anomaly Detection Robustness (ADR). In parole povere, l’ADR ci dice quanto le prestazioni di un metodo calano quando nel suo set di addestramento vengono inserite percentuali crescenti di immagini anomale, rispetto a quando si allena su dati perfettamente puliti.

Come funziona? Prendiamo un metodo, lo alleniamo prima su dati 100% normali (il nostro riferimento, o baseline). Poi lo rialleniamo più volte, introducendo ogni volta una piccola percentuale di immagini anomale (ad esempio, 1%, 5%, 15%, 25%). Misuriamo le prestazioni (usando una metrica comune come l’AUC, che non dipende da soglie specifiche) in ogni scenario e calcoliamo l’ADR come la media delle prestazioni “contaminate” rispetto alla baseline. Un ADR di 1.0 significa che il metodo se ne frega della contaminazione, le sue prestazioni non cambiano. Un ADR di 0.9 indica un calo medio del 10%. Semplice ed efficace!

Immagine macro fotorealistica, obiettivo 90mm, di una superficie tessile industriale con un piccolo strappo quasi invisibile. Illuminazione laterale controllata per evidenziare la texture e il difetto. Alta definizione, focus selettivo.

Sotto la Lente: 7 Metodi e 4 Dataset alla Prova

Armati della nostra metrica ADR, abbiamo messo sotto torchio sette metodi non supervisionati molto noti e rappresentativi di diversi approcci:

  • Metodi basati sulla ricostruzione (come RIAD, che impara a ricostruire parti mancanti di immagini normali).
  • Metodi basati su embedding (come Gaussian AD, PaDiM, PatchCore, CFLOW-AD, che usano reti neurali pre-allenate per estrarre caratteristiche significative e poi modellano la “normalità” di queste caratteristiche).
  • Metodi discriminativi (come CutPaste e DRÆM, che imparano a distinguere tra immagini normali e immagini con difetti *sintetici* creati artificialmente).

Per testarli, abbiamo usato quattro dataset diversi, scelti per la loro varietà:

  • KolektorSDD2: Superfici industriali reali con difetti vari per forma, dimensione e colore.
  • SensumSODF: Immagini di capsule farmaceutiche (softgel) con difetti sulla loro superficie.
  • DAGM: Superfici generate artificialmente con difetti anch’essi artificiali (abbiamo usato una classe specifica).
  • BSData: Immagini di viti a ricircolo di sfere con difetti localizzati in aree specifiche.

Questa diversità ci ha permesso di valutare la robustezza in scenari differenti, da difetti reali e variegati a difetti più uniformi e artificiali. Abbiamo preparato i set di addestramento con 0%, 1%, 5%, 15% e 25% di immagini anomale, mantenendo le stesse dimensioni per tutti i test e ripetendo gli esperimenti più volte con campionamenti casuali per assicurarci che i risultati fossero solidi.

I Risultati: Sorprese e Conferme sulla Robustezza

E allora, come se la sono cavata i nostri metodi? Ecco le scoperte principali:

La buona notizia: In generale, quasi tutti i metodi analizzati mostrano una discreta robustezza a basse percentuali di contaminazione (tipo 1% o 5%). Questo è rassicurante, perché piccole quantità di “sporco” nei dati sono quasi inevitabili.

I Campioni di Robustezza: Tre metodi si sono distinti per la loro capacità di mantenere prestazioni elevate anche con percentuali di anomalie più alte (fino al 25%): PaDiM, Gaussian AD e CFLOW-AD. Cosa hanno in comune? Tutti e tre utilizzano feature estratte da reti neurali pre-addestrate su dataset enormi come ImageNet. Sembra che queste feature “generaliste” siano meno influenzate dalla presenza di poche anomalie specifiche nel training set. PaDiM, in particolare, è risultato il più robusto in assoluto, con un ADR medio di 0.986 (cioè un calo medio di performance inferiore all’1.5%!).

Chi Soffre di Più: All’altro estremo, i metodi meno robusti sono stati DRÆM (ADR 0.865) e CutPaste (ADR 0.879). Questi metodi imparano le feature da zero o si basano su compiti specifici (come riconoscere difetti artificiali). Sembra che questo li renda più sensibili: DRÆM, ad esempio, ha una componente che impara a riconoscere i difetti, e se vede troppi difetti “veri” nel training, finisce per imparare a considerarli “normali”, perdendo efficacia. Anche PatchCore, pur usando feature pre-addestrate, ha mostrato una robustezza inferiore (ADR 0.917). Il suo tallone d’Achille sembra essere il modo in cui seleziona le feature “rappresentative” della normalità (il “coreset”): le feature anomale, essendo molto diverse, tendono ad essere selezionate, “inquinando” il modello di normalità.

RIAD si colloca a metà classifica (ADR 0.944), dimostrando che anche un approccio basato sulla ricostruzione e che impara da zero può avere una buona robustezza, forse perché i difetti reali sono spesso troppo vari e complessi per essere ricostruiti perfettamente dalla rete.

Grafico a dispersione fotorealistico visualizzato su uno schermo high-tech, che mostra la relazione tra robustezza (ADR) sull'asse X e performance di base (AUC) sull'asse Y per diversi metodi di AI. Punti dati colorati rappresentano i metodi. Stile visualizzazione dati moderno.

Anche il Tipo di Dato Conta

Abbiamo notato anche che la robustezza dipende dal dataset. Sul dataset DAGM, con i suoi difetti artificiali molto simili tra loro, i metodi hanno mostrato in media la robustezza più bassa. È come se, vedendo spesso lo stesso tipo di anomalia (anche se non doveva esserci), i modelli imparassero più facilmente a considerarla “normale”. Al contrario, su dataset con anomalie più variegate (KolektorSDD2) o più simili all’aspetto normale (SensumSODF), la robustezza media è stata maggiore, anche se su SensumSODF le prestazioni di base erano già più basse perché i difetti erano intrinsecamente più difficili da rilevare.

Cosa ci Portiamo a Casa?

Questa esplorazione nel mondo “sporco” dei dati reali ci lascia con alcuni messaggi chiave. Primo, la robustezza alla contaminazione del training set è una caratteristica importante per i metodi di rilevamento anomalie non supervisionati, e andrebbe sempre valutata quando si propone un nuovo approccio. La nostra metrica ADR offre un modo semplice per farlo.

Secondo, è confortante scoprire che molti metodi attuali, specialmente quelli che sfruttano la potenza delle feature pre-addestrate, sono già abbastanza robusti da tollerare piccole percentuali di dati anomali, e alcuni reggono bene anche contaminazioni più significative. Questo li rende candidati più affidabili per le applicazioni reali.

Terzo, il tipo di anomalia e la sua distribuzione nel dataset influenzano la robustezza. Anomalie molto uniformi e concentrate potrebbero essere più problematiche.

In conclusione, il viaggio nel rilevamento delle anomalie continua. Capire come questi metodi si comportano non solo in laboratorio con dati perfetti, ma anche nelle condizioni più realistiche e “disordinate” del mondo reale, è fondamentale per costruire sistemi di intelligenza artificiale veramente affidabili ed efficaci. E la robustezza, amici miei, è sicuramente una delle stelle polari da seguire!

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *