Visualizzazione astratta del benchmarking dell'apprendimento auto-supervisionato: grafici di correlazione sovrapposti a una rete neurale stilizzata che analizza immagini diverse (animali, oggetti, paesaggi), simboleggiando la valutazione su vari dataset. Prime lens, 35mm, depth of field, colori vibranti.

Pre-training Auto-Supervisionato: Capiamo Davvero Come Valutarlo?

Ciao a tutti! Oggi voglio addentrarmi in un argomento che sta facendo faville nel mondo dell’intelligenza artificiale, in particolare nella Computer Vision: l’apprendimento auto-supervisionato (Self-Supervised Learning, o SSL). Sembra quasi magia: insegnare a un modello a capire il mondo delle immagini senza bisogno di etichette create dagli umani. Fantastico, vero? Ma come in tutte le cose belle, c’è un “ma”. Come facciamo a sapere se un modello addestrato in questo modo è davvero “bravo”? E soprattutto, sarà bravo anche quando lo metteremo alla prova su compiti e dati diversi da quelli usati per l’addestramento iniziale?

Ecco, è proprio di questo che voglio parlare oggi, basandomi su uno studio recente che ha cercato di fare un po’ di chiarezza su come valutiamo questi modelli SSL. Perché, diciamocelo, il modo in cui misuriamo i progressi finisce per guidare la ricerca stessa. Se usiamo metriche sbagliate o fuorvianti, rischiamo di andare nella direzione sbagliata!

Cos’è l’Apprendimento Auto-Supervisionato (SSL) e Perché è Utile?

In parole povere, l’SSL è una tecnica di machine learning dove la “supervisione” (cioè le informazioni che guidano l’apprendimento) viene estratta dai dati stessi. Niente etichette manuali, che spesso sono costose e difficili da ottenere in grandi quantità. Il trucco sta nel definire un “compito pretesto” (pretext task). Ad esempio, potremmo chiedere al modello di ricostruire parti mancanti di un’immagine, o di riconoscere se due versioni modificate della stessa immagine provengono dall’originale o da immagini diverse. Risolvendo questi compiti, il modello è costretto a imparare caratteristiche intrinseche e strutture presenti nei dati.

Il bello dell’SSL è che possiamo usare quantità enormi di dati non etichettati, che su internet abbondano! Questo pre-addestramento (pre-training) crea una base di conoscenza generale sull’aspetto delle immagini, che poi può essere sfruttata per vari compiti specifici (downstream tasks), spesso con molti meno dati etichettati rispetto a un addestramento da zero.

Quali sono queste applicazioni pratiche? Eccone alcune:

  • Apprendimento Supervisionato Migliorato: Pre-addestrare con SSL e poi affinare (fine-tuning) con dati etichettati sullo stesso dataset può dare risultati migliori rispetto all’addestramento supervisionato classico partendo da zero.
  • Transfer Learning: Pre-addestrare su un dataset enorme (tipo ImageNet) e poi fare fine-tuning su un dataset più piccolo e specifico (ad esempio, immagini mediche o foto naturalistiche). L’SSL spesso funziona meglio del pre-training supervisionato in questo scenario, perché impara caratteristiche più generali.
  • Apprendimento Semi-Supervisionato: Pre-addestrare su tanti dati non etichettati e poi fare fine-tuning su un piccolo sottoinsieme etichettato dello stesso dataset. Utilissimo quando i dati sono tanti ma etichettarli costa.
  • Compiti Non Supervisionati / Clustering: Usare il modello pre-addestrato per generare “embedding” (rappresentazioni numeriche compatte) delle immagini, che possono poi essere usate per raggruppare immagini simili (clustering) o per altri compiti senza ulteriore addestramento.

La Giungla dei Protocolli di Valutazione

Il problema è che valutare la “qualità” della rappresentazione imparata da un modello SSL non è semplice. Ci sono infiniti modi per farlo! La comunità scientifica ha sviluppato diversi protocolli, spesso basati sulla classificazione di immagini, che fungono da “proxy” per capire come il modello potrebbe comportarsi su compiti reali non ancora testati.

Vediamo i più comuni usati nello studio:

  • K-Nearest Neighbors (kNN): Si usa il modello pre-addestrato per generare gli embedding delle immagini del dataset di test. Poi, per classificare una nuova immagine, si cercano i suoi ‘k’ vicini più prossimi nello spazio degli embedding e si assegna la classe più frequente tra questi vicini. È veloce e non richiede addestramento aggiuntivo, ma può avere difficoltà con spazi ad alta dimensionalità.
  • Linear Probing (LP): Si “congela” il modello pre-addestrato (il backbone) e si addestra solo un classificatore lineare (un singolo strato fully-connected) sopra di esso per predire le classi del dataset di valutazione. L’idea è: se le classi sono separabili linearmente nello spazio degli embedding, la rappresentazione è buona.
  • End-to-end Fine-Tuning (FT): Simile al linear probing, ma qui si addestrano *tutti* i parametri del modello (o quasi) sul nuovo dataset etichettato. Questo permette alla rappresentazione di adattarsi meglio al compito specifico.
  • Few-Shot Fine-Tuning: Come il fine-tuning completo, ma usando solo una piccola percentuale dei dati etichettati disponibili (es. 1% o 10%). È più efficiente e simula scenari con pochi dati etichettati.

Esistono anche altri protocolli, come la valutazione su compiti di object detection, segmentazione semantica, ecc., ma lo studio si è concentrato su quelli basati sulla classificazione.

Illustrazione concettuale dell'apprendimento auto-supervisionato: una rete neurale stilizzata che analizza immagini senza etichette su uno schermo digitale, con nodi luminosi che rappresentano l'apprendimento delle caratteristiche. Macro lens, 85mm, high detail, controlled lighting, sfondo scuro.

La Domanda Cruciale: Le Metriche “In-Casa” Predicono il Successo “Fuori Casa”?

Eccoci al cuore della ricerca. Gli autori hanno preso 26 modelli pre-addestrati con diversi metodi SSL (sia discriminativi che generativi) e diverse architetture (ResNet-50 e ViT-B16), tutti pre-addestrati su ImageNet-1k. Hanno misurato le loro performance su ImageNet stesso (valutazione in-domain, ID) usando i protocolli visti sopra (kNN, LP, FT 100%, FT 10%, FT 1%). Poi, hanno fatto lo stesso su ben 11 dataset diversi (out-of-domain, OOD), che rappresentano vari tipi di “salto” rispetto a ImageNet (cambiamenti nelle categorie di oggetti, nello stile delle immagini, nella granularità dei dettagli).

L’obiettivo era capire: quanto bene le performance misurate su ImageNet (ID) riescono a predire la classifica (il ranking) dei modelli quando vengono valutati sugli altri dataset (OOD)?

I risultati sono stati illuminanti!

  • I migliori predittori medi: In media, su tutti i dataset OOD e le metriche OOD considerate, i protocolli di probing (Linear Probing e kNN) misurati su ImageNet (ID) sono risultati i migliori predittori generali del ranking OOD. Correlano molto bene tra loro, specialmente se si applica la normalizzazione degli embedding.
  • Prevedere il Transfer Learning (OOD Fine-Tuning): Se però ci interessa specificamente prevedere come si comporteranno i modelli in un compito di transfer learning classico (cioè OOD Fine-Tuning), allora i protocolli di few-shot fine-tuning (in particolare FT-10%) misurati su ImageNet (ID) sono risultati i predittori più affidabili del ranking. Questo è super interessante per chi vuole scegliere il miglior modello SSL pre-addestrato per un compito specifico!
  • Il Fine-Tuning completo (ID FT 100%) è meno predittivo: Sorprendentemente, il fine-tuning completo su ImageNet (ID FT 100%), che è una metrica molto usata, è risultato uno dei predittori meno affidabili del ranking OOD, specialmente per il fine-tuning OOD.

Affrontare i Cambiamenti di Dominio (Domain Shift)

Lo studio ha anche analizzato come si comportano le correlazioni in base al tipo di “salto” tra ImageNet e i dataset OOD. Hanno distinto tra:

  • Categorical Shift: Dataset con categorie di oggetti diverse da ImageNet (sia a grana grossa, tipo veicoli vs animali, sia a grana fine, tipo diverse specie di uccelli).
  • Style Shift: Dataset con le stesse categorie di ImageNet ma con stili diversi (es. disegni, schizzi – usando ImageNet-D).

Cosa hanno scoperto?

  • I protocolli di probing (ID kNN/LP) sono abbastanza robusti nel predire il ranking OOD kNN/LP quando c’è un categorical shift (sia fine che grosso), ma lo sono meno quando c’è uno style shift.
  • Il ranking del fine-tuning OOD è generalmente più difficile da predire, specialmente con lo style shift. Ancora una volta, i protocolli ID di probing e few-shot FT sono risultati predittori migliori del ranking OOD FT rispetto al protocollo ID FT 100%.
  • Non c’è una differenza significativa tra shift categoriali a grana fine e a grana grossa in termini di predittività.

Visualizzazione astratta di dati correlati: punti dati colorati su un grafico a dispersione che mostrano una forte correlazione positiva, rappresentando la relazione tra metriche di valutazione ID e OOD. Wide-angle lens, 20mm, sharp focus, colori vivaci su sfondo neutro.

Generativi vs Discriminativi: È Tutta Colpa del Backbone?

Un’ipotesi diffusa era che i metodi SSL generativi (come MAE, che ricostruiscono parti mascherate dell’immagine) imparassero rappresentazioni potenti ma non lineari, eccellendo nel fine-tuning ma meno nel linear probing. Al contrario, i metodi discriminativi (come SimCLR o MoCo, che imparano a distinguere tra campioni simili e diversi) sarebbero migliori nel linear probing grazie a feature più linearmente separabili.

Lo studio ha messo in discussione questa idea. Analizzando la relazione tra performance LP e FT su ImageNet, hanno notato che sì, i modelli generativi tendono ad avere un gap maggiore tra FT e LP. Tuttavia, molti di questi modelli usano architetture più recenti come i Vision Transformers (ViT) invece delle classiche CNN come ResNet. Confrontando direttamente modelli addestrati con lo stesso metodo SSL (DINO, MoCo-v3) ma con backbone diversi (ResNet-50 vs ViT-B/16), hanno visto che passare a ViT spostava il modello verso un rapporto FT/LP più alto.

La conclusione? Gran parte della differenza osservata tra metodi generativi e discriminativi potrebbe dipendere più dall’architettura del backbone (ViT vs ResNet) che dal tipo di metodo SSL in sé. Questo suggerisce che non dovremmo scartare il linear probing solo perché stiamo usando un metodo generativo.

L’Importanza della Normalizzazione

Un dettaglio tecnico ma cruciale emerso è l’impatto della normalizzazione degli embedding. Per i protocolli di probing (LP e kNN), normalizzare gli embedding prima del classificatore (con Batch Normalization per LP, o z-score per kNN) può aumentare significativamente l’accuratezza, specialmente per modelli le cui feature non sono già “scalate” (come MaskFeat o SimSiam nello studio). Per altri modelli (come DINO), l’effetto è minimo.

La cosa interessante è che questo effetto si vede anche nel fine-tuning, specialmente quando si lavora con dataset piccoli o si fa fine-tuning per poche epoche. Anche se si pensa che il fine-tuning risolva da solo i problemi di scala delle feature, se l’addestramento è breve, applicare la Batch Normalization prima del classificatore finale può dare un bel boost alle performance per certi modelli.

Confronto tra architetture di reti neurali: un chip processore stilizzato diviso a metà, una parte mostra una struttura CNN (ResNet) con pattern regolari e l'altra una struttura Transformer (ViT) con connessioni più complesse, illuminato da luci al neon blu e arancioni. Macro lens, 100mm, high detail, precise focusing, sfondo tecnologico.

Ranking vs Performance Assoluta

Un ultimo punto importante: le correlazioni studiate riguardano principalmente il ranking dei modelli. Cioè, se il modello A è migliore del modello B su ImageNet secondo la metrica X, sarà migliore anche sul dataset Y secondo la metrica Z? Lo studio mostra che, ad esempio, ID LP predice bene il ranking OOD LP.

Tuttavia, questo non significa che predica la performance assoluta. Un modello può avere un’ottima accuratezza ID e mantenere un buon ranking OOD, ma la sua accuratezza assoluta OOD potrebbe essere molto più bassa, a seconda di quanto è diverso il dataset OOD. Inoltre, hanno osservato casi in cui modelli con performance ID FT quasi identiche avevano performance OOD FT molto diverse. Quindi, le metriche ID sono utili per classificare i modelli, ma bisogna essere cauti nell’usarle per stimare il punteggio esatto che otterranno su un compito diverso.

Cosa Portiamo a Casa?

Questo studio ci dà indicazioni preziose su come navigare nel complesso mondo della valutazione SSL:

  • Se cerchiamo un predittore generale del ranking OOD, Linear Probing e kNN (con normalizzazione) misurati sul dataset di pre-training (ID) sono buone scelte, e sono relativamente economici da calcolare.
  • Se il nostro obiettivo è il transfer learning tramite fine-tuning su un nuovo dataset (OOD FT), allora il 10%-fine-tuning (ID FT-10%) sembra essere il miglior predittore del ranking.
  • Il fine-tuning completo (ID FT 100%), pur essendo popolare, non è il miglior predittore del ranking OOD, specialmente per il fine-tuning OOD.
  • Le differenze tra SSL generativi e discriminativi potrebbero essere più legate al backbone (ViT vs ResNet) che al metodo SSL stesso.
  • Non sottovalutiamo la normalizzazione degli embedding, può fare una grande differenza per probing e anche per fine-tuning su piccoli dataset.
  • Ricordiamoci che queste metriche predicono meglio il ranking relativo dei modelli che la loro performance assoluta OOD.

Insomma, scegliere la metrica giusta è fondamentale. L’SSL è una tecnologia potente con un grande impatto potenziale, anche sociale (riducendo la necessità di etichettatura umana e i bias associati). Assicurarci di valutarla nel modo corretto significa indirizzare meglio la ricerca e non sprecare risorse computazionali (e ambientali!). Certo, ci sono ancora limiti (lo studio non copre task come detection o segmentation), ma è un passo importante verso una comprensione più profonda di come funziona davvero l’AI che impara da sola.

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *