Occhi, Orecchie, Muso: Come l’IA Impara a Capire Dolore ed Emozioni negli Animali (e Come Possiamo Capire l’IA!)
Ciao a tutti! Oggi voglio parlarvi di qualcosa che mi appassiona tantissimo: come possiamo usare l’intelligenza artificiale (IA) non solo per interagire con gli animali, ma per *capire* davvero come si sentono. Sembra fantascienza, vero? Eppure, ci stiamo avvicinando sempre di più. Il campo si chiama “Animal Affective Computing”, ovvero l’informatica che si occupa degli stati affettivi (emozioni, umore, sentimenti) degli animali.
La Sfida: Entrare nella Testa dei Nostri Amici Animali
Capire se un gatto ha dolore, se un cavallo è stressato o se un cane è felice o frustrato è una sfida enorme. Loro non possono dircelo a parole! Però, proprio come noi, comunicano tantissimo con il linguaggio del corpo, specialmente con le espressioni facciali. Pensate alle orecchie tirate indietro di un gatto, agli occhi socchiusi di un cavallo sofferente, o al muso teso di un cane. Sono segnali preziosi.
Negli ultimi anni, grazie ai progressi nel tracciamento del movimento e nel riconoscimento delle posture animali (con strumenti come DeepLabCut e simili), abbiamo fatto passi da gigante nello studio del comportamento animale. Ora, la nuova frontiera è andare oltre il semplice “cosa fa” per capire “come si sente”. E qui entra in gioco l’IA, in particolare il deep learning.
Il Problema della “Scatola Nera”
I modelli di deep learning sono potentissimi. Imparano da soli a riconoscere pattern complessi nei dati (in questo caso, immagini o video di animali) e riescono a classificare stati come il dolore o diverse emozioni con una precisione sorprendente. Fantastico, no? Sì, ma c’è un “ma”. Questi modelli sono spesso delle “scatole nere” (black-box). Funzionano benissimo, ma è incredibilmente difficile capire *perché* prendono una certa decisione. Quali caratteristiche dell’immagine hanno guardato per dire “questo gatto ha dolore”? Si sono concentrati sugli occhi? Sulle orecchie? Sul muso? O su qualcos’altro di irrilevante, magari un’ombra sullo sfondo?
Questa mancanza di trasparenza è un problema serio. Come possono veterinari, etologi o ricercatori fidarsi ciecamente di un algoritmo se non capiscono il suo ragionamento? E come possiamo noi ricercatori imparare qualcosa di nuovo sul comportamento animale da questi modelli, se non ci spiegano cosa hanno “visto”? È qui che entra in gioco la spiegabilità dell’IA (eXplainable Artificial Intelligence, o XAI).
Aprire la Scatola Nera: Le Mappe di Salienza
Uno strumento molto usato nell’XAI sono le cosiddette mappe di salienza (o mappe di calore, heatmaps). Immaginatele come delle sovrimpressioni colorate sull’immagine originale, dove i colori più “caldi” (tipo rosso) indicano le aree che il modello ha ritenuto più importanti per la sua decisione. Tecniche come CAM, Grad-CAM e le sue varianti (Grad-CAM++, xGrad-CAM) generano queste mappe.
Il problema è che, finora, queste mappe sono state usate soprattutto in modo qualitativo. Si guarda la mappa e si dice “Ah, sembra che abbia guardato gli occhi”. Ma è un’interpretazione soggettiva. Diverse tecniche possono dare mappe diverse per la stessa immagine, e persone diverse possono interpretarle in modo differente. Manca un modo standardizzato e quantitativo per valutarle e confrontarle.

La Nostra Proposta: Un Framework Basato sui Segmenti
Ed è qui che entra in gioco il nostro lavoro. Abbiamo pensato: nel contesto animale, l’espressione delle emozioni è spesso legata a parti specifiche del corpo o del viso, quelle che gli esperti già usano per le loro valutazioni (pensate alle “grimace scales” per il dolore, che valutano proprio occhi, orecchie, muso…). Chiamiamo queste parti “segmenti semantici”.
La nostra idea è semplice ma potente: e se valutassimo le spiegazioni dell’IA (le mappe di salienza) in base a quanto “calore” concentrano proprio su questi segmenti biologicamente significativi?
Ecco come funziona il nostro framework, in breve:
- Prendiamo un classificatore IA già addestrato (che riconosce, ad esempio, il dolore nei gatti).
- Prendiamo un’immagine di un animale e la “segmentiamo”, identificando le parti importanti (occhi, orecchie, muso, ecc.). Abbiamo usato un modello chiamato YOLOv8, addestrato apposta per questo.
- Generiamo una mappa di salienza per quell’immagine usando una tecnica XAI (es. Grad-CAM++).
- Misuriamo quanto “calore” (importanza) della mappa cade all’interno di ciascun segmento (es. quanta importanza è attribuita agli occhi?).
- Normalizziamo questo valore rispetto alla dimensione del segmento. Perché? Perché un occhio è piccolo, un orecchio è più grande. Vogliamo capire l’importanza *relativa*, non assoluta. Se un segmento ottiene un “voto normalizzato” superiore a 1, significa che è stato considerato importante dal modello, più di quanto ci si aspetterebbe distribuendo l’importanza a caso.
- Calcoliamo un punteggio di qualità complessivo per ogni segmento, basato su quanto spesso è risultato importante (>1) e quanto alto era il suo voto medio quando era importante.
- Infine, calcoliamo una metrica di qualità della mappa di calore generale, mediando i punteggi di tutti i segmenti rilevanti. Questo ci permette di dire: “Ok, per questo compito (es. riconoscere il dolore nei gatti), la combinazione del classificatore X con la mappa di salienza Y produce spiegazioni di qualità migliore rispetto alla combinazione Z+W, perché si concentra di più sulle parti biologicamente rilevanti”.
Questo approccio ci dà due cose fantastiche:
- Spiegazioni Quantificabili: Possiamo dire con numeri alla mano “Per questo modello, gli occhi sono il segmento più importante (punteggio 8.5), seguiti dalle orecchie (punteggio 5.2) e poi dalla bocca (punteggio 3.1)”.
- Confronto Sistematico: Possiamo confrontare diversi modelli IA e diverse tecniche di mappe di salienza per vedere quali forniscono le spiegazioni più “sensate” dal punto di vista biologico.
Mettiamolo alla Prova: Gatti, Cavalli e Cani
Abbiamo testato il nostro framework su tre dataset diversi, già esistenti ma analizzati in modo nuovo:
- Dolore nei Gatti: Immagini di gatti prima e dopo un intervento chirurgico (ovarioisterectomia), etichettate come “dolore” o “assenza di dolore”. Segmenti di interesse: occhi, orecchie, bocca.
- Dolore nei Cavalli: Immagini di cavalli prima e dopo una castrazione di routine. Segmenti di interesse: occhi, orecchie, muso (muzzle).
- Emozioni nei Cani: Video di cani Labrador in stati emotivi positivi (attesa di cibo) o negativi (frustrazione per cibo inaccessibile). Segmenti di interesse: occhi, orecchie, bocca.
Per ciascun dataset, abbiamo addestrato diversi tipi di classificatori (ResNet50, Vision Transformer – ViT, ViT pre-addestrato con DINO, NesT-tiny) e abbiamo generato mappe di salienza con diverse tecniche (Grad-CAM, xGrad-CAM, Grad-CAM++), applicando anche una trasformazione matematica (power transform) per migliorare il contrasto delle mappe. Poi, abbiamo applicato il nostro framework per calcolare i punteggi di qualità.

Cosa Abbiamo Scoperto? Gli Occhi Hanno Sempre Ragione (per l’IA)!
I risultati sono stati affascinanti!
Performance dei Modelli: Prima di tutto, i nostri classificatori “base” hanno ottenuto ottimi risultati, spesso migliori di studi precedenti sugli stessi dataset, anche senza ottimizzazioni specifiche. Ad esempio, sul dataset dei gatti abbiamo raggiunto l’86% di accuratezza con un ViT+DINO, contro il 73% di uno studio precedente. Sul dataset dei cani, con NesT-tiny siamo arrivati all’89%. Questo ci ha dato una buona base di partenza per studiare la spiegabilità.
Qualità delle Spiegazioni: Quando abbiamo confrontato le combinazioni classificatore/mappa di salienza usando la nostra metrica di qualità, è emerso un pattern chiaro:
- La combinazione ViT (pre-addestrato con DINO) + Grad-CAM++ (soprattutto con la power transform) ha quasi sempre prodotto le mappe di calore di qualità migliore, cioè quelle più focalizzate sui segmenti biologicamente rilevanti (occhi, orecchie, muso).
- Anche il modello NesT-tiny si è comportato bene, mostrando una qualità costante con diverse tecniche di heatmap.
- Grad-CAM++ è risultata generalmente la tecnica migliore per generare mappe di salienza localizzate e precise per i nostri compiti. Curiosamente, xGrad-CAM, che in altri contesti funziona bene, nel nostro caso ha dato risultati meno buoni, sottolineando l’importanza di scegliere la tecnica giusta per il compito specifico.
L’Importanza dei Segmenti: E qui la scoperta più interessante. Analizzando quali segmenti erano ritenuti più importanti dai modelli migliori…
- Gli OCCHI sono risultati il segmento più significativo in TUTTI e tre i dataset (gatti, cavalli, cani)! Sembra che l’IA, proprio come spesso fanno gli umani, si concentri molto sullo sguardo per decifrare lo stato affettivo.
- L’importanza del secondo e terzo segmento variava: per gatti e cani, la bocca era al secondo posto, seguita dalle orecchie. Per i cavalli, invece, le orecchie erano seconde e il muso terzo.
- La combinazione ViT-DINO + Grad-CAM++ non solo dava la priorità agli occhi, ma lo faceva in modo molto più marcato rispetto ad altre combinazioni, specialmente dopo la power transform.
È interessante notare che uno studio precedente sui gatti aveva identificato la bocca come area più importante. Le differenze potrebbero dipendere da come i modelli sono stati addestrati o dal fatto che loro si concentravano su punti specifici (landmarks) mentre noi abbiamo analizzato interi segmenti.

Perché Tutto Questo è Importante?
Il nostro framework basato sui segmenti offre un modo nuovo e quantificabile per affrontare il problema della spiegabilità nell’informatica affettiva animale. Questo ha diverse implicazioni:
- Costruire Fiducia: Dimostrare che un modello IA basa le sue decisioni su segnali biologicamente rilevanti (come quelli usati dagli esperti umani, tipo le Grimace Scales) può aumentare enormemente la fiducia degli utenti finali (veterinari, ricercatori, allevatori).
- Validare o Scoprire: Possiamo usare il framework per verificare se l’IA sta usando gli indicatori che già conosciamo, oppure per scoprire nuovi segnali! Se il modello si concentra su un’area inaspettata, potrebbe indicarci un nuovo marcatore comportamentale da indagare.
- Migliorare i Modelli: Capire *cosa* guarda un modello ci aiuta a migliorarlo. Se vediamo che si concentra su aree irrilevanti, possiamo intervenire sull’addestramento o sull’architettura.
- Scegliere gli Strumenti Giusti: Il framework ci aiuta a selezionare la combinazione di classificatore e tecnica di heatmap che fornisce le spiegazioni più utili e affidabili per il nostro specifico problema.
In sostanza, stiamo cercando di costruire un ponte tra la potenza del deep learning e la conoscenza del dominio degli esperti di comportamento animale. Crediamo che questo approccio possa non solo rendere l’IA più trasparente e affidabile, ma anche accelerare la nostra comprensione del complesso mondo emotivo degli animali.
Il lavoro futuro potrebbe includere la collaborazione diretta con esperti per definire a priori l’importanza attesa di ciascun segmento, guidando così lo sviluppo di modelli ancora più allineati con la biologia e più facilmente interpretabili.
È un campo in rapida evoluzione, e sono entusiasta di vedere dove ci porterà questa fusione tra tecnologia e comprensione del mondo animale!
Fonte: Springer
