L’AI Impara a Gustare: Rivoluzionare il Riconoscimento del Cibo nelle Foto, con un Assaggio di Asia Centrale!
Ciao a tutti! Sono qui per raccontarvi di qualcosa che mi appassiona tantissimo: come la tecnologia, in particolare l’intelligenza artificiale (AI), sta cambiando il modo in cui interagiamo con il cibo, persino guardando una semplice foto! Vi siete mai chiesti cosa c’è *davvero* nel vostro piatto, magari per tenere traccia della dieta o semplicemente per curiosità? Beh, oggi vi porto in un viaggio affascinante che unisce high-tech e sapori esotici, con un focus speciale sulla cucina dell’Asia Centrale.
Perché il Cibo è una Sfida (anche per l’AI)
Partiamo da un dato di fatto: le malattie legate all’alimentazione sono un problema serio, specialmente in alcune aree del mondo come l’Asia Centrale. Pensate a quanto sarebbe utile avere uno strumento che, guardando una foto del vostro pasto, vi dica cosa state mangiando e magari vi aiuti a monitorare la vostra dieta in modo semplice e veloce. Qui entra in gioco il “food computing”, un campo di ricerca che sfrutta la computer vision (la capacità dei computer di “vedere” e interpretare immagini) e l’AI per analizzare il cibo.
Grazie agli smartphone e ai social media, scattiamo foto di cibo continuamente. Queste immagini sono una miniera d’oro di informazioni! Potrebbero rivoluzionare i diari alimentari digitali, rendere più smart ristoranti e supermercati, e persino aiutarci a gestire meglio gli sprechi. Ma c’è un “ma”: per insegnare a un’AI a riconoscere il cibo serve un’enorme quantità di dati, ovvero un dataset di immagini di alta qualità.
Finora, molti dataset esistenti si concentravano su cucine occidentali, mediterranee o cinesi. E spesso affrontavano un problema più semplice: la *classificazione* di immagini con un solo piatto. Nella vita reale, però, i nostri pasti sono spesso un mix di cose diverse sullo stesso piatto! È qui che le cose si complicano. Serve un’AI capace non solo di dire “questo è cibo”, ma di *localizzare* e *identificare* ogni singolo elemento in una scena complessa.
La Nostra Missione: Mappare i Sapori dell’Asia Centrale
Ed è qui che entriamo in gioco noi! Ci siamo resi conto che mancava uno strumento specifico per la ricca e variegata cucina dell’Asia Centrale. Così, abbiamo deciso di rimboccarci le maniche e creare qualcosa di nuovo: il Central Asian Food Scenes Dataset (CAFSD). Non è un dataset qualsiasi: parliamo di ben 21.306 immagini che coprono 239 categorie di cibo diverse, con quasi 70.000 “istanze” (cioè singoli cibi identificati e localizzati).
Questo dataset non include solo piatti tradizionali dell’Asia Centrale, ma anche cibi occidentali, mediterranei, cinesi e altri che sono comunemente consumati nella regione. Perché? Perché volevamo creare uno strumento davvero utile nella vita quotidiana delle persone lì. Abbiamo raccolto immagini da diverse fonti: ricerche sul web (Google, YouTube, Yandex), foto scattate da noi nella vita di tutti i giorni e persino frame estratti da video. Abbiamo poi ripulito tutto, eliminando duplicati e immagini di bassa qualità. Il risultato è un dataset variegato, con foto scattate in condizioni di luce diverse, con dispositivi diversi, proprio come nella realtà!

Insegnare all’AI a “Vedere” il Cibo: Deep Learning in Azione
Ok, abbiamo il dataset. E ora? Ora dobbiamo usarlo per addestrare un modello di intelligenza artificiale. Per un compito complesso come l’identificazione e la localizzazione di più cibi in una singola immagine (chiamato object detection), abbiamo bisogno di tecniche avanzate di deep learning.
Abbiamo scelto di usare un algoritmo allo stato dell’arte chiamato YOLO (You Only Look Once), in particolare la sua versione più recente, YOLOv8. Perché YOLO? Perché è incredibilmente veloce e preciso. In pratica, analizza l’immagine una sola volta (da qui il nome) per trovare tutti gli oggetti e identificarli. Immaginatelo come un detective super efficiente che scansiona la scena del crimine e individua tutte le prove in un colpo solo!
Per “addestrare” il nostro modello, gli abbiamo mostrato migliaia di immagini del CAFSD, dicendogli esattamente dove si trovava ogni cibo (usando dei “rettangoli di delimitazione” o bounding box) e che tipo di cibo era. È un processo di apprendimento supervisionato: il modello impara dalle coppie input (immagine) – output (etichette e coordinate). Abbiamo sperimentato con diverse versioni di YOLOv8, da quelle più piccole e veloci a quelle più grandi e potenti.
I risultati? Davvero incoraggianti! Il modello più performante, YOLOv8xl (la versione extra-large), ha raggiunto un punteggio mAP50 di 0.677 sul nostro set di test. Cosa significa? In parole semplici, è piuttosto bravo a identificare correttamente la maggior parte dei cibi nelle immagini, anche quando ce ne sono diversi insieme. E lo fa in pochi millisecondi! Questo apre le porte a fantastiche applicazioni in tempo reale.
Le Sfide del Mestiere: Non è Tutto Oro Quello che Luccica (o Piatto che Fuma!)
Riconoscere il cibo è più difficile di quanto sembri. Pensateci:
- Variabilità intra-classe: Lo stesso piatto (es. uno shashlik) può apparire molto diverso a seconda di come è cucinato, degli ingredienti specifici, dell’angolazione della foto, della luce…
- Somiglianza inter-classe: Alcuni cibi diversi possono assomigliarsi molto.
- Scene complesse: Spesso i piatti sono su sfondi “disordinati”, o ci sono molti cibi diversi vicini tra loro, magari sovrapposti.
Abbiamo notato, ad esempio, che le prestazioni del modello tendono a diminuire leggermente quando ci sono tantissimi cibi diversi nella stessa immagine. D’altra parte, quando il cibo occupa una porzione più grande dell’immagine (bounding box più grande), il modello tende ad essere più preciso, probabilmente perché ha più dettagli su cui basarsi. Superare queste sfide è fondamentale per creare strumenti davvero affidabili.

Un Assaggio di Asia Centrale nel Dataset
Una delle cose più belle di questo progetto è stata immergerci nella cultura culinaria dell’Asia Centrale. Storicamente, la dieta si basa molto su carne e latticini, eredità dello stile di vita nomade. Nel nostro dataset, questo si riflette:
- Carne: Tra le classi più rappresentate ci sono lo shashlik di manzo/agnello e di pollo, le salsicce, e piatti nazionali come il kazy-karta (a base di carne di cavallo). Questi dati rispecchiano le statistiche di consumo locali, dove manzo e cavallo sono molto popolari.
- Latticini: Troviamo tantissime immagini di smetana (simile alla panna acida), kurt (formaggio duro fatto con latte acido essiccato), kymyz (latte di giumenta fermentato, una bevanda tradizionale ricca di probiotici), airan (altra bevanda fermentata), irimshik (cagliata essiccata) e suzbe (un tipo di cagliata). Questi prodotti non sono solo cibo, ma parte integrante della cultura e della tradizione locale, spesso con benefici nutrizionali notevoli.
Avere un dataset che cattura questa specificità è cruciale per sviluppare applicazioni che siano davvero rilevanti per la popolazione locale.

Cosa ci Riserva il Futuro?
Questo è solo l’inizio! Il nostro dataset CAFSD è un passo importante, ma abbiamo grandi piani per il futuro. Vogliamo:
- Integrare il modello che abbiamo addestrato in un’applicazione per smartphone facile da usare.
- Arricchire il dataset aggiungendo informazioni sui valori nutrizionali (macronutrienti) per ogni cibo, per poter offrire consigli dietetici più dettagliati.
- Espandere ulteriormente il dataset usando database locali sulla composizione degli alimenti, per essere ancora più precisi e rappresentativi.
- Creare un “codebook” completo per collegare sistematicamente ogni immagine ai suoi dati nutrizionali.
L’obiettivo finale è fornire strumenti che aiutino le persone a migliorare la propria consapevolezza alimentare (nutrition literacy), a fare scelte più sane e, in definitiva, a ridurre l’impatto delle malattie legate alla dieta. Crediamo che la tecnologia, usata nel modo giusto, possa davvero fare la differenza per la salute pubblica, l’agricoltura e l’intero sistema alimentare, non solo in Asia Centrale, ma potenzialmente ovunque. È un campo in continua evoluzione, e non vedo l’ora di vedere cosa riusciremo a fare dopo!
Fonte: Springer
