Immagine satellitare Sentinel-2 ad alta risoluzione che mostra un mosaico di campi agricoli europei con diverse colture in vari stadi di crescita, colori vividi. Obiettivo simulato da satellite, alta risoluzione, dettagli nitidi del terreno, luce solare diretta, stile fotorealistico.

EuroCropsML: Il Nuovo Super-Dataset per l’IA che Riconosce le Colture in Europa (Anche con Pochi Dati!)

Ragazzi, parliamoci chiaro: sapere cosa cresce nei campi d’Europa è una cosa seria. Non parliamo solo di curiosità botanica, ma di sicurezza alimentare, uno degli obiettivi di sviluppo sostenibile (SDG) fissati dalle Nazioni Unite. Con miliardi di ettari di terreno agricolo nel mondo, capire come monitorare le colture è diventato un campo di battaglia affascinante per l’intelligenza artificiale e il telerilevamento.

Negli ultimi anni, grazie alle immagini satellitari sempre più disponibili e ai progressi dell’IA, abbiamo visto nascere diversi dataset per addestrare modelli capaci di classificare le colture. Pensate a ZueriCrop in Svizzera, BreizhCrops in Bretagna, Pastis sempre in Francia… ce ne sono diversi. Ma, diciamocelo, spesso questi dataset avevano dei limiti.

Il Problema dei Vecchi Dataset

Molti dei dataset esistenti coprivano aree geografiche ristrette, magari dentro un solo paese. Spesso avevano poche etichette per le colture (a volte solo “coltura sì/coltura no”) o un numero limitato di appezzamenti agricoli. Questo rendeva difficile confrontare davvero le performance degli algoritmi di machine learning (ML) e, soprattutto, sviluppare modelli capaci di “imparare” da una regione e applicare quella conoscenza altrove, magari dove i dati scarseggiano. È qui che entra in gioco il concetto di transfer learning e, ancora più intrigante, il few-shot learning.

Il few-shot learning è una specie di superpotere per l’IA: le permette di imparare a fare bene un compito anche con pochissimi esempi. Immaginate quanto sarebbe utile in agricoltura: usare i dati dettagliati di un paese ben documentato per migliorare la classificazione in un altro paese dove magari abbiamo solo una manciata di informazioni, magari con climi e colture diverse!

Ecco EuroCropsML: La Svolta per l’Agricoltura Europea

Ed è qui che vi presento EuroCropsML! Non è solo un altro dataset, ma il primo dataset di serie temporali da telerilevamento pensato specificamente per fare da *benchmark* (cioè da metro di paragone) per algoritmi di classificazione delle colture *few-shot* a livello transnazionale in Europa. L’obiettivo? Spingere l’innovazione algoritmica e rendere finalmente confrontabili le ricerche.

Cosa c’è dentro questo tesoro?

  • Ben 706.683 punti dati etichettati, sparsi in diverse regioni europee.
  • Copre la bellezza di 176 classi di colture diverse, grazie alla tassonomia gerarchica armonizzata HCAT (Hierarchical Crop and Agriculture Taxonomy) derivata dal progetto open-source EuroCrops. Questo significa che possiamo distinguere non solo grano da mais, ma anche diverse varietà all’interno della stessa famiglia!
  • Ogni punto dato è una serie temporale dettagliata per l’anno 2021, basata sui dati del satellite Sentinel-2 L1C. In pratica, per ogni appezzamento, abbiamo l’evoluzione delle sue caratteristiche spettrali nel tempo (fino a 216 osservazioni!), catturando il ciclo di crescita delle piante.
  • Utilizziamo i valori mediani dei pixel per ogni appezzamento, un modo robusto per rappresentare l’intera area.
  • Include coordinate geospaziali precise.
  • È pubblicamente disponibile su Zenodo!

Fotografia aerea di campi coltivati diversificati in Europa, alcuni verdi brillanti, altri appena arati, sotto un cielo parzialmente nuvoloso. Obiettivo grandangolare 24mm, luce naturale del giorno, messa a fuoco nitida, stile fotorealistico.

Perché Estonia, Lettonia e Portogallo?

Per creare EuroCropsML, abbiamo selezionato tre “Regioni di Interesse” (ROI) iniziali: Estonia, Lettonia e Portogallo. La scelta non è casuale. Estonia e Lettonia sono vicine, con climi e pratiche agricole simili. Il Portogallo, invece, si trova in una zona climatica diversa, con vegetazione e coltivazioni differenti. Questo ci permette di testare gli algoritmi sia in scenari di trasferimento “facile” (tra regioni simili) sia “difficile” (tra regioni diverse).

Un altro aspetto realistico che il dataset cattura è l’alto squilibrio tra le classi. Ad esempio, la classe “pascolo/prato/erba” è enormemente più comune delle altre (circa il 45% del totale!). Questo è una sfida tipica per gli algoritmi di ML nel mondo reale.

Come Nasce un Dato di EuroCropsML

Mettere insieme un dataset del genere non è una passeggiata. Il processo si può dividere in due fasi principali: acquisizione dati e pre-elaborazione.

Abbiamo preso i dati di riferimento di EuroCrops (le geometrie degli appezzamenti e le etichette delle colture dichiarate dagli agricoltori per il 2021) e li abbiamo allineati con le immagini satellitari Sentinel-2 dello stesso anno. Per ogni appezzamento, abbiamo raccolto tutte le immagini Sentinel-2 disponibili nel corso del 2021.

Poi, per ogni immagine e per ciascuna delle 13 bande spettrali di Sentinel-2, abbiamo “ritagliato” l’immagine sulla forma dell’appezzamento e calcolato il valore mediano dei pixel al suo interno. Il risultato è una serie temporale multi-spettrale per ogni singolo campo.

Infine, abbiamo fatto un po’ di pulizia. La fase cruciale è stata la rimozione delle nuvole. Le nuvole sono il nemico numero uno delle immagini satellitari ottiche! Abbiamo usato un approccio basato sulla classificazione delle scene per identificare e scartare le osservazioni troppo nuvolose, migliorando la qualità e l’affidabilità dei dati per l’addestramento dei modelli. Abbiamo anche associato ogni appezzamento alla sua regione NUTS (Nomenclatura delle Unità Territoriali per la Statistica) per una migliore analisi geografica.

Pronti per il Benchmark: I Compiti Predefiniti

La vera forza di EuroCropsML sta nel facilitare la ricerca sul trasferimento di conoscenza. Per questo, abbiamo già preparato degli “split” del dataset, cioè delle suddivisioni pronte all’uso per addestrare e valutare i modelli in scenari specifici:

  1. Lettonia → Estonia (LV → EE): Si pre-addestra il modello solo sui dati della Lettonia e poi lo si affina (fine-tuning) e valuta sui dati dell’Estonia.
  2. Lettonia + Portogallo → Estonia (LV + PT → EE): Si pre-addestra usando i dati sia della Lettonia che del Portogallo, e poi si affina e valuta sempre sull’Estonia.

Questi scenari permettono di vedere come se la cava un algoritmo nel trasferire conoscenza tra regioni simili (LV→EE) e diverse (coinvolgendo PT). Inoltre, per simulare la scarsità di dati nel mondo reale (il cuore del few-shot learning!), per la fase di fine-tuning in Estonia abbiamo creato sottoinsiemi con un numero limitato di esempi per classe: 1, 5, 10, 20, 100, 200 e 500 campioni per classe (o meno se non ce ne sono abbastanza). Questo permette di testare quanto velocemente e con quanti pochi dati un modello riesce ad adattarsi a una nuova regione.

Schermata stilizzata di un computer che mostra grafici di serie temporali NDVI e codice di machine learning sovrapposto a un'immagine satellitare di campi agricoli. Illuminazione controllata da studio, dettagli elevati, stile tech-futuristico ma fotorealistico.

Dove Trovare i Dati e Come Usarli

Tutto il dataset EuroCropsML (versione 11 al momento della scrittura) è ospitato su Zenodo. Lo trovate in tre formati:

  • Dati grezzi: Le serie temporali Sentinel-2 L1C complete, per chi vuole fare la propria pre-elaborazione.
  • Dati pre-elaborati: Il dataset pronto all’uso per il ML, dopo la rimozione delle nuvole e altre pulizie.
  • Split predefiniti: I file che definiscono le suddivisioni per i task di benchmark few-shot e transfer learning.

L’organizzazione è pensata per essere espandibile, magari aggiungendo altri paesi in futuro!

Validazione e un Assaggio delle Potenzialità

Ci siamo assicurati che i dati fossero di buona qualità. Ad esempio, abbiamo controllato l’andamento dell’NDVI (Normalized Difference Vegetation Index), un indicatore della salute e della crescita delle piante, per diverse colture. L’andamento che abbiamo osservato corrisponde a quello che ci si aspetta biologicamente (es. picchi durante la fioritura). Abbiamo anche verificato visivamente l’efficacia della rimozione delle nuvole.

Per darvi un’idea di come usare EuroCropsML, abbiamo fatto un esperimento preliminare usando un’architettura standard (un Transformer). Abbiamo pre-addestrato il modello sugli scenari LV→EE e LV+PT→EE e poi l’abbiamo affinato sui dati estoni con i diversi setup few-shot (da 1 a 500 campioni). I risultati mostrano che il pre-addestramento aiuta (specialmente quello solo sulla Lettonia, data la sua somiglianza con l’Estonia), ma anche che il compito è impegnativo. Le accuratezze non sono altissime, specialmente con pochissimi campioni, il che rende EuroCropsML un banco di prova eccellente per confrontare davvero la robustezza e l’efficacia di diversi algoritmi di ML.

In Conclusione

Insomma, EuroCropsML non è solo un’altra raccolta di dati. È uno strumento potente, pensato per spingere i confini della ricerca nell’applicazione dell’IA all’agricoltura europea, con un focus specifico sulle sfide del transfer learning e del few-shot learning. È complesso, realistico e pronto per essere messo alla prova. Se vi occupate di machine learning, telerilevamento o agricoltura di precisione, vi invito caldamente a dargli un’occhiata e a usarlo per sviluppare la prossima generazione di algoritmi!

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *