Immagine subacquea fotorealistica e affascinante che mostra un fascio di luce proveniente da un ROV che illumina diversi organismi marini (stelle marine, ricci) su un fondale scuro, con bolle d'aria che salgono. Prime lens, 35mm, depth of field, duotone blu scuro e ciano.

Vediamo Sott’acqua Come Mai Prima: La Nuova IA che Scova Oggetti Marini a Tutte le Scale

Ciao a tutti! Sono qui per raccontarvi di una sfida affascinante che ci appassiona da tempo: riuscire a vedere chiaramente sott’acqua. Immaginate le profondità marine: un mondo misterioso, pieno di vita, ma anche incredibilmente difficile da esplorare visivamente. La luce si comporta in modo strano laggiù, l’acqua può essere torbida, e gli organismi che vogliamo studiare spesso si mimetizzano o sono piccolissimi. Riconoscerli con precisione è fondamentale per capire la biodiversità, monitorare l’ambiente e gestire le risorse marine, ma è una vera impresa!

Le tecnologie tradizionali, come le fotocamere montate su robot sottomarini (ROV e AUV), ci hanno aiutato a raccogliere tantissime immagini, ma la qualità spesso lascia a desiderare. E qui entra in gioco l’intelligenza artificiale, o meglio, il deep learning. Negli ultimi anni, l’IA ha fatto passi da gigante nel riconoscimento di oggetti nelle immagini normali, ma l’ambiente subacqueo presenta sfide uniche.

La Sfida: Un Mondo Sottomarino Sfocato e Complesso

Quali sono esattamente i problemi? Beh, prima di tutto c’è l’attenuazione della luce: più si scende in profondità, meno luce arriva, e certi colori (come il rosso) spariscono del tutto, lasciando immagini bluastre o verdastre con poco contrasto. Poi c’è lo scattering, la luce che viene deviata dalle particelle sospese nell’acqua, creando una sorta di foschia che sfoca i dettagli. E ovviamente, la torbidità dell’acqua stessa.

Aggiungete a questo il fatto che gli oggetti che cerchiamo possono avere dimensioni molto diverse. Nel dataset che abbiamo usato per i nostri esperimenti, chiamato DUO (Detecting Underwater Objects), ci sono immagini con risoluzioni che variano tantissimo (da piccole a enormi, 4K!) e una marea di oggetti, tra cui ricci di mare (echinus), cetrioli di mare (holothurian), stelle marine (starfish) e capesante (scallop). La cosa interessante è che quasi il 28% di questi oggetti sono classificati come “piccoli” rispetto all’area dell’immagine. E i modelli di IA tradizionali, anche quelli bravissimi come la famiglia YOLO, fanno spesso fatica con le cose piccole o con oggetti a scale molto diverse tra loro.

Pensate a una capasanta seminascosta nella sabbia o a un piccolo riccio in lontananza in un’immagine un po’ sfocata. Riconoscerli è difficile per un computer! Serviva qualcosa di più.

Fotografia subacquea realistica di un fondale marino complesso con coralli e alghe, acqua leggermente torbida, luce solare filtrante dalla superficie. Macro lens, 80mm, high detail, controlled lighting.

La Nostra Arma Segreta: UWA-PRB al Microscopio

Ed è qui che entra in gioco il nostro lavoro. Ci siamo detti: possiamo creare un modello di intelligenza artificiale specificamente pensato per queste condizioni difficili? La risposta è sì, e lo abbiamo chiamato UWA-PRB (Underwater Attention-Parallel Residual Bi-fusion feature pyramid network). Un nome un po’ lungo, lo so, ma cerchiamo di capire cosa fa in parole povere.

Siamo partiti da una base solida, l’architettura di YOLOv7, ma abbiamo apportato alcune modifiche chiave:

  • Migliore Fusione delle Informazioni a Diverse Scale (PRB-FPN): Abbiamo sostituito una parte della rete originale (chiamata PA-FPN) con una più avanzata, la Parallel Residual Bi-fusion Feature Pyramid Network (PRB-FPN). Immaginatela come un modo più intelligente per mettere insieme le informazioni catturate a diversi livelli di dettaglio (oggetti grandi visti da “lontano” e dettagli piccoli visti da “vicino”), mantenendo più informazioni utili sia per gli oggetti grandi che per quelli piccoli.
  • Attenzione Selettiva (SPPCSPC_ATT): Abbiamo introdotto un modulo speciale chiamato SPPCSPC_ATT. Questo modulo utilizza un meccanismo di “attenzione” (ispirato a come funziona il nostro cervello!), in particolare uno chiamato SimAM, che è leggero ed efficiente (non aggiunge parametri extra!). In pratica, aiuta il modello a concentrarsi sulle parti più importanti dell’immagine a diverse scale, migliorando la rappresentazione delle caratteristiche degli oggetti. È come dare al nostro modello degli occhiali speciali che mettono a fuoco meglio!
  • Una Metrica di Errore Più Adatta (NIoU Loss): Il modo in cui un modello impara è cercando di minimizzare un “errore” (loss function). L’errore standard (basato sull’Intersection over Union – IoU) funziona bene per oggetti medio-grandi, ma non è l’ideale per quelli piccoli. Noi abbiamo introdotto la Normalized Wasserstein Distance (NWD) all’interno della loss function, creando la NIoU loss. La NWD tratta i rettangoli di rilevamento (bounding box) non come semplici scatole, ma come distribuzioni gaussiane bidimensionali. Questo approccio cattura meglio le sfumature di forma e posizione, rendendo il modello più sensibile e flessibile, specialmente nel localizzare con precisione oggetti piccoli o di forma irregolare. Abbiamo anche trovato un “bilanciamento” ottimale (un rapporto di 0.6 nel nostro caso) tra IoU e NWD per ottenere il meglio da entrambi i mondi.

Visualizzazione astratta di una rete neurale complessa con nodi luminosi interconnessi su sfondo blu scuro, che simboleggia il flusso di dati e i meccanismi di attenzione. Wide-angle lens, 15mm, sharp focus.

Insomma, abbiamo “potenziato” un’architettura già valida con strumenti specifici per affrontare le sfide del rilevamento multi-scala in ambienti subacquei complessi.

Alla Prova dei Fatti: I Risultati Sperimentali

Le idee sono belle, ma funzionano? Per scoprirlo, abbiamo messo alla prova il nostro UWA-PRB sul dataset DUO e lo abbiamo confrontato con altri modelli all’avanguardia, inclusi diversi membri della famiglia YOLO (YOLOv7, YOLOv8, YOLOv10, e persino il recente YOLOv11) e altri approcci specifici come PRB-FPN-ELAN.

I risultati sono stati davvero incoraggianti! Il nostro UWA-PRB ha ottenuto una precisione media (mAP) del 88.8% (con soglia IoU 0.5) e del 68.3% (con soglia IoU variabile 0.5-0.95). Questo rappresenta un miglioramento significativo, dal 2.5% al 9% in più rispetto ai modelli di base. Non solo, abbiamo raggiunto una precisione dell’85.5%, un richiamo (recall) dell’82.9% e un F1-score (una metrica che bilancia precisione e richiamo) di 0.8417. Mica male, eh?

Ma la cosa forse più entusiasmante è come si è comportato con le diverse dimensioni degli oggetti. Abbiamo analizzato le performance separatamente per oggetti piccoli, medi e grandi. Ebbene, UWA-PRB ha mostrato miglioramenti notevoli soprattutto sui piccoli oggetti (F1-score di 0.598) e sui medi (F1-score di 0.744), mantenendo prestazioni eccellenti anche sui grandi (F1-score di 0.865). Questo dimostra che le nostre modifiche, in particolare la NIoU loss e il modulo SPPCSPC_ATT, hanno davvero aiutato a gestire la variabilità di scala.

Grafico a barre fotorealistico che mostra un confronto di performance (mAP) tra diversi modelli di IA (barre colorate), con una barra evidenziata per il modello UWA-PRB che supera le altre. Still life, 100mm Macro lens, high detail, precise focusing.

Un altro risultato di cui andiamo fieri riguarda le capesante (scallops). Questa era la specie meno rappresentata nel dataset, e quindi la più difficile da riconoscere per i modelli. Molti modelli faticavano o fallivano completamente. Il nostro UWA-PRB, invece, ha ottenuto i risultati migliori in assoluto per questa classe, con un mAP@0.5 del 79.4%, superando anche il più recente YOLOv11s di oltre 6 punti percentuali! Questo dimostra la robustezza del nostro approccio anche con dati scarsi o classi difficili.

Abbiamo anche testato UWA-PRB su un altro dataset, chiamato RUOD (Rethinking General Underwater Object Detection), che è noto per essere ancora più vario e complesso. Anche qui, il nostro modello ha mostrato prestazioni competitive, superando YOLOv11n e YOLOv11s in termini di precisione e F1-score, confermando la sua capacità di generalizzare bene.

Abbiamo verificato anche l’efficienza: nonostante le modifiche, il modello riesce a processare un’immagine in circa 23 millisecondi (su una GPU RTX2080), il che lo rende utilizzabile per applicazioni quasi in tempo reale.

Immagine subacquea fotorealistica che mostra un robot sottomarino (ROV) con una telecamera puntata verso un gruppo di organismi marini su un fondale sabbioso, inclusa una capasanta (scallop) chiaramente visibile. Telephoto zoom, 150mm, action tracking.

Perché Tutto Questo è Importante?

Ok, abbiamo un modello figo che funziona bene, ma a cosa serve concretamente? Le applicazioni sono tantissime e potenzialmente rivoluzionarie:

  • Studi sulla Biodiversità Marina: Possiamo usare UWA-PRB per analizzare ore e ore di video subacquei, contando e classificando specie in modo automatico e molto più rapido di quanto potrebbe fare un essere umano. Questo ci aiuta a capire meglio la distribuzione delle specie, la salute degli ecosistemi e l’impatto dei cambiamenti climatici.
  • Valutazioni Ambientali: Monitorare la presenza di specie specifiche (come le capesante, che sono indicatori di certe condizioni ambientali) o rilevare rifiuti sottomarini diventa più facile e accurato.
  • Gestione degli Ecosistemi Marini: Avere dati precisi sulla popolazione di pesci o altre risorse marine è cruciale per una pesca sostenibile e per la creazione di aree marine protette efficaci.
  • Acquacoltura: Si può monitorare la salute e il comportamento dei pesci negli allevamenti, migliorando l’efficienza e prevenendo malattie.

In pratica, stiamo fornendo uno strumento più potente agli scienziati marini, ai gestori ambientali e a chiunque lavori per proteggere e capire i nostri oceani.

Paesaggio sottomarino ampio e diversificato che mostra varie condizioni di visibilità e tipi di fondale (sabbioso, roccioso, con alghe), simboleggiando la varietà del dataset RUOD. Wide-angle, 12mm, sharp focus, long exposure per acqua liscia.

Uno Sguardo al Futuro

Siamo molto soddisfatti dei risultati, ma come in ogni ricerca, ci sono sempre margini di miglioramento. Una limitazione è che abbiamo usato principalmente il dataset DUO; testare il modello su ancora più dataset diversi aiuterebbe a garantirne la generalizzabilità. Inoltre, a causa di limiti hardware, non abbiamo potuto esplorare l’uso di modelli pre-addestrati ancora più grandi o tecniche di ottimizzazione più spinte che potrebbero migliorare ulteriormente le prestazioni o l’efficienza.

Per il futuro, pensiamo di esplorare l’integrazione di architetture basate su Transformer (un altro tipo di IA molto potente) o tecniche di apprendimento contrastivo per gestire scene ancora più complesse con occlusioni dense. Ottimizzare ulteriormente il modello per farlo girare su dispositivi a bordo di ROV/AUV con risorse limitate è un’altra direzione importante.

Ma per ora, siamo entusiasti di aver sviluppato UWA-PRB, un passo avanti significativo nel vedere e capire il mondo nascosto sotto le onde. Speriamo che questo lavoro possa contribuire a svelare altri segreti degli abissi e ad aiutarci a proteggere questo ambiente prezioso. Grazie per avermi seguito in questo tuffo nella tecnologia sottomarina!

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *