Occhi Artificiali sulla Città: Sveliamo la Percezione Urbana con VGG-16 e CBAM
Ciao a tutti! Oggi voglio portarvi con me in un viaggio affascinante nel cuore delle nostre città, ma visto attraverso lenti decisamente speciali: quelle dell’intelligenza artificiale. Sapete, le città stanno crescendo a un ritmo pazzesco, e capire come le viviamo, come percepiamo gli spazi intorno a noi – la bellezza di una piazza, la sicurezza di una strada, il comfort di un parco – è diventato fondamentale. Non si tratta solo di mattoni e cemento, ma di emozioni, sensazioni, benessere.
La Sfida: Capire l’Anima Urbana
Tradizionalmente, valutare questi aspetti era un lavoro lungo, spesso soggettivo. Ma se potessimo insegnare a una macchina a “vedere” e “sentire” la città come facciamo noi, o quasi? Immaginate di poter analizzare migliaia di immagini di strade, piazze, quartieri per capire cosa li rende piacevoli, vivibili, o al contrario, cosa non funziona. Qui entra in gioco la magia del deep learning. Negli ultimi anni, abbiamo fatto passi da gigante nell’usare l’IA per analizzare immagini urbane, superando i vecchi metodi qualitativi e guadagnando in efficienza e oggettività. Ci sono stati tentativi interessanti, combinando analisi spaziale, algoritmi per ottimizzare l’uso del suolo, persino eye-tracking per vedere dove cade il nostro sguardo. Ma c’era ancora strada da fare, specialmente nel gestire la complessità e la diversità degli spazi urbani, nel capire come diversi elementi (edifici, verde, strade) interagiscono per creare quella specifica “sensazione” di un luogo. Le soluzioni esistenti faticavano un po’ con le sfumature, con la diversa importanza che i dettagli assumono a seconda del contesto.
La Nostra Proposta: Due Modelli Intelligenti per Decifrare la Città
Ed è qui che siamo entrati in gioco noi. Abbiamo pensato: perché non creare degli strumenti specifici, super potenti, per affrontare queste sfide? Così sono nati due “cervelli” artificiali:
- AEMP-Net (Attention-Enhanced Multi-Scale Perception Network): Il nostro “esperto di percezioni”. Il suo compito è guardare un’immagine urbana e capire gli attributi percettivi: è bella? È sicura? È confortevole? Pulita? Interessante?
- DAES-Net (Dynamic Attention-Enhanced Segmentation Network): Il nostro “analista strutturale”. Questo modello prende un’immagine e la scompone nei suoi elementi fondamentali: qui c’è una strada, lì un edificio, là del verde, ecco i pedoni, il cielo…
L’idea innovativa? Non solo usare tecniche avanzate, ma combinarle in modo intelligente.
AEMP-Net: Insegnare all’AI a “Sentire” la Città
Per AEMP-Net, abbiamo preso ispirazione dalle reti neurali “gemelle” (Siamese CNN). Immaginatele come due investigatori che guardano due immagini diverse e ne confrontano le caratteristiche per capire somiglianze e differenze sottili. Questo è perfetto per cogliere le sfumature della percezione urbana! Come “occhi” per questi investigatori, abbiamo scelto VGG-16, una rete neurale nota per la sua capacità di vedere i dettagli, sia piccoli che grandi. Ma non bastava. Abbiamo aggiunto un meccanismo di “attenzione” speciale, chiamato CBAM (Convolutional Block Attention Module). Pensatelo come un evidenziatore: aiuta la rete a concentrarsi sulle parti più importanti dell’immagine, quelle che davvero influenzano la nostra percezione. Mettendo tutto insieme e allenando il modello a classificare (es. “bello” vs “non bello”) e ordinare (es. “più confortevole di…”) le immagini, AEMP-Net ha iniziato a “sentire” la città.

DAES-Net: Scomporre la Scena Urbana pezzo per pezzo
Per analizzare la struttura fisica della città, siamo partiti da una solida base chiamata SegNet, un’architettura brava a identificare e delineare oggetti in un’immagine (segmentazione). È come se disegnasse i contorni di tutto ciò che vede. Ma volevamo di più. Le scene urbane sono complesse, piene di dettagli, a volte confuse. Per questo, abbiamo potenziato SegNet con dei moduli di attenzione dinamica. Cosa fanno? Sia quando la rete “guarda” l’immagine per capirne il contenuto generale (fase di codifica), sia quando “ricostruisce” i dettagli per creare la mappa degli elementi (fase di decodifica), questi moduli aiutano a focalizzarsi sulle informazioni cruciali, specialmente sui confini tra oggetti diversi, che sono spesso difficili da definire con precisione. Abbiamo anche sviluppato un sistema per gestire contemporaneamente due compiti: riconoscere la categoria di ogni pixel (segmentazione semantica: questo è un albero) e distinguere oggetti singoli della stessa categoria (segmentazione istanziata: questo è l’albero A, quello è l’albero B). Il risultato è DAES-Net, un modello che sa “smontare” la scena urbana con grande precisione.
Alla Prova dei Fatti: I Risultati Sorprendenti
Ovviamente, non ci siamo fermati alle idee. Abbiamo messo alla prova i nostri modelli su dataset impegnativi, come il famoso Cityscapes (un sacco di immagini di strade europee) e anche un nostro dataset personalizzato con immagini ad alta risoluzione. E i risultati? Beh, lasciate che ve lo dica, sono stati entusiasmanti!
AEMP-Net ha sbaragliato la concorrenza. Quando gli abbiamo chiesto di classificare le immagini in base alla percezione (bellezza, comfort, pulizia…), ha raggiunto precisioni altissime, oltre il 95% su alcune metriche! E non solo: è stato bravissimo anche a ordinare le immagini in base a questi attributi, capendo quale scena fosse “più bella” o “più confortevole” di un’altra, con un’accuratezza media intorno al 92-93%. Confrontato con altri approcci e persino con architetture molto potenti come ResNet e Vision Transformer, il nostro AEMP-Net ha mostrato errori più bassi e maggiore stabilità, dimostrando che la combinazione di Siamese CNN e attenzione CBAM è davvero efficace per questo compito.

E DAES-Net non è stato da meno. Nel compito di scomporre le scene urbane, ha mantenuto prestazioni eccellenti anche in situazioni difficili, come quando ci sono tanti oggetti vicini (alta densità di istanze). È riuscito a identificare strade, edifici, verde con grande precisione (mIoU superiore all’84-87% anche in casi complessi). Ma dove ha brillato particolarmente è stato nel delineare i confini degli oggetti (bIoU e bF1 intorno all’81-82%). Immaginate quanto sia difficile per un’AI distinguere perfettamente il bordo di un marciapiede da quello della strada, o il profilo di un albero contro un edificio. DAES-Net, grazie alla sua attenzione dinamica, ci riesce molto bene, superando modelli noti come U-Net e DeepLabV3+ nella gestione dei dettagli.
Abbiamo anche fatto un’analisi interessante: usando i risultati della segmentazione, abbiamo cercato di capire quali elementi della scena influenzano di più la nostra percezione. E indovinate un po’? Il verde e la presenza di persone sono risultati tra i fattori più importanti per farci percepire un luogo come bello, sicuro e vitale. Non è una sorpresa, forse, ma averlo quantificato con l’AI dà basi solide per la progettazione urbana.
Cosa Significa Tutto Questo e Cosa Ci Aspetta?
Quello che abbiamo sviluppato non è solo un esercizio accademico. Questi modelli, AEMP-Net e DAES-Net, rappresentano un passo avanti concreto nella nostra capacità di analizzare e comprendere gli spazi urbani in modo automatico, efficiente e multidimensionale. Possono diventare strumenti preziosi per urbanisti, architetti, amministratori pubblici per:
- Progettare città più a misura d’uomo, basandosi su dati oggettivi su come vengono percepite.
- Valutare l’impatto di interventi urbani (es. aggiungere verde, modificare la viabilità).
- Monitorare la qualità degli spazi pubblici.
- Contribuire allo sviluppo di città intelligenti (smart cities), magari aiutando i veicoli autonomi a “capire” meglio l’ambiente circostante.
Certo, c’è ancora lavoro da fare. Vogliamo rendere i modelli ancora più bravi a lavorare insieme, testarli su scale ancora più grandi e renderli più leggeri ed efficienti. Il futuro potrebbe riservarci meccanismi di fusione tra i modelli ancora più intelligenti, capaci di adattarsi dinamicamente a scenari urbani sempre diversi e complessi.
Ma la strada è tracciata. Stiamo dotando le macchine di “occhi” e “sensibilità” per aiutarci a costruire città migliori, luoghi dove non solo si vive, ma si vive bene. E questa, per me, è una prospettiva davvero affascinante!

Fonte: Springer
