I tuoi occhi ti ingannano? Come percepiamo davvero le forme nelle immagini (Fissazione per fissazione!)
Ciao a tutti, appassionati di come funziona la nostra mente e di come vediamo il mondo! Oggi voglio parlarvi di qualcosa che mi ha davvero affascinato e che riguarda il modo in cui i nostri occhi – o meglio, il nostro cervello – interpretano le forme tridimensionali quando guardiamo una semplice immagine bidimensionale, come una fotografia o un dipinto. È una domanda che scienziati, artisti e informatici si pongono da secoli: come facciamo a vedere la profondità e la forma in un’immagine piatta?
Le vecchie teorie sulla prospettiva: un po’ troppo semplici?
Per molto tempo, la teoria dominante è stata quella della prospettiva lineare. Avete presente quei disegni con le linee che convergono verso un punto di fuga? Ecco, l’idea era che il nostro cervello interpretasse l’intera immagine basandosi su un unico punto di vista, un unico “Centro di Proiezione” (COP). Sembrava logico, no? Dopotutto, una fotocamera funziona più o meno così. E artisti come Brunelleschi e Alberti hanno reso questa tecnica famosa nel Rinascimento, presentandola quasi come un metodo scientifico per rappresentare la realtà.
Però, c’è un “ma”. Anzi, più di uno. Se avete mai provato a fare una foto con un grandangolo spinto (tipo quelli degli smartphone moderni), avrete notato che gli oggetti ai bordi appaiono un po’ strani, distorti. Questo fenomeno si chiama distorsione marginale. E poi, siamo onesti: quanti artisti, anche tra i maestri della prospettiva, hanno seguito le regole alla lettera? Spesso adattavano la rappresentazione per far sembrare le cose “giuste”, anche se tecnicamente non lo erano secondo la prospettiva lineare pura. Pensate ai ritratti o alle sfere nei dipinti: raramente seguono la deformazione che la prospettiva imporrebbe ai margini di una scena ampia.
Inoltre, numerosi studi sperimentali hanno mostrato che noi non interpretiamo le immagini come se fossimo posizionati esattamente nel centro di proiezione originale. Insomma, la teoria della prospettiva lineare unica, per quanto elegante, non riesce a spiegare tutta la varietà di modi in cui le immagini sono state create e percepite nel corso della storia, dalle pitture rupestri all’arte contemporanea, passando per le proiezioni strane che vediamo nei videogiochi o nelle mappe (come la proiezione stereografica o quella equirettangolare).
Una nuova idea: e se guardassimo… pezzo per pezzo?
Qui entra in gioco un’ipotesi più recente e, secondo me, molto più intrigante, proposta da Hertzmann. L’idea di base è semplice ma potente: e se la nostra percezione della forma 3D non dipendesse dall’intera immagine vista tutta insieme, ma da ogni singola fissazione oculare?
Pensateci: quando guardiamo un’immagine complessa, i nostri occhi non stanno fermi. Saltano da un punto all’altro, soffermandosi sui dettagli che ci interessano. Questo movimento si chiama saccade, e il punto in cui l’occhio si ferma è una fissazione. La nostra visione è molto dettagliata solo in una piccola area al centro del campo visivo (la fovea), mentre in periferia vediamo tutto in modo più sfocato e meno preciso.
Allora, Hertzmann ha ipotizzato che il nostro cervello interpreti la forma di ciò che stiamo fissando in quel momento come se fosse visto da una prospettiva lineare “locale”, centrata proprio su quel punto di fissazione. In pratica, è come se per ogni punto che guardiamo, il cervello dicesse: “Ok, qui, in questo preciso punto, l’oggetto dovrebbe apparire come se lo stessi guardando dritto, senza distorsioni strane”. Questa è la base della cosiddetta Direct View Condition (DVC) o Condizione di Vista Diretta.
Secondo questa idea, una sfera in un’immagine ci sembrerà “giusta” (non distorta) se e solo se il suo contorno è circolare, indipendentemente da dove si trovi nell’immagine o da quale tipo di proiezione generale sia stata usata per crearla (lineare, isometrica, curva…). Se il contorno è ellittico, come succede ai margini di un grandangolo, allora la percepiremo come distorta. Lo stesso vale per le linee rette: devono apparire rette per sembrare tali.

Questa ipotesi spiegherebbe perché ritagliare un oggetto da un’immagine e incollarlo in un’altra con una prospettiva diversa di solito non cambia la nostra percezione della sua forma. La percezione è locale, legata alla fissazione!
Mettere alla prova l’ipotesi: gli esperimenti
Bello a dirsi, ma funziona davvero così? Per scoprirlo, sono stati condotti quattro esperimenti molto interessanti.
Esperimento 1 e 2: Preferiamo la coerenza globale o la “giustezza” locale?
Nel primo esperimento, ai partecipanti sono state mostrate coppie di immagini. Ogni coppia rappresentava la stessa scena 3D (ad esempio, una strada con una palla da pallavolo o un autobus), ma resa con diverse proiezioni (grandangolo, isometrica, pushbroom, ecc.). In una versione dell’immagine, l’oggetto familiare (palla o bus) era reso con la stessa proiezione del resto della scena (globalmente coerente). Nell’altra versione, l’oggetto era reso usando una sua prospettiva lineare locale, come previsto dalla DVC (localmente lineare), anche se questo poteva renderlo “incoerente” con lo sfondo. La domanda era semplice: “Quale oggetto sembra più una vera palla/autobus?”.
I risultati? Nella maggior parte dei casi, specialmente con le proiezioni che introducevano distorsioni evidenti (come il grandangolo spinto o l’equirettangolare), le persone preferivano nettamente la versione con l’oggetto reso in prospettiva locale! Più l’oggetto appariva distorto nella versione globalmente coerente (ad esempio, una palla schiacciata), meno piaceva. Il secondo esperimento ha confermato questi risultati usando solo la prospettiva lineare ma variando l’ampiezza del campo visivo (da normale a ultra-grandangolo) e chiedendo anche giudizi assoluti di distorsione su una scala da 1 a 5. Anche qui, gli oggetti resi localmente apparivano sempre poco distorti, mentre quelli resi globalmente venivano giudicati sempre più distorti all’aumentare del campo visivo (e quindi della distorsione marginale). Questo va contro l’idea che cerchiamo una coerenza globale e supporta fortemente la DVC: vogliamo che l’oggetto che stiamo guardando appaia “normale” lì dov’è.
Esperimento 3: Ma cosa vediamo davvero in periferia? La cecità al cambiamento
Se la percezione della forma avviene principalmente intorno alla fissazione, allora dovremmo essere poco sensibili ai dettagli della forma in periferia. Per testarlo, è stato usato un setup in realtà virtuale (VR) con tracciamento oculare. I partecipanti fissavano il centro di un’immagine complessa con oggetti ai quattro angoli. Poi veniva detto loro di spostare lo sguardo verso un angolo specifico. Proprio durante il movimento dell’occhio (saccade), simulando un battito di ciglia con uno schermo grigio per una frazione di secondo, la proiezione di un oggetto nell’angolo di destinazione veniva cambiata (ad esempio, da distorto a localmente corretto). Altre volte, per controllo, veniva cambiato il colore o non veniva cambiato nulla. La domanda era: “Hai notato un cambiamento?”.
Risultato sorprendente (o forse no?): le persone notavano pochissimo i cambiamenti di proiezione (solo nel 16.7% dei casi!). Erano leggermente migliori con altri tipi di cambiamenti (25%), ma comunque molto bassi. Sembra proprio che mentre fissiamo un punto, siamo quasi “ciechi” ai dettagli precisi della forma degli oggetti in periferia. Addirittura, in un sondaggio post-esperimento, tutti i partecipanti dicevano di aver visto un’immagine “composita” (mai mostrata!) che metteva insieme tutte le versioni corrette degli oggetti degli angoli su cui avevano fissato, mentre quasi nessuno ricordava l’immagine iniziale che vedevano all’inizio di ogni prova (su cui non avevano mai fissato gli angoli). È come se la nostra esperienza visiva fosse un collage delle singole fissazioni!

Esperimento 4: La compensazione dell’inclinazione dipende da dove guardiamo?
Quando guardiamo un quadro appeso al muro di sbieco, non percepiamo le forme come schiacciate, giusto? Il nostro cervello “compensa” l’inclinazione della superficie. Questa si chiama compensazione dell’inclinazione. Ma questa compensazione funziona allo stesso modo per ciò che fissiamo e per ciò che è in periferia? L’ipotesi era che la compensazione funzionasse bene solo intorno alla fissazione, coerentemente con la DVC.
Sempre in VR, i partecipanti vedevano un’immagine con un ellissoide rosso su uno sfondo, posizionato ad un certo angolo rispetto a loro ((theta)). Dovevano fissare un punto specifico (indicato da una croce verde) con una certa eccentricità ((xi)). A volte fissavano direttamente l’ellissoide ((xi = theta)), altre volte l’ellissoide era in periferia ((xi neq theta)). L’ellissoide stesso aveva diverse forme (rapporti larghezza/altezza). La domanda era: “L’ellissoide è più largo o più stretto di una sfera perfetta?”.
Analizzando le risposte, si è visto che quando i partecipanti fissavano l’ellissoide o guardavano molto vicino ad esso (angolo (alpha = |xi – theta|) piccolo, fino a 20°), percepivano correttamente la forma: giudicavano “sferico” un ellissoide con rapporto 1:1 (PSE vicino a 1). Ma quando l’ellissoide era più lontano in periferia ((alpha ge 30°)), iniziavano a sovrastimare la larghezza: percepivano come sferico un ellissoide che in realtà era più stretto! Questo indica che la compensazione dell’inclinazione funziona bene nella visione foveale (e vicino ad essa), ma peggiora drasticamente in periferia. Ancora una volta, la percezione accurata della forma sembra legata alla fissazione.
Cosa significa tutto questo? Una rivoluzione nella percezione delle immagini
Mettendo insieme i pezzi, questi esperimenti dipingono un quadro nuovo e affascinante della percezione visiva delle immagini. Sembra proprio che non elaboriamo le immagini come un tutto unico basato su una singola prospettiva. Invece, la nostra percezione della forma 3D opera fissazione per fissazione.
Quando guardiamo un’immagine:
- Interpretiamo i dettagli della forma principalmente nell’area intorno alla nostra fissazione attuale (visione foveale).
- Siamo sorprendentemente ignari dei dettagli precisi della forma in periferia (Esperimento 3).
- Compensiamo l’inclinazione della superficie dell’immagine in modo efficace solo nel punto in cui stiamo guardando (Esperimento 4).
- Di conseguenza, tendiamo a percepire la forma di un oggetto come “corretta” o “non distorta” se appare come la vedremmo in una normale prospettiva lineare centrata su di esso (DVC), indipendentemente da come è reso il resto dell’immagine (Esperimento 1 e 2).
Questo modello “per fissazione” spiega molto meglio perché le tecniche multi-prospettiche usate dagli artisti funzionano, perché le distorsioni grandangolari ci danno fastidio ai bordi ma non al centro, e perché anche proiezioni non lineari come quelle isometriche o parallele possono trasmettere forme senza sembrare distorte (finché gli oggetti stessi, localmente, appaiono “normali”).

Domande aperte e direzioni future
Naturalmente, questa nuova visione apre tante altre domande. Quanta informazione 3D riusciamo comunque a estrarre dalla periferia, anche se imprecisa? Come integriamo le informazioni raccolte attraverso fissazioni successive per costruire un senso coerente (anche se forse frammentario) della scena? E quanto di questo meccanismo si applica anche alla visione del mondo reale, non solo delle immagini?
Capire a fondo questi meccanismi non solo ci aiuta a comprendere meglio come funziona la nostra mente, ma può avere implicazioni pratiche enormi, ad esempio nello sviluppo di nuove tecniche di fotografia computazionale, nella creazione di esperienze VR più realistiche, o nell’analisi e nell’apprezzamento dell’arte.
Insomma, la prossima volta che guardate una foto o un quadro, pensateci: non state assorbendo l’immagine tutta intera come una spugna. La state esplorando, un pezzetto alla volta, e il vostro cervello sta costruendo la percezione della forma in modo dinamico, fissazione dopo fissazione. Incredibile, vero?
Fonte: Springer
