L’Intelligenza Artificiale che Legge il Tempo sui Volti dei Buddha
Ciao a tutti! Sono qui oggi per raccontarvi una storia affascinante che mescola storia antica, arte sacra e intelligenza artificiale all’avanguardia. Immaginate di trovarvi di fronte a una magnifica statua di Buddha, magari vecchia di secoli. Una delle prime domande che potrebbe sorgervi è: “Ma quanti anni avrà?”. Ecco, rispondere non è sempre facile come sembra.
Il Mistero delle Date Perdute
L’analisi del patrimonio culturale, specialmente la datazione delle opere, ci apre finestre incredibili sulla storia umana. Pensate alle statue di Buddha: create in epoche e regioni diverse, ognuna con le sue sottili modifiche che riflettono culture locali, sono testimoni silenziose del passato. Purtroppo, a causa di disastri naturali, guerre, deterioramento dei materiali o semplici errori umani, i documenti che attestano l’anno di costruzione di molti di questi manufatti sono andati perduti. Un vero peccato, no?
Certo, storici ed esperti possono stimare un periodo di costruzione, a volte un intervallo di anni, usando analisi chimiche (come il radiocarbonio per il legno, la termoluminescenza per ceramiche o bronzi riscaldati, o l’analisi del deterioramento per le pietre) o ricerche storiche approfondite. Ma diciamocelo: queste tecniche hanno i loro limiti. Il radiocarbonio funziona solo su materiali organici, l’analisi del deterioramento è complicata da fattori ambientali come l’inquinamento, e la termoluminescenza si applica solo a certi materiali. Inoltre, sono metodi spesso costosi, lenti e non sempre applicabili o accessibili. E data l’enorme quantità di reperti, analizzarli tutti uno per uno con questi metodi tradizionali è praticamente impossibile.
La Sfida delle Etichette “Miste”
Qui entra in gioco la tecnologia, e in particolare l’analisi delle immagini. L’aspetto visivo di una statua può dirci molto, ma richiede esperti con anni di formazione ed è un lavoro lungo e meticoloso. E se provassimo a insegnare a un computer a farlo? L’idea è usare le reti neurali profonde, una branca dell’intelligenza artificiale (AI), per stimare l’anno di costruzione di una statua partendo da una sua foto.
Sembra fantastico, ma c’è un grosso ostacolo: i dati di addestramento. Per insegnare a un’AI, servono tanti esempi “etichettati”, cioè immagini di statue di cui conosciamo già l’anno di costruzione. Ma come abbiamo detto, spesso questa informazione è incerta. Così, ci ritroviamo con un dataset “eterogeneo”: alcune statue hanno un anno preciso, altre solo un intervallo di tempo (ad esempio, “XVI secolo” o “dinastia Tang”). Come facciamo a far capire all’AI questa differenza e a usare tutta l’informazione disponibile, anche quella incerta?
La Nostra Arma Segreta: L’AI e le Distribuzioni Uniformi
Nel nostro lavoro precedente, avevamo già affrontato questo problema. Avevamo pensato di rappresentare queste etichette “miste” (anni precisi e intervalli) come delle distribuzioni di probabilità. In particolare, avevamo usato una distribuzione Gaussiana, quella a forma di campana. L’idea era che, per un intervallo (tipo un secolo), l’anno più probabile fosse quello centrale. Ma riflettendoci, questa ipotesi non sempre regge. Se uno storico dice “XVI secolo”, non sta suggerendo che il 1550 sia più probabile del 1510 o del 1590; sta dicendo che la statua è stata fatta *in un qualche momento* durante quei 100 anni, con probabilità uguale per ogni anno.
Ecco quindi la nostra nuova idea, che vi presento oggi: rappresentare queste etichette eterogenee come una distribuzione uniforme. In pratica, assegniamo la stessa probabilità a tutti gli anni all’interno dell’intervallo specificato. Se l’etichetta è “XVI secolo”, ogni anno dal 1501 al 1600 ha la stessa chance. Se è un anno esatto, diamo un piccolo margine di tolleranza (tipo +/- 5 anni) e consideriamo uniforme la probabilità lì dentro. Ci sembra un modo molto più fedele di rappresentare quello che sappiamo (e non sappiamo) sulla datazione.
Basandoci su questa rappresentazione, abbiamo progettato una funzione di costo (loss function) per l’addestramento del nostro modello AI. Abbiamo usato un approccio di apprendimento semi-supervisionato, che ci permette di sfruttare sia le poche immagini con etichetta (precisa o a intervallo) sia le tantissime immagini senza alcuna etichetta. Queste ultime aiutano l’AI a capire meglio le caratteristiche generali dei volti delle statue, rendendo le sue previsioni più robuste. Per gestire le nostre nuove etichette a distribuzione uniforme, abbiamo usato una misura matematica chiamata distanza di Wasserstein, che è particolarmente brava a confrontare distribuzioni di probabilità, anche quando non si sovrappongono perfettamente.
Perché Proprio il Volto?
Potreste chiedervi: perché concentrarsi solo sul volto della statua? Beh, ci sono buone ragioni. Primo, molti elementi dei volti (occhi, naso, bocca) sono comuni tra divinità buddiste, induiste, giainiste e taoiste, permettendo confronti tra regioni ed epoche diverse. Secondo, nella tradizione artigianale, specialmente quella giapponese, la scultura del volto era spesso affidata al maestro scultore principale (il daibusshi), il cui nome a volte è inciso sulla statua. Il volto, quindi, porta spesso la “firma” stilistica più importante. E poi, l’analisi dei volti con l’AI è un campo già molto maturo, quindi avevamo basi solide su cui costruire.
Risultati Sorprendenti e il Parere degli Esperti
E i risultati? Sono stati davvero incoraggianti! Il nostro modello, addestrato con questo nuovo approccio, riesce a predire l’anno di costruzione di una statua di Buddha (realizzata tra il 400 e il 1403 nel nostro set di test) con un errore medio assoluto (MAE) di soli 34.3 anni. Considerando l’ampiezza dei periodi storici e l’incertezza di partenza, è un risultato notevole! Pensate che approcci precedenti, che trattavano il problema come una classificazione, riuscivano al massimo a indovinare il secolo (quindi con un errore potenziale fino a 50-100 anni).
Abbiamo anche fatto altre analisi interessanti. Abbiamo confrontato le prestazioni del modello con la qualità dell’immagine, misurata con un indice chiamato BRISQUE (dove un punteggio basso indica alta qualità). Ebbene sì, c’è una correlazione: immagini di qualità superiore portano a errori di predizione inferiori. Sembra ovvio, ma è importante confermarlo: fornire all’AI immagini nitide e dettagliate aiuta tantissimo!
Ma non ci siamo fermati ai numeri. Volevamo capire cosa ne pensassero gli esperti “umani”. Abbiamo condotto un sondaggio coinvolgendo quattro specialisti di statue di Buddha dell’Università di Osaka. Abbiamo mostrato loro 200 immagini di volti (alcune con data nota, altre no, tutte di alta qualità secondo il BRISQUE) e abbiamo chiesto:
- Sei d’accordo con la stima dell’anno fatta dal nostro modello AI? (su una scala da 1 a 5)
- Se non sei né d’accordo né in disaccordo, perché? (problemi di qualità immagine, statua sconosciuta, mancanza di consenso storico?)
- Su quali caratteristiche del volto ti sei basato per la tua stima? (forma del viso, occhi, texture, forma della testa, acconciatura?)
I risultati del sondaggio sono stati illuminanti. In generale, c’è stato un discreto equilibrio tra accordo e disaccordo con le previsioni dell’AI. È interessante notare che gli errori più bassi del nostro modello tendevano a ricevere un accordo maggiore dagli esperti, confermando che l’AI stava andando nella direzione giusta. Tuttavia, c’erano anche casi di disaccordo su previsioni molto accurate, sottolineando quanto sia soggettiva e difficile la datazione dell’arte storica, anche per gli specialisti!
Quando abbiamo chiesto perché fosse difficile esprimere un giudizio, la ragione principale non era la scarsa qualità dell’immagine (le avevamo scelte apposta di buona qualità) o il non conoscere la statua, ma piuttosto la mancanza di un consenso consolidato tra gli stessi esperti sull’anno di costruzione di certe opere. Questo conferma l’utilità potenziale di uno strumento AI come il nostro: non per sostituire l’esperto, ma per fornire un ulteriore dato, oggettivo, che possa aiutare a costruire questo consenso.
E quali caratteristiche guardano gli esperti? Nettamente, le più importanti sono state la forma generale del volto e la forma degli occhi. Queste, secondo loro, aiutano a determinare il metodo di costruzione, che è fortemente legato all’epoca e alla localizzazione. Sorprendentemente, texture, acconciatura e forma della testa sono state ritenute meno cruciali nel nostro campione (forse perché molte statue erano simili per materiale, prevalentemente legno).
Cosa Abbiamo Imparato e Dove Andiamo
Quindi, cosa ci portiamo a casa da questa avventura? Abbiamo sviluppato un metodo basato sull’intelligenza artificiale che affronta la sfida della datazione dei volti di Buddha partendo da immagini, anche quando i dati di partenza sono incompleti o incerti (le famose etichette eterogenee). La nostra idea di usare distribuzioni uniformi per rappresentare gli intervalli di date e l’apprendimento semi-supervisionato per sfruttare anche i dati non etichettati si è rivelata vincente, portando a un errore medio di soli 34.3 anni.
Abbiamo anche confermato che la qualità dell’immagine è fondamentale e che, sebbene il nostro modello si allinei spesso con il giudizio degli esperti, la datazione rimane un campo complesso dove anche gli specialisti possono avere opinioni diverse. Il nostro strumento AI può quindi diventare un valido aiuto per gli storici dell’arte, fornendo stime rapide e oggettive che possono alimentare la discussione e contribuire a ricostruire la storia di questi magnifici manufatti.
Per il futuro? Ci piacerebbe capire meglio *quali* specifiche caratteristiche dell’immagine l’AI sta usando per fare le sue previsioni. Inoltre, pensiamo di integrare altre informazioni disponibili sulle statue, come lo stile, il materiale, l’altezza o testi descrittivi, per creare un sistema ancora più potente e multimodale. L’obiettivo è continuare ad affinare questi strumenti per aiutare a svelare i segreti custoditi nel nostro prezioso patrimonio culturale.
Fonte: Springer