Un ricercatore osserva con una lente d'ingrandimento un antico registro manoscritto contenente dati climatici tabulari, mentre su un moderno schermo di computer accanto sono visualizzati grafici e analisi di tali dati. Illuminazione da studio, obiettivo prime 35mm, profondità di campo che mette a fuoco il manoscritto e il volto concentrato del ricercatore.

Dati Climatici del Passato: Come l’Uomo e la Macchina Lavorano Insieme per Salvarli!

Amici, vi siete mai chiesti come facciamo a sapere com’era il clima secoli fa? Non c’erano i satelliti, né le stazioni meteo super tecnologiche di oggi. Eppure, quelle informazioni sono una miniera d’oro, essenziali per capire i cambiamenti climatici attuali e futuri. Il problema? Spesso sono nascoste in vecchi registri manoscritti, pieni di tabelle compilate a penna da meteorologi pionieri. Immaginatevi la scena: pagine ingiallite, inchiostro sbiadito, calligrafie d’altri tempi… un vero rompicapo!

Ecco, estrarre questi dati climatici storici è una sfida colossale. Non solo per la conservazione di questi documenti, che rischiano di andare perduti, ma soprattutto per trasformare quelle righe e colonne scritte a mano in dati digitali utilizzabili. E credetemi, non è una passeggiata. Ogni registro ha la sua struttura, il suo stile, per non parlare della qualità della carta e dell’inchiostro. Non esiste una bacchetta magica, una soluzione unica che vada bene per tutti.

La Sfida dei Dati Tabulari Manoscritti

Pensateci un attimo: dobbiamo insegnare a un computer a leggere calligrafie diverse, a interpretare tabelle che non seguono standard moderni, a distinguere i numeri dalle macchie d’inchiostro o dalle pieghe della carta. I progressi nel machine learning, specialmente nella visione artificiale (computer vision) e nell’elaborazione del linguaggio naturale (NLP), ci hanno dato strumenti potentissimi. Ma quando si tratta di documenti storici manoscritti, la faccenda si complica. Ci sono tre grossi scogli:

  • La qualità variabile delle fonti: rumore, immagini distorte, inchiostro che trapassa la pagina.
  • I costi computazionali per addestrare modelli complessi.
  • L’interpretabilità di modelli addestrati su dati moderni quando applicati a contesti storici.

E per i dati tabulari, le sfide si moltiplicano: come far capire al computer dov’è la tabella e come trascrivere correttamente le informazioni usando tecniche come l’OCR (Optical Character Recognition) per il testo stampato e l’HTR (Handwritten Text Recognition) per quello manoscritto?

L’Approccio “Human-in-the-Loop”: L’Unione fa la Forza

Ed è qui che entra in gioco un concetto affascinante: il “Human-in-the-Loop” (HIL), ovvero “l’essere umano nel ciclo”. In pratica, invece di affidarci ciecamente alla macchina, creiamo un flusso di lavoro in cui l’intelligenza artificiale e l’esperienza umana collaborano. L’idea è che l’intervento umano possa migliorare significativamente l’accuratezza dei modelli, soprattutto con un costo tecnico e computazionale contenuto. Pensate a come i nuovi modelli linguistici di grandi dimensioni basati sulla visione (Vision Language Models, VL) stanno cambiando le carte in tavola. Prima, l’HIL significava principalmente fornire dati di addestramento. Ora, si sposta verso soluzioni semi-automatiche, l’ingegneria dei “prompt” (le istruzioni che diamo al modello) e la fornitura del contesto storico necessario per ottenere risultati ottimali.

Nel nostro studio, abbiamo proposto proprio un flusso di lavoro HIL per processare ed estrarre dati da fonti tabulari storiche manoscritte. Abbiamo preso come caso di studio i dati climatologici della regione del Congo tra il 1907 e il 1960, digitalizzati grazie al progetto Cobecore. Si tratta di registrazioni giornaliere di varie misurazioni meteorologiche, tutte scritte a mano in tabelle. Un vero tesoro, ma anche un bel grattacapo!

Macro fotografia di una pagina di un antico registro meteorologico scritto a mano, con tabelle di numeri e testo sbiadito. L'immagine dovrebbe avere un'illuminazione controllata per esaltare i dettagli della carta ingiallita e dell'inchiostro, obiettivo macro 90mm, alta definizione, messa a fuoco precisa sulla calligrafia.

Come Funziona, in Pratica?

Il processo di estrazione dei dati strutturati da tabelle scansionate e manoscritti è una sfida di lunga data. Per capirci meglio, possiamo dividere il flusso di lavoro in quattro passaggi principali:

  1. Pre-elaborazione: Qui si prepara l’immagine, magari convertendola in scala di grigi, migliorando il contrasto, ecc.
  2. Rilevamento del contenuto della tabella: Si cerca di identificare dove si trovano i numeri e le celle importanti.
  3. Riconoscimento del testo: Si trascrivono i caratteri manoscritti.
  4. Post-elaborazione: Si corregge e si valida il dato estratto, spesso con l’aiuto umano.

In passato, per il rilevamento delle tabelle si usavano metodi “euristici”, basati su regole esplicite (soglie dell’immagine, trasformazioni delle linee). Questi metodi, sebbene più datati rispetto al deep learning, sono ancora considerati validi. Poi sono arrivate le reti neurali convoluzionali (CNN), che imparano automaticamente le caratteristiche rilevanti, eliminando la necessità di ingegnerizzare manualmente le feature. Recentemente, architetture basate sull’attenzione, come i Table Transformer, hanno mostrato grandi promesse.

Per il riconoscimento del testo manoscritto (HTR), anche qui il deep learning ha superato di gran lunga gli approcci basati su regole. Modelli basati su CNN, reti neurali ricorrenti (RNN) e memorie a lungo-breve termine (LSTM) sono comuni. E nel 2022, si è visto che i modelli Vision Language (VL) basati su architetture Transformer possono superare persino i modelli OCR/HTR deep learning. Un esempio è TrOCR, che può essere affinato su dataset etichettati da umani.

Il Problema dei Dati Storici

Il punto è che la maggior parte di questi approcci non tiene conto della variabilità dei documenti storici (meteorologici, in questo caso) nei loro dati di addestramento. Stili di scrittura variabili, qualità del documento degradata, layout di tabella non standard… insomma, un bel pasticcio! Solo di recente sono emersi sforzi dedicati, come il progetto HisClima, per colmare questa lacuna. Questi studi, però, hanno evidenziato la necessità di soluzioni su misura, perché i metodi di deep learning “pronti all’uso” erano sì adeguati per il riconoscimento del testo e del layout, ma meno efficienti per il riconoscimento delle tabelle.

Ecco perché noi sosteniamo che, in assenza di enormi quantità di dati di addestramento, un dataset più piccolo ma annotato da umani con alta accuratezza può essere sufficiente. E con i modelli VL attuali, l’HIL si manifesta diversamente: non solo fornendo dati, ma anche attraverso soluzioni semi-automatiche, ingegneria dei prompt e aggiungendo quel contesto che solo un esperto umano può dare.

Strumenti Open e Closed Source a Confronto

Abbiamo messo alla prova diversi strumenti, sia open-source che closed-source (commerciali). Per gli open-source, abbiamo testato separatamente il rilevamento del contenuto delle tabelle (ad esempio con metodi euristici e CRAFT, un algoritmo di deep learning) e il riconoscimento del testo (con Tesseract e PyLaia, due classici motori OCR/HTR, e Qwen-2-VL-7B, un modello Vision-Language open-weight). Per i closed-source, abbiamo esaminato soluzioni “tutto-in-uno” come Microsoft Azure AI Vision, Amazon AWS Textract, Google Document AI e Transkribus, quest’ultimo specificamente ottimizzato per dati storici.

Per valutare l’accuratezza, abbiamo creato un dataset di validazione (il Cobecore Validation Dataset) con trascrizioni di campioni dal 1907 al 1995, riflettendo la diversità delle fonti. La creazione di questo dataset è stata semi-automatica: un’estrazione iniziale con Microsoft Azure e poi correzioni manuali con VIA (VGG Image Annotator). Questo ha ridotto drasticamente il tempo necessario!

Primo piano di uno schermo di computer che mostra un software di annotazione di immagini, con un documento storico tabulare visualizzato. Una mano con un mouse sta tracciando riquadri di delimitazione attorno a numeri manoscritti. Obiettivo 50mm, profondità di campo per mantenere a fuoco sia lo schermo che la mano, illuminazione da ufficio.

Risultati Sorprendenti: Non Sempre Chi Paga Vince

E qui arrivano le sorprese! Per il rilevamento del contenuto delle tabelle, AWS Textract è risultato il migliore, seguito da vicino da Microsoft Azure. Google Document AI, invece, ha faticato parecchio. Ma la cosa interessante è che un approccio euristico ben calibrato ha spesso eguagliato, e in alcuni casi superato, queste soluzioni commerciali avanzate!

Passando al riconoscimento del testo, mentre i modelli OCR/HTR open-source tradizionali (Tesseract, PyLaia, da noi riaddestrati sui nostri dati) sono stati superati dalle soluzioni closed-source, il modello open-weight Qwen-2-VL-7B ha mostrato prestazioni competitive, a volte persino migliori delle versioni “penalizzate” (cioè che tengono conto anche dei numeri non rilevati) di Azure Textract e Text Titan I (il modello di Transkribus). Questo sottolinea l’enorme potenziale dei modelli Vision-Language per il testo manoscritto, un’area storicamente ostica. E ci dice che la nuova generazione di modelli VL generalisti si sta avvicinando alle prestazioni di modelli OCR altamente specializzati.

Un aspetto cruciale per Qwen-2-VL è stata l’ingegneria dei prompt. Variazioni anche piccole nel modo in cui si chiede al modello di trascrivere i dati possono influenzare significativamente le prestazioni (fino all’11% di differenza nel Tasso di Errore sui Caratteri, CER!). Questo sposta il ruolo dell’HIL dalla semplice cura dei dati all’ottimizzazione dinamica guidata dall’utente.

Transkribus, con il suo modello Text Titan I (basato su TrOCR e affinato su dati storici), ha mostrato prestazioni variabili, con un CER medio del 28%. Un problema comune a molti modelli è stato il corretto riconoscimento della punteggiatura, come le virgole nei dati numerici. E, a volte, Transkribus ha prodotto “allucinazioni” piuttosto bizzarre, trascrivendo numeri come intere frasi senza senso! Probabilmente perché i nostri dati numerici erano molto diversi da quelli su cui il modello era stato originariamente addestrato.

L’Importanza della Post-Elaborazione e del Contesto Umano

Una volta estratti i dati, il lavoro non è finito. La post-elaborazione è fondamentale. Qui l’intervento umano, armato di conoscenza del dominio, può fare miracoli. Ad esempio:

  • Usare espressioni regolari per assicurare una punteggiatura corretta e consistente.
  • Applicare tecniche di analisi dei dati e conoscenza specifica del dataset per la verifica. Se i dati sono strutturati e registrano metriche specifiche a intervalli consistenti (come le temperature), si possono fare controlli statistici. Ad esempio, impostare un limite massimo per le temperature (difficilmente supereranno i 60°C) per segnalare potenziali errori.
  • Utilizzare il confronto per similarità: confrontare visivamente cifre errate con quelle vicine per identificare rappresentazioni simili e facilitare la correzione.

Queste tecniche di post-elaborazione HIL abbassano notevolmente i tassi di errore.

Fotografia di un team di ricercatori che collaborano attorno a un tavolo, alcuni esaminando documenti storici originali, altri lavorando su laptop che mostrano interfacce di analisi dati e modelli AI. Atmosfera di studio, luce naturale da una finestra, obiettivo zoom 24-70mm per catturare l'interazione del gruppo.

Conclusioni: Un Futuro Collaborativo

Cosa ci dicono questi risultati? Che non esiste una soluzione “taglia unica” che garantisca prestazioni ottimali su tutti i tipi di documenti. Un flusso di lavoro HIL implica considerare attentamente quando e dove gli interventi umani valgono il costo (in termini di tempo e risorse). Sebbene le soluzioni commerciali, in particolare AWS Textract, siano ancora tra le migliori (specialmente perché combinano rilevamento della tabella e del testo), stiamo vedendo progressi promettenti offerti dai modelli Vision-Language open-weight con HIL per garantire ulteriore precisione. E il bello di questi modelli basati su prompt è che il tempo e il costo investiti per migliorare le prestazioni sono significativamente inferiori.

Il ruolo dell’essere umano non dovrebbe mai essere sottovalutato in nessuna fase di questo processo. Specialmente quando abbiamo a che fare con dati storici manoscritti, che dal punto di vista dei modelli computazionali sono pieni di incongruenze, ma che riflettono l’unicità e la complessità dell’essere umano. È un po’ come unire l’arte dell’amanuense con la potenza del calcolo: solo insieme possiamo davvero sbloccare i segreti nascosti in questi preziosi archivi.

Il nostro lavoro futuro si concentrerà sullo sviluppo di un flusso di lavoro HIL open-source e personalizzabile per l’elaborazione di dati tabulari storici, che includa passaggi integrati di pre e post-elaborazione. Speriamo così di rendere queste metodologie più accessibili ai ricercatori che, come noi, sono affascinati dai tesori nascosti negli archivi storici e vogliono contribuire a comprendere meglio il nostro passato climatico per affrontare le sfide del futuro.

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *