Decifrare il Passato: Come l’IA Sta Rivoluzionando la Lettura dei Documenti Storici
Amici lettori, vi siete mai trovati davanti a un vecchio manoscritto, magari ingiallito dal tempo, con la scrittura un po’ incerta e le righe che sembrano danzare sulla pagina? Affascinante, vero? Ma immaginate di dover analizzare migliaia di queste pagine! Ecco, qui entra in gioco un campo di ricerca super interessante: l’analisi delle immagini di documenti storici, e in particolare, la segmentazione delle righe di testo e il rilevamento delle baseline. Sembra un tecnicismo, ma vi assicuro che è fondamentale per poter poi “leggere” automaticamente questi tesori del passato.
Recentemente mi sono immerso in una revisione sistematica degli ultimi progressi in questo settore, spulciando ben 49 studi pubblicati dal 2019 in poi. E credetemi, c’è un mondo in fermento!
Perché i documenti storici sono così “speciali”?
A differenza dei documenti moderni, quelli storici sono unici. Prodotti con tecniche ormai in disuso, presentano caratteristiche visive e strutturali che li rendono una vera sfida per gli algoritmi. Pensate a:
- Baseline fluttuanti (la linea immaginaria su cui poggiano le lettere)
- Spaziatura irregolare tra le righe
- Annotazioni a margine
- Testo orientato in più direzioni
- Caratteri che si toccano o si sovrappongono
E non dimentichiamo i “regali” del tempo: inchiostro sbiadito, buchi, macchie, o l’effetto “bleed-through” (quando l’inchiostro traspare dal retro della pagina). Insomma, un bel rompicapo!
Il percorso dell’analisi: un quadro generale
Per farvi capire meglio, il processo di analisi di un documento storico digitalizzato segue di solito questi passaggi:
- Acquisizione e Miglioramento dell’Immagine: Si scansiona il documento e si “pulisce” l’immagine (riduzione del rumore, binarizzazione, ecc.).
- Analisi del Layout: Qui si identificano le componenti strutturali come colonne, blocchi di testo, note a margine. Ed è proprio in questa fase che avviene il rilevamento delle righe di testo, il focus della nostra chiacchierata.
- Post-elaborazione, Riconoscimento della Scrittura (HTR), Estrazione di Informazioni: E altre applicazioni successive che beneficiano enormemente di una buona segmentazione iniziale.
L’estrazione delle righe di testo è cruciale: se fatta male, tutto il resto ne risente.
Segmentazione, Rilevamento, Estrazione: Facciamo chiarezza
Nel settore si usano spesso i termini “rilevamento delle righe di testo”, “segmentazione delle righe di testo” ed “estrazione delle righe di testo” quasi come sinonimi, ma c’è una sottile differenza:
- Il rilevamento identifica la posizione e l’estensione delle righe.
- La segmentazione separa il testo in righe distinte.
- L’estrazione li comprende entrambi. Per semplicità, userò “estrazione delle righe di testo” come termine generico.
Le righe di testo possono essere rappresentate come etichette di pixel, poligoni di contorno o, in alternativa, attraverso le loro baseline (quelle linee immaginarie che uniscono la parte inferiore dei caratteri).
Cosa abbiamo scoperto con questa revisione?
L’obiettivo di questa full immersion negli studi recenti era capire le tendenze, i metodi più efficaci, i dataset disponibili e le sfide ancora aperte. Volevamo rispondere a domande come:
- Chi sta lavorando su questi temi e dove?
- L’argomento è ancora “caldo”?
- Quali dataset vengono usati per allenare e testare i modelli?
- Che tipo di approcci metodologici stanno emergendo?
- Come si misurano le performance?
- Esistono software o codici sorgente disponibili?
Abbiamo seguito una metodologia rigorosa, chiamata Systematic Literature Review (SLR), per selezionare e analizzare gli studi più rilevanti pubblicati su riviste e conferenze di prestigio.

Chi sono i protagonisti della ricerca?
Dall’analisi delle affiliazioni degli autori, è emerso un panorama internazionale: ricercatori da ben 23 paesi! La Francia guida la classifica con undici pubblicazioni, seguita da Cina (nove), India (otto), Israele (sei) e Svizzera (cinque). È interessante notare che 12 studi sono frutto di collaborazioni internazionali, a dimostrazione di come la scienza unisca le forze oltre i confini.
Un campo di ricerca ancora vivace
Analizzando il numero di pubblicazioni dal 2019 al 2024, abbiamo visto che le conferenze hanno dominato, anche se nel 2022 e 2023 le pubblicazioni su riviste scientifiche hanno guadagnato terreno. Nonostante un picco nel 2021, l’argomento rimane decisamente attivo e popolare. C’è ancora tanto da scoprire e migliorare!
I “campi di addestramento”: i Dataset
I dataset sono il pane quotidiano per chi sviluppa questi sistemi. Permettono di addestrare i modelli e confrontare i risultati. Abbiamo identificato ben 47 dataset con annotazioni a livello di riga di testo o baseline, di cui 25 disponibili per il download. Questi dataset coprono 25 lingue diverse! Il latino e l’arabo sono i più rappresentati, ma troviamo anche cinese, tedesco, francese, greco e molte altre, fino a lingue meno comuni come il balinese o il cham.
Tra i più utilizzati spiccano:
- ICDAR 2017 cBAD/READ-BAD: Usato in 14 studi, contiene immagini di documenti dal 1470 al 1930, con layout semplici e complessi.
- DIVA-HisDB: Utilizzato in 12 studi, include 150 immagini annotate da tre manoscritti medievali (XI e XIV secolo) in latino e italiano.
- ICDAR 2019 cBAD: Impiegato in 8 studi, è un’evoluzione del precedente e include 3021 immagini da archivi europei con layout diversi (disegni, manoscritti medievali, stampe storiche).
Tuttavia, c’è ancora bisogno di dataset per lingue meno studiate, come quelle del gruppo slavo (ucraino, polacco, serbo) o baltico (lituano, lettone). E, importantissimo, rendere questi dataset open-access è fondamentale per la trasparenza e la collaborazione.
Le armi segrete: i Metodi
E veniamo al cuore della questione: come si affronta la segmentazione delle righe? Possiamo raggruppare gli approcci in tre macro-categorie:
1. Analisi puramente non supervisionata
Questi metodi non richiedono dati annotati per l’addestramento. Si basano su euristiche e regole definite da esperti. Il vantaggio è che sono interpretabili, ma spesso le loro performance sono inferiori dove le distinzioni sono complesse. Ne abbiamo trovati alcuni che, ad esempio, lavorano sullo scheletro dell’immagine, sui gradienti orizzontali o su filtri gaussiani anisotropi per individuare le “blob lines” che attraversano il testo.
Un esempio interessante è un metodo che tratta la segmentazione come un problema di classificazione a due classi basato sulla distribuzione delle dimensioni degli spazi (tra righe e tra parole). Altri ancora usano la scomposizione empirica modale bidimensionale o algoritmi di “seam carving” con funzioni di costo innovative.
2. Analisi puramente supervisionata (Deep Learning alla riscossa!)
Qui entriamo nel regno delle Reti Neurali Profonde (DNN), in particolare le Reti Neurali Convoluzionali (CNN). Questi modelli hanno quasi soppiantato quelli tradizionali grazie alle loro eccellenti performance e alla capacità di operare senza un’ingegnerizzazione manuale delle feature. Imparano direttamente dai dati annotati.
L’architettura U-Net e le sue varianti sono gettonatissime. La U-Net funziona come un codificatore-decodificatore, catturando informazioni contestuali e localizzando con precisione. Molti studi propongono modifiche per renderla più leggera o più potente, ad esempio aggiungendo meccanismi di attenzione (come in ARU-Net) o strutture residue.
Altri approcci includono:
- Formulazioni come il “Line Counting” che contano il numero di righe dall’alto per ogni pixel.
- Modelli basati su Transformer, come il “Curve Transformer” (CurT), che predicono direttamente le baseline come curve di Bezier.
- Framework di rilevamento oggetti come YOLO o Mask R-CNN, adattati per trattare le righe di testo come “oggetti” da segmentare.
- Reti Generative Avversarie (GAN), come pix2pix, per tradurre l’immagine del documento in una maschera delle righe di testo.
Il “contro” delle DNN è che richiedono molti dati annotati e sono spesso viste come “scatole nere”, rendendo difficile capire perché prendono certe decisioni. Ma la possibilità di fare “transfer learning” (usare modelli pre-addestrati su altri dati) può aiutare quando i dati specifici scarseggiano.

3. Metodi Ibridi: il meglio dei due mondi?
Molti ricercatori scelgono di combinare gli approcci supervisionati e non supervisionati. Solitamente, una rete neurale fa il “lavoro sporco” iniziale (es. predire le baseline o una mappa di probabilità), e poi metodi non supervisionati (euristiche, clustering, seam carving) rifiniscono il risultato.
Ad esempio, un sistema potrebbe usare una U-Net per etichettare i pixel come baseline, separatori o altro, e poi un clustering bottom-up per costruire le baseline effettive. Un altro approccio interessante, chiamato LineTR, usa una rete stile DETR per generare rappresentazioni parametriche delle linee e una rete ibrida CNN-Transformer per creare una mappa di energia del testo; questi output vengono poi usati in un framework di generazione di “seam” per estrarre poligoni precisi.
Abbiamo notato una chiara evoluzione verso le DNN, ma quasi la metà dei lavori combina ancora classificazione supervisionata con euristiche non supervisionate. Questo suggerisce che c’è valore nel bilanciare la potenza delle DNN con la specificità e l’interpretabilità delle regole.
Come si misura il successo? I Protocolli di Valutazione
Avere metriche standard è fondamentale per confrontare i metodi. Per il rilevamento delle baseline, il protocollo cBAD-eval (introdotto nelle competizioni ICDAR) è il più usato. Utilizza Recall (R), Precision (P) e F-measure (F) per valutare quanto le baseline predette corrispondano a quelle reali (ground truth).
Per la segmentazione delle righe di testo, i due protocolli più diffusi sono:
- HSCP (Handwriting Segmentation Contest Protocol): Basato sul conteggio delle corrispondenze tra righe rilevate e ground truth, usando metriche come Detection Rate (DR), Recognition Accuracy (RA) e Performance Metric (FM).
- DIVA-eval: Utilizza l’Intersection over Union (IU) a livello di pixel e di linea. Considera una coppia di poligoni (ground truth e predizione) come corrispondente se la precisione e il recall dei pixel superano una soglia.
Altre metriche usate includono la Distanza di Hausdorff, AP (Average Precision), mAP (mean Average Precision) e la metrica ZoneMap.
Chi vince? Confronto sui Benchmark
Analizzando i risultati sui dataset benchmark come cBAD 2017, cBAD 2019 e DivaHisDB, emerge che i metodi basati sull’architettura U-Net (e sue varianti come ARU-Net) ottengono spesso le migliori performance, specialmente per il rilevamento delle baseline. Ad esempio, su cBAD 2017 Track A (layout semplici), un approccio di Grüning et al. [38] basato su ARU-Net ha mostrato punteggi eccellenti.
Per la segmentazione delle righe di testo su DivaHisDB, metodi che utilizzano algoritmi di “seam-carving”, a volte combinati con pre-elaborazione tramite deep learning, hanno dimostrato di essere molto efficaci. È interessante notare come una tecnica relativamente “vecchia” come il seam-carving, se ben implementata, possa ancora competere e persino superare approcci più recenti, soprattutto quando i dati di addestramento sono scarsi.
In generale, i metodi degli ultimi anni (2020-2023) tendono a superare quelli precedenti, segno di un progresso costante nel campo.
Codice Aperto: una nota dolente
Un aspetto un po’ deludente è la scarsità di codice sorgente pubblicamente disponibile. Tra i sistemi con le migliori performance, solo due degli studi analizzati fornivano link alle loro implementazioni. Questo rende difficile la riproduzione dei risultati e rallenta il progresso collettivo. C’è un bisogno evidente di maggiore apertura in questo senso!

Cosa ci riserva il futuro? Lacune e Direzioni di Ricerca
Questa revisione ha messo in luce diverse aree su cui concentrarsi:
- Dataset per Lingue Sottorappresentate: C’è un grande bisogno di creare e condividere dataset per lingue e scritture meno studiate. L’accesso aperto a questi dati è cruciale.
- Modelli Spiegabili (Explainable AI): Capire perché un modello prende una certa decisione è sempre più importante. Servono più studi che motivino la scelta dei modelli e ne analizzino il comportamento.
- Protocolli di Valutazione Standard e Completi: Adottare protocolli standard è bene, ma bisognerebbe includere anche la valutazione dell’efficienza computazionale, specialmente per applicazioni in tempo reale.
- Disponibilità del Codice: Incoraggiare la condivisione del codice sorgente per favorire la riproducibilità e la collaborazione.
- Studi di Ablazione Dettagliati: È importante che i ricercatori mostrino quali componenti dei loro metodi contribuiscono maggiormente al successo, per guidare le scelte future su dati specifici.
Insomma, il viaggio nell’analisi dei documenti storici tramite l’IA è tutt’altro che concluso. Le sfide sono ancora tante, ma i progressi recenti sono entusiasmanti. Continuare su questa strada, con un occhio alla collaborazione e all’apertura, ci permetterà di svelare sempre più segreti nascosti tra le righe del nostro passato.
Fonte: Springer
