FAIR e Semantica: Quando i Dati Imparano (Davvero) a Parlare la Stessa Lingua
Ciao a tutti! Oggi voglio parlarvi di qualcosa che mi appassiona molto e che, credetemi, sta diventando sempre più cruciale nel mondo della ricerca e della gestione dei dati: i principi FAIR e, in particolare, come possiamo renderli ancora più efficaci guardando all’interoperabilità semantica con una lente… linguistica!
Siamo sommersi dai dati. Il volume totale raddoppia ogni tre anni, e ogni anno vengono pubblicati milioni di articoli scientifici. È chiaro come il sole che abbiamo bisogno di una mano dalle macchine per non affogare in questo mare di informazioni e per evitare di sprecare risorse rifacendo ricerche già esistenti. Il problema è che molti dati sono sparpagliati, usano strutture e terminologie diverse, rendendo difficile non solo trovarli e accedervi, ma soprattutto integrarli e riutilizzarli.
Perché i Principi FAIR Hanno Bisogno di un Upgrade Semantico?
Qui entrano in gioco i principi FAIR (Findable, Accessible, Interoperable, Reusable), introdotti nel 2016 proprio per rendere i dati e i metadati più “digeribili” dalle macchine (e anche da noi umani!). L’idea è fantastica e ha guadagnato un’enorme attenzione. L’Unione Europea ha persino stimato che la mancanza di dati FAIR costa all’economia europea almeno 10.2 miliardi di euro all’anno! Per questo si parla di creare un “Internet of FAIR Data and Services” (IFDS).
Tuttavia, c’è un “ma”. Sebbene i principi FAIR siano un passo avanti gigantesco, mancano un po’ di specificità su un punto chiave: l’interoperabilità semantica. Cosa significa? In parole povere, significa assicurarsi che quando i dati vengono scambiati tra macchine o tra macchine e umani, il loro significato e il loro riferimento (a cosa si riferiscono nel mondo reale) vengano preservati. Senza questo, l’interoperabilità (la “I” di FAIR) rimane zoppa.
Molti sforzi si sono concentrati sull’uso di tecnologie come i Knowledge Graph e le ontologie (che sono come vocabolari controllati e strutturati con logica formale) per implementare i FAIR. Queste tecnologie sono promettenti perché usano semantica esplicita e formati standardizzati. Pensate a RDF e OWL, linguaggi che permettono di descrivere concetti e relazioni in modo formale. All’inizio, con il Semantic Web, si pensava che le ontologie avrebbero risolto tutto, ma crearle bene è costoso e la loro riusabilità è stata limitata. Poi sono arrivati i Knowledge Graph, spesso spinti dall’industria (come quello di Google), che adottano un approccio più bottom-up e focalizzato su casi d’uso specifici, richiedendo alta interoperabilità interna.
Ma usare queste tecnologie non basta. Bisogna usarle in modo consistente, con gli stessi schemi per gli stessi tipi di dati, e organizzare tutto in FAIR Digital Objects (FDOs), oggetti digitali identificabili univocamente. E qui casca l’asino: come garantiamo che il *significato* sia davvero condiviso?

Parliamo la Stessa Lingua? La Semantica Umana come Modello
Per capire meglio l’interoperabilità semantica dei dati, ho trovato utile fare un parallelo con il modo in cui noi umani comunichiamo usando il linguaggio naturale, come l’italiano o l’inglese. La comunicazione efficace si basa su un background condiviso.
Prendiamo un termine, una parola.
- È leggibile se conosciamo le lettere (l’alfabeto) e la direzione di lettura. ‘Albero’ è leggibile, ‘Це дерево’ (ucraino per ‘questo albero’) probabilmente no per molti di noi.
- È interpretabile se è leggibile e possiamo associarlo a una rappresentazione cognitiva, a un concetto. ‘Albero’ è interpretabile, ‘Gfrztplk’ no, anche se leggibile. Questo richiede una competenza lessicale inferenziale condivisa, cioè conoscere il significato intensionale del termine (la sua definizione, il concetto che esprime).
- È azionabile (actionable) se è interpretabile e possiamo usarlo per ‘designare’ (dato l’oggetto, trovare il termine) o ‘riconoscere’ (dato il termine, identificare l’oggetto). Questo richiede una competenza lessicale referenziale condivisa, cioè sapere a cosa si riferisce il termine nel mondo reale (il suo referente/estensione) e come riconoscerlo (conoscenza diagnostica). Molte ontologie, purtroppo, danno definizioni intensionali ma non criteri pratici per riconoscere le cose.
Ora passiamo alle frasi (o statements). Una frase non è solo un insieme di termini; la struttura conta! “Pietro va da Roma a Parigi” non significa la stessa cosa di “Pietro va da Parigi a Roma”.
- Una frase è leggibile se possiamo identificare i termini e capire dove finisce la frase.
- È interpretabile se i termini sono interpretabili e condividiamo le convenzioni sintattiche e grammaticali per capire la struttura (l’albero sintattico) e i ruoli semantici delle parole (soggetto, oggetto, complemento, ecc.). Questo ci permette di ricostruire il significato intensionale della frase.
- È azionabile se è interpretabile e possiamo usarla per descrivere una situazione o riconoscerla, magari inserendola in un discorso più ampio.
La cosa affascinante è che possiamo esprimere la stessa idea (proposizione) in modi diversi (“Questa mela pesa 212.45 grammi”, “Il peso di questa mela è 212.45 grammi”), ma capiamo subito che il significato è lo stesso perché mappiamo intuitivamente i ruoli semantici.
E i dati? Possiamo vederli come modelli di un sistema referente (la realtà, un esperimento, ecc.). Una singola misurazione (es. il peso della mela) è un token model, un’istanza. Lo schema che definisce come registrare quel tipo di misurazione (es. una tabella con colonne ‘Oggetto’, ‘Qualità’, ‘Valore’, ‘Unità’ o un pattern in un grafo) è un type model o metamodel. Questi schemi di dati sono l’equivalente macchina degli alberi sintattici umani: definiscono slot (posizioni) con ruoli semantici associati (vincoli). Per essere interpretabili dagli umani, questi schemi dovrebbero rispecchiare la struttura delle frasi naturali corrispondenti.
Un Modello per Capirci Meglio: Interoperabilità Terminologica e Proposizionale
Basandomi su questa prospettiva linguistica, propongo un modello concettuale per l’interoperabilità semantica che distingue due livelli principali:
1. Interoperabilità Terminologica: Riguarda i singoli termini (risorse o valori nei dati).
- Interoperabilità Intensionale: Due termini hanno lo stesso significato intensionale (concetto) E lo stesso referente/estensione. Sono sinonimi stretti (es. mappabili con `owl:sameAs` o `skos:exactMatch`).
- Interoperabilità Estensionale: Hanno lo stesso referente/estensione, ma potrebbero avere definizioni leggermente diverse (es. ‘Plutone pianeta nano’ vs ‘Plutone pianeta’; entrambi si riferiscono allo stesso corpo celeste ma con classificazioni diverse). È mappabile con `owl:equivalentClass`. Questa è considerata il requisito minimo per l’interoperabilità terminologica.
Per raggiungere questo livello, abbiamo bisogno di entity mappings (mappature tra entità/termini) ben definite, magari usando standard come SSSOM.
2. Interoperabilità Proposizionale: Riguarda le frasi, le affermazioni complete (spesso rappresentate da più triple RDF o righe/colonne in tabelle).
- Interoperabilità Logica: Due affermazioni sono modellate usando lo stesso framework logico (es. OWL 2 DL), permettendo ragionamenti combinati.
- Interoperabilità di Schema: Due affermazioni dello stesso tipo (es. due misurazioni di peso) usano lo stesso schema di dati (stessi slot con stessi ruoli semantici). Se usano schemi diversi, abbiamo bisogno di schema crosswalks (mappature tra schemi) per renderle interoperabili. Anche qui, possiamo distinguere crosswalk intensionali (se i termini usati nei vincoli degli slot sono intensionalmente interoperabili) ed estensionali. L’interoperabilità di schema estensionale è il requisito minimo qui.
Il problema è che non ci sarà mai UN vocabolario universale o UN set di schemi perfetto per tutti. Differenti comunità, differenti scopi, differenti contesti richiedono modelli diversi. Pensate alla fisica: a volte serve un modello quantistico, a volte uno newtoniano. Entrambi validi nel loro contesto. Quindi, l’approccio “integrato” (tutti usano lo stesso standard) è irrealistico. Forse un approccio “unificato” (mappare tutto a un super-metamodello comune, una *lingua franca*) o “federato” (mappature punto-punto o mediate da ontologie) è più pragmatico. Ma in ogni caso, la chiave è fornire mappature esplicite (entity mappings) e crosswalk tra schemi (schema crosswalks).

Verso FAIR 2.0: Proposte Concreti per Migliorare
Alla luce di tutto ciò, credo che i principi FAIR originali debbano essere estesi per coprire meglio questi aspetti semantici, non solo per i metadati di base (provenienza, licenza) ma per *tutti* i dati. Ecco alcune proposte per un “FAIR 2.0”:
- A1.3 (Accessibilità): I (meta)dati devono rispettare le normative sulla protezione dei dati (es. GDPR) per garantire interoperabilità legale e organizzativa.
- I2 (Interoperabilità Terminologica):
- I2.1: Usare vocabolari controllati con sinonimi e etichette multilingue.
- I2.2: Mappare esplicitamente termini con stesso significato intensionale e/o estensione (entity mappings), usando standard e distinguendo i tipi di mapping.
- I2.3: I vocabolari devono fornire definizioni intensionali leggibili dall’uomo e, se appropriato, criteri di riconoscimento (diagnostici) per l’azionabilità umana.
- I4 (Interoperabilità Proposizionale):
- I4.1: Mantenere schemi uniformi per affermazioni dello stesso tipo (o collezioni di affermazioni), referenziando l’ID dello schema nei metadati.
- I4.2: Allineare e mappare schemi rilevanti per lo stesso tipo di affermazione tramite schema crosswalks.
- I4.3: Usare formalismi che distinguano chiaramente tra affermazioni lessicali, assertoriali (fatti specifici), contingenti (possibilità), prototipiche (tipicità) e universali (leggi generali). ‘Questo cigno è bianco’ è diverso da ‘Tutti i cigni sono bianchi’.
- I4.4: Specificare il framework logico usato (es. OWL, First Order Logic) per abilitare ragionamenti.
- R1.4 (Riusabilità): I metadati dovrebbero specificare il livello di certezza/confidenza del contenuto dei dati, cruciale per un riutilizzo corretto.
Non Bastano gli Oggetti Digitali: Serve un Ecosistema FAIR di Servizi
Raggiungere questa visione di FAIRness avanzata richiede più che organizzare i dati in FDO. La FAIRness non è una proprietà intrinseca del dato, ma una relazione con l’ecosistema (strumenti, servizi, comunità). Serve un vero e proprio Ecosistema FAIR basato su FAIR Services:
- Un Terminology Service: Un repository/registry per vocabolari, ontologie, ma soprattutto per *entity mappings* (come FDO curabili), con un servizio di look-up. Deve distinguere mapping intensionali ed estensionali.
- Uno Schema Service: Un repository/registry per schemi di dati (per grafi, tabelle, ecc.) e per *schema crosswalks* (come FDO curabili), con un servizio di look-up. Deve interagire col Terminology Service per gestire i vocabolari usati negli schemi.
- Un Operations Service: Un repository/registry per funzioni eseguibili (codice come FDO) che operano sui dati (conversioni di unità, analisi, trasformazioni tra schemi usando i crosswalk). Ogni funzione dovrebbe essere associata agli schemi/vocabolari su cui può operare.
Esistono già iniziative e strumenti in questa direzione (LOV, BioRegistry, OLS, SSSOM, MSCR, FAIRsharing, Mapping Commons, ecc.), ma serve uno sforzo coordinato e collaborativo, magari con istituzioni come le biblioteche che fungano da hub fidati in questo IFDS decentralizzato.

Il Futuro è FAIR (e Semanticamente Interoperabile)
In conclusione, se vogliamo davvero che l’Internet of FAIR Data and Services diventi realtà e che le macchine ci aiutino a navigare la crescente complessità dei dati, dobbiamo prendere sul serio l’interoperabilità semantica. Adottare una prospettiva linguistica ci aiuta a capire cosa serve: non solo vocabolari e schemi, ma anche e soprattutto le mappature e i crosswalk che li collegano. Estendere i principi FAIR e costruire un ecosistema di FAIR Services sono passi fondamentali in questa direzione. L’obiettivo è ambizioso, ma credo che sia la strada giusta per sbloccare davvero il potenziale nascosto nei nostri dati.
Fonte: Springer
