Svelare i Segreti delle Parole: Esponenza e Informazione Discriminativa nei Paradigmi Linguistici
Ciao a tutti! Avete mai pensato a come facciamo a capire il significato delle parole, specialmente quando cambiano forma? Sembra banale, ma dietro c’è un mondo affascinante che noi linguisti cerchiamo di esplorare. Per un sacco di tempo, la linguistica si è concentrata su come noi, parlanti, *produciamo* le frasi. Immaginate un po’ come costruire con i LEGO: abbiamo dei pezzi base (fonemi, morfemi, parole) e delle regole per metterli insieme e creare qualcosa di nuovo. L’obiettivo? Spesso è l’efficienza, la semplicità, un po’ come seguire il famoso rasoio di Occam per trovare la grammatica più “economica”.
Ma c’è un’altra faccia della medaglia, spesso trascurata: la *comprensione*. Come facciamo, da ascoltatori, a decifrare il significato partendo da quello che sentiamo o leggiamo? È lo stesso processo al contrario? Non proprio. E qui entra in gioco il concetto di esponenza nella morfologia flessiva (quelle piccole modifiche alle parole che indicano tempo verbale, numero, genere, ecc.).
Produzione vs. Comprensione: Due Facce della Stessa Medaglia?
Mettiamola così: quello che è efficiente per costruire una parola non è necessariamente la cosa più utile per capirla al volo. Pensiamo al latino, una lingua che adoro per i suoi rompicapi morfologici. Prendiamo qualche verbo e guardiamo le forme attive e passive.
Tabella 1: Esempi di forme verbali latine (attivo vs passivo)
(Qui immaginate una tabella simile a quella del testo originale con forme come amo/amor, video/videor, duco/ducor, audio/audior al presente e futuro)
Se volessi *produrre* il passivo dall’attivo, potrei notare che basta aggiungere “-ri” o “-er”. Semplice, no? Due regolette e via. Potrei pensare a questi come varianti (allomorfi) di un unico “pezzo” che significa “passivo”.
Ma se fossi un antico romano che *ascolta* queste parole, cosa mi aiuterebbe a capire “Ah, questa è una forma passiva!”? Noterei subito la presenza della ‘r’ finale, che c’è in tutte le forme passive qui e non nelle attive. Anche la ‘i’ finale in audio è un indizio forte. In altre forme, come amberis o vidberis (forme fittizie basate sulla logica dell’esempio originale), la ‘e’ potrebbe essere specifica del futuro passivo. Altri suoni danno indizi parziali: la ‘i’ finale in video e amo c’è nel passivo ma anche nel futuro attivo.
Vedete? I pezzi che isoliamo per capire (discriminare) non sono per forza gli stessi che useremmo per costruire. La ‘r’ da sola è un ottimo indizio per il passivo, anche se nella produzione faceva parte di “-ri” o “-er”. L’analisi cambia a seconda della prospettiva!

La Comprensione: Il Lato Mancante della Morfologia?
È incredibile quanto poco spazio abbia avuto la comprensione nelle teorie morfologiche tradizionali. Già Hockett nel 1954, parlando dei modelli principali (Item-and-Arrangement, Item-and-Process, Word-and-Paradigm), li descriveva tutti in termini di *produzione* di forme. Il suo requisito era chiaro: un modello grammaticale deve essere “produttivo”, capace di creare nuove frasi.
Anche tipologie più recenti, come quella di Stump (2001), che parla di teorie lessicali/inferenziali e incrementali/realizzazionali, finiscono per descrivere meccanismi di produzione. Le teorie incrementali aggiungono pezzi per creare forme flesse; quelle realizzazionali introducono forme per “realizzare” significati grammaticali già presenti. Persino gli approcci più moderni basati sul paradigma (Word and Paradigm), che si concentrano su analogie e relazioni implicative per predire forme sconosciute (il famoso Paradigm Cell Filling Problem, PCFP – come riempire le caselle vuote di un paradigma?), sono ancora focalizzati sulla produzione.
Certo, ci sono eccezioni notevoli. Penso ai lavori di Baayen e colleghi (2016, 2019) con i loro modelli “discriminativi” (NDL, LDL). Loro sì che hanno messo la comprensione al centro! I loro modelli imparano a discriminare i significati partendo dalle forme superficiali (scritte, suoni) senza necessariamente spezzettare le parole in morfemi tradizionali. Un lavoro pionieristico che ha dimostrato che si può imparare a capire senza bisogno di unità predefinite come i morfemi.
Ma questo significa che non ha senso cercare unità più piccole delle parole per studiare la comprensione? Io credo di no. Se i modelli di Baayen funzionano, è perché le forme flesse *presentano* dei contrasti formali ricorrenti che veicolano informazioni. È su questi contrasti che voglio concentrarmi.
Il Problema del Riconoscimento della Cella Paradigmatica
Se esiste un problema nel “riempire le caselle” (produzione), deve esisterne uno speculare nel “riconoscere la casella” (comprensione). L’ho chiamato (seguendo Beniamine, 2018) il Paradigm Cell Recognition Problem (PCRP): data una parola flessa, cosa nella sua forma ci permette di inferirne le proprietà morfosintattiche (tempo, modo, persona, numero…)?
Questa domanda riguarda le proprietà discriminative delle parole. E qui ridefinisco l’esponenza in modo un po’ diverso dal solito: non solo come l’associazione tra forma e significato, ma come il fenomeno per cui parti di parole forniscono informazioni sul significato flessivo. Quali sono gli indizi? Quali pezzetti di parola sono discriminativi, e quanto?
Le Sfide dell’Esponenza: Segmentazione e Significato
Ogni teoria dell’esponenza deve affrontare due problemi principali:
- Segmentazione: Come “tagliamo” le parole complesse in pezzetti significativi (che chiamo formativi)? Sorprendentemente, non c’è un metodo universalmente accettato per farlo!
- Assegnazione del significato: Una volta tagliata la parola, che informazione grammaticale fornisce ciascun pezzetto?
Sarebbe tutto facile se le lingue fossero perfettamente “agglutinanti”, con un pezzetto di forma per ogni pezzetto di significato (1:1). Ma la realtà è molto più complessa: fusioni, significati multipli per una forma (sincretismo), forme multiple per un significato (allomorfia, esponenza multipla/verbosa)… un bel pasticcio!
Prendiamo l’Ainu (lingua indigena del Giappone). In certi verbi, c’è un prefisso eci- che compare in un insieme di celle del paradigma un po’ strano: tutte le seconde persone plurali (soggetto e oggetto) MA ANCHE quando il soggetto è prima persona e l’oggetto è seconda singolare. Non è una “classe naturale” perfetta. Le teorie orientate alla produzione cercano di “sistemare” questa cosa, magari dicendo che eci- significa “seconda plurale” (ignorando due casi) o “seconda persona” (includendo casi in cui non c’è). Si cerca la descrizione più elegante e generale per la *produzione*.

Ma dal punto di vista della *comprensione*, questa “irregolarità” è informazione pura! Sentire eci- restringe le possibilità a quell’insieme specifico di celle, anche se non è “naturale”. Normalizzare la distribuzione significherebbe perdere informazione discriminativa. Per questo, la mia teoria si astiene dal cercare a tutti i costi corrispondenze 1:1. La variazione è informativa!
Lo stesso vale per l’allomorfia (varianti di forma per lo stesso significato). A volte, la scelta tra allomorfi dipende dal contesto fonologico, ma quel contesto può essere esso stesso legato ad altri significati. In Ngkolmpu (lingua della Nuova Guinea), un suffisso per il modo potenziale ha due forme: -mo dopo vocale, -omo dopo consonante. Utile per la produzione. Ma per la comprensione, sentire -omo mi dice non solo che è potenziale, ma anche che l’aspetto è durativo (perché solo nel durativo il suffisso segue una consonante). L’allomorfia diventa discriminativa!
Una Teoria Formale dell’Esponenza Discriminativa
Ok, basta chiacchiere, passiamo alla teoria! Ho sviluppato un modello formale, basato sulla teoria degli insiemi (espandendo il lavoro di Carroll, 2022), per catturare questa idea di esponenza come informazione discriminativa. La cosa bella? È abbastanza esplicito da poter essere implementato al computer. Questo garantisce che la teoria sia ben definita e permette di analizzare grandi quantità di dati in modo sistematico e comparabile tra lingue diverse – una manna dal cielo per la tipologia linguistica!
Parole e Paradigmi come Punto di Partenza
Partiamo dall’unità base: la parola flessa (ω), che è un trio:
- Una forma (W): la sequenza di suoni/lettere.
- Una cella (Σ): l’insieme di tratti grammaticali (es. {PRESENTE, INDICATIVO, 1, SINGOLARE}).
- Un indice lessicale (l): che identifica il lessema (es. il verbo ‘amare’).
Un paradigma (λ) è semplicemente l’insieme di tutte le parole flesse che condividono lo stesso indice lessicale. L’insieme delle celle presenti in un paradigma lo chiamo C.
Segmentare per Comprendere: I Formativi
Ora, come segmentiamo queste parole per trovare gli indizi? Non possiamo partire dai significati (perché la relazione non è 1:1). Prendo spunto da Pike (1963): cerchiamo semplicemente le sotto-sequenze ricorrenti all’interno del paradigma. Chiamo queste sotto-sequenze formativi. Un formativo è la più lunga sotto-sequenza contigua che ricorre sempre insieme.
Per farlo, uso una tecnica chiamata “allineamento multiplo di sequenze”. Allineo tutte le forme di un paradigma una sotto l’altra, mettendo i suoni identici nella stessa colonna. Le colonne dove trovo lo stesso segmento in più celle mi indicano una ricorrenza.
Tabella 8b (rielaborata): Allineamento condensato dei prefissi oggetto Fore
(Immaginate una tabella con righe per le combinazioni persona/numero e colonne per i segmenti allineati, mostrando dove ricorrono ‘n’, ‘a’, ‘t’, ‘k’, ‘s’, ‘i’)
Identifico così i formativi (es. ‘n’, ‘a’, ‘t’ nell’esempio Fore). Lo faccio anche su “piani” diversi (tiers), per catturare l’esponenza soprasegmentale (toni, nasalizzazione…). I pezzi che sono costanti in *tutto* il paradigma (parte del tema) non danno informazione flessiva e li metto da parte per ora. Ogni formativo è definito dalla sua forma fonologica (f), dal piano (T) e dalla sua posizione (slot, S).
La cosa cruciale è la distribuzione di un formativo: l’insieme delle celle del paradigma in cui compare. Questa distribuzione è la base per capirne il significato.

Dal Formativo al Significato: Descrittori ed Esponenza
La distribuzione ci dice tutto, ma possiamo generalizzare? Torniamo all’esempio dei dimostrativi Ngarnka (lingua australiana). C’è un prefisso m- che compare in {singolare.vegetale, duale.vegetale, plurale.vegetale}. Cosa significa? Chiaramente indica {vegetale}. Non dà informazioni sul numero.
Per formalizzare questo, introduco i descrittori. Un descrittore (d) è un insieme non vuoto di tratti (es. {VEGETALE}) che è sottoinsieme di almeno una cella. (delta_l(d)) è l’insieme di tutte le celle del paradigma l che contengono quel descrittore.
Per un dato formativo f, considero l’insieme (Delta_f) di tutti i suoi descrittori validi: quelli che descrivono *solo* celle presenti nella distribuzione di f.
Ma non basta. (Delta_f) può contenere descrittori ridondanti (uno è sottoinsieme di un altro) o non informativi (se un formativo compare con *tutti* i valori di un tratto, quel tratto non è informativo). Quindi, definisco l’esponenza (il significato discriminativo) di un formativo f, exp(f), come l’insieme dei descrittori in (Delta_f) che sono:
- Minimali: Non c’è un altro descrittore valido che descrive un sottoinsieme delle sue celle.
- Informativi: Non è un valore di un tratto per cui il formativo compare con *tutti* i valori.
Ad esempio, per il formativo -a- nei prefissi Fore (distribuzione: {sg.1, sg.2, sg.3, pl.1, du.1}), l’esponenza risulta essere { {SG}, {1} }, che possiamo leggere come “singolare OPPURE prima persona”. Per il formativo -t- (distribuzione: {pl.1, pl.2, du.1, du.2}), nessun descrittore più piccolo è valido e informativo, quindi la sua esponenza è l’insieme stesso delle celle: { {PL, 1}, {PL, 2}, {DU, 1}, {DU, 2} }.
Questo approccio multidimensionale cattura meglio l’interdipendenza delle informazioni rispetto a modelli precedenti che guardavano un tratto alla volta.
La Teoria in Pratica: Esempi Illuminanti
Vediamo come funziona con gli esempi che abbiamo già incontrato.
Passivi Latini: Segmentazione Fine e Informazione Nascosta
Tornando ai nostri verbi latini (Tabella 14 nel testo originale, con segmentazione fine), l’analisi basata sulle distribuzioni produce formativi molto piccoli. Ad esempio, in audio, /r/ e /i/ hanno la stessa distribuzione (tutte le forme passive mostrate) e formano il formativo -ri- che significa {PASSIVO}. Ma in video e amo, /r/ significa {PASSIVO}, mentre /i/ ha una distribuzione diversa ({passivo, futuro.attivo}) e quindi significa {PASSIVO, FUTURO}. La segmentazione cambia leggermente tra verbi perché l’informazione fornita dagli stessi suoni è diversa! Questo cattura fenomeni come la cumulazione (un formativo esprime più tratti insieme, es. /e/ in video significa {FUTURO.PASSIVO}) e il sincretismo (un formativo corrisponde a celle diverse, es. /i/ in video significa {PASSIVO, FUTURO}).
Ngkolmpu e Ainu: Oltre le Classi Naturali
In Ngkolmpu (Tabella 16/17), invece di considerare prefissi come sr- o sw- come blocchi unici, il mio metodo segmenta la s- ricorrente separatamente. Questo cambia l’analisi: invece di avere sr- che significa {FUTURO}, abbiamo s- (con un significato più ampio, forse {FUTURO, PERFETTIVO}) e r- (anche lui con un significato legato al futuro). Questo rivela un’esponenza verbosa (più formativi per lo stesso tratto) che un’analisi orientata alla produzione potrebbe nascondere per semplicità.
Similmente in Ainu (Tabella 18), invece di forzare eci- ad avere un significato “naturale”, segmento e- e ci- separatamente. e- ha una distribuzione più ampia e quindi un significato diverso (e meno specifico) rispetto a ci-. L’esponenza di eci- (se lo trattassi come unità) sarebbe {S1.O2, S2.Spl, O2.Opl}, mentre per e- e ci- ottengo descrizioni più fini che riflettono meglio l’informazione parziale che ciascuno fornisce. Il punto è evitare di imporre le nostre aspettative di “bellezza” o “naturalità” all’analisi, lasciando che sia l’informazione discriminativa presente nei dati a guidarci.

Prefissi Oggetto Fore: Un’Analisi Sistematica
Infine, i prefissi Fore (Figura 2). L’analisi formale che propongo produce risultati quasi identici a quelli intuitivi di Pike (1963)! Dove Pike parlava di “X e Y” (cumulazione), la mia analisi produce un set interno {X, Y}. Dove parlava di “X o Y” (sincretismo), produce un set esterno { {X}, {Y} }. Questo dimostra che l’approccio formale cattura sistematicamente le generalizzazioni corrette. Una cosa che Pike notava e che qui ho solo accennato è l’importanza dell’assenza di un formativo. Anche non trovare un pezzo atteso può essere informativo! È un’area per ricerche future.
Conclusioni: Verso una Morfologia Comparativa Basata sull’Informazione
Spero di avervi convinto che guardare la morfologia dal lato della comprensione apre prospettive nuove e affascinanti. Abbiamo visto che le generalizzazioni utili per capire non sono le stesse di quelle per produrre. Ho proposto un quadro teorico e metodologico basato sull’informazione discriminativa fornita dai formativi (i più piccoli pezzi ricorrenti).
I vantaggi?
- Analisi univoche: Dato un set di dati, il metodo produce una sola analisi, basata su principi formali, evitando l’arbitrarietà di certe scelte nelle teorie produttive.
- Interpretabilità: I risultati sono espressi in termini chiari di insiemi di tratti.
- Comparabilità: Essendo un metodo formale e implementabile, garantisce che le analisi siano confrontabili tra lingue diverse, fondamentale per la tipologia.
- Scalabilità: Può essere applicato a grandi lessici per studiare in dettaglio fenomeni complessi come sincretismo, cumulazione ed esponenza verbosa su larga scala.
Non sto dicendo che i parlanti facciano esattamente questi calcoli nella loro testa! Quello è un problema cognitivo ancora aperto. Io mi sono concentrato su *quale* informazione è oggettivamente presente nelle forme linguistiche e *potrebbe* essere usata per la comprensione. È un passo necessario per capire poi cosa effettivamente succede nella mente umana.
La strada è ancora lunga, ma credo che questo approccio basato sull’informazione discriminativa possa davvero aiutarci a svelare nuovi segreti nascosti nella struttura delle parole.
Fonte: Springer
