Quando le Leggi Parlano Vago: Gli LLM Possono Aiutarci a Capirle Meglio?
Ammettiamolo, a volte leggere un testo di legge può sembrare come decifrare un antico manoscritto. Termini che sembrano chiari a una prima lettura, ma che poi, a ben guardare, aprono un mondo di interpretazioni. Ecco, nel gergo tecnico, questa caratteristica si chiama “open-texture”: parole o frasi vaghe, ambigue, non specificate a sufficienza o concetti astratti che pullulano nei documenti normativi. E credetemi, non è un problema da poco!
Cos’è Questa “Open-Texture” e Perché Dovrebbe Interessarci?
L'”open-texture” è un po’ come il sale nella minestra: un pizzico può dare sapore, ma troppo rovina tutto. Da un lato, i legislatori a volte la usano strategicamente, magari per raggiungere un consenso più ampio o per far sì che una legge possa adattarsi a casi futuri non ancora immaginabili. Pensate a termini come “ragionevole”, “periodicamente” o “interesse pubblico”. Chi stabilisce cosa sia “ragionevole” in ogni singolo contesto? Questa flessibilità può essere positiva, perché permette ai tribunali di interpretare e adattare la legge nel tempo, un meccanismo fondamentale nelle nostre democrazie.
Dall’altro lato, però, questa vaghezza ha i suoi contro. Innanzitutto, l’incertezza legale costa. Costa tempo, denaro per consulenze e processi, e spesso chi ne fa le spese sono i gruppi sociali più svantaggiati che non possono permettersi lunghe battaglie legali. E se l’interpretazione finale si discosta troppo da quella che avevano in mente i nostri rappresentanti eletti? Un bel pasticcio.
Ma c’è un’altra sfida, più moderna: l’“Automatically Processable Regulation” (APR), o regolamentazione processabile automaticamente. L’idea è quella di trasformare le leggi scritte in linguaggio naturale in codice informatico, in modo che i computer possano “capirle” ed eseguirle. Immaginate sistemi che calcolano automaticamente se avete diritto a un bonus fiscale o che gestiscono procedure burocratiche. Fantascienza? Non proprio, ci sono già esempi funzionanti. Il problema è: come si traduce in codice un termine “open-textured”? Se una norma dice che qualcosa va fatto “periodicamente” senza specificare ogni quanto, un computer va in tilt. È come chiedere a un navigatore di portarvi “da qualche parte a nord”.
Identificare queste zone d’ombra, questi termini “open-textured”, diventa quindi cruciale se vogliamo che l’APR diventi una realtà diffusa e affidabile. Finora, questo lavoro è stato fatto da esseri umani, annotatori esperti, ma è un processo lungo, costoso e, come vedremo, non privo di grattacapi.
Entrano in Scena gli LLM: I Nostri Nuovi Detective Linguistici?
Qui entro in gioco io, o meglio, il mio team di ricerca. Ci siamo chiesti: e se i Large Language Models (LLM), quei cervelloni artificiali come GPT-3.5-turbo o LLaMA-2, potessero darci una mano? Questi modelli sono diventati incredibilmente bravi a capire e generare linguaggio umano, quindi perché non metterli alla prova su un compito così ostico come scovare l’open-texture nei testi legali?
L’idea era di vedere se gli LLM potessero essere un’alternativa efficiente, o almeno un valido aiuto, agli annotatori umani. Dopotutto, la ricerca ha mostrato che anche gli umani faticano a mettersi d’accordo su cosa sia “open-textured”. Spesso, per esempio, gli avverbi come “chiaramente visibile” o “regolarmente aggiornato” vengono segnalati come non abbastanza specifici. Ma raggiungere un consenso richiede tempo e più round di revisione.
Il concetto di “open-texture” non è nuovo. Già il filosofo Waismann ne parlava nel 1945, distinguendo tra termini il cui significato equivoco poteva essere eliminato con una definizione più precisa, e quelli intrinsecamente “aperti”. Nel diritto, c’è chi distingue tra norme che portano a risultati legali univoci basati su fatti misurabili e norme la cui interpretazione dipende dal contesto politico, sociale e culturale. Altri, come il famoso H.L.A. Hart, sostengono che l’incertezza sia intrinseca al linguaggio e quindi al diritto stesso. Insomma, un bel dibattito filosofico che ha implicazioni pratiche enormi: se nemmeno gli esperti sono sempre d’accordo, come possiamo aspettarci che lo siano macchine e umani, o umani tra loro?
Per rendere le cose più gestibili, abbiamo scomposto l'”open-texture” in categorie non esclusive:
- Vaghezza: termini come “abbastanza grande”.
- Ambiguità: una parola con più significati, come “pesca” (il frutto o l’azione).
- Sotto-specificazione: termini come “alcuni” o “pochi”.
- Concetti astratti: come “equità”, “giustizia”.
E poi ci sono i “concetti essenzialmente contestati” (come “democrazia” o “stato di diritto”) e i “concetti spessi” (thick concepts) che sono sia descrittivi che valutativi (come “coraggioso”). Questi ultimi sono particolarmente interessanti perché la loro “apertura” dipende dalla visione del mondo di chi interpreta.
L’Esperimento: GDPR Sotto la Lente d’Ingrandimento degli LLM
Per testare la nostra ipotesi, abbiamo preso un testo bello tosto: il Regolamento Generale sulla Protezione dei Dati (GDPR). Un documento che interessa tutti noi e che è al centro di molti sforzi per creare APR nel campo della privacy. Abbiamo sguinzagliato due LLM: il popolare gpt-3.5-turbo (quello dietro molte versioni di ChatGPT, per intenderci) e l’open-source llama-2-70b-chat.
Poi abbiamo chiesto a 12 studenti di giurisprudenza, i nostri annotatori umani, di valutare il lavoro degli LLM. A ciascuno è stata data una porzione del GDPR in cui i termini identificati come “open-textured” dagli LLM erano evidenziati. Il loro compito era triplice:
- Leggere il testo.
- Per ogni termine segnalato dall’LLM, decidere se fosse effettivamente “open-textured” (e perché, scegliendo tra quattro “domande grilletto” che definiscono l’open-texture) oppure no.
- Evidenziare eventuali altri termini “open-textured” che l’LLM si era perso.
Questo ci ha permesso di calcolare precisione (quanti termini segnalati erano corretti) e recall (quanti termini “open-textured” totali sono stati trovati) per ciascun LLM, usando il giudizio (a maggioranza) degli annotatori come “verità di base”.
I Risultati: Sorprese e Conferme
Ebbene, i risultati sono stati illuminanti! Prima conferma: come sospettavamo (e come studi precedenti avevano indicato), l’accordo tra gli annotatori umani su cosa costituisca “open-texture” è basso. Questo la dice lunga sulla soggettività intrinseca del compito.
Passando agli LLM:
- gpt-3.5-turbo si è comportato decisamente bene, con un F1-score (una metrica che combina precisione e recall) di 0.84. La sua precisione è stata dell’85%, il che significa che la maggior parte dei termini che ha segnalato erano effettivamente considerati “open-textured” dai nostri annotatori. Anche la recall è stata alta (84%), indicando che non si è perso troppi termini vaghi.
- llama-2-70b-chat ha avuto un F1-score più basso, 0.67. La sua precisione è stata del 53%, ma la recall è stata sorprendentemente alta (92%), suggerendo che tende a identificare quasi tutti i termini potenzialmente problematici, anche se a volte esagera un po’.
Un dato molto interessante è che, combinando l’output degli LLM con la revisione umana, abbiamo trovato un numero significativamente maggiore di termini e clausole “open-textured” nel GDPR rispetto a studi precedenti che si basavano solo su annotatori umani. Ad esempio, con gpt-3.5-turbo, ben l’89% delle clausole del GDPR conteneva almeno un termine “open-textured”! Questo sembra dare ragione a chi, come Hart, sostiene che l’open-texture sia una caratteristica pervasiva del diritto.
Quindi, gpt-3.5-turbo sembra uno strumento promettente, capace non solo di eguagliare ma forse anche di superare le performance umane in termini di completezza, e con un dispendio di risorse nettamente inferiore. C’è un “ma”, però: solo il 42% dei termini segnalati dagli umani in uno studio precedente è stato confermato da gpt-3.5-turbo in questo. Questo ci porta a concludere con cautela che sì, gpt-3.5-turbo è bravo, ma la questione di cosa sia oggettivamente “open-texture” resta, appunto, aperta.
Non Tutti gli LLM Sono Uguali (e Nemmeno i Prompt!)
Il mondo degli LLM è in continua evoluzione, con nuovi modelli che spuntano come funghi. Ci siamo quindi chiesti quanto i nostri risultati fossero legati ai specifici LLM usati e al modo in cui li avevamo “interrogati” (il cosiddetto “prompt”).
Abbiamo fatto un ulteriore test con altri quattro LLM (Gemma2, Mixtral, Llama3 e il potente GPT-4o) e sei variazioni di prompt (con e senza domande guida, con e senza esempi “few-shot”). In generale, abbiamo visto che:
- Aggiungere le quattro domande guida nel prompt (quelle usate anche dagli annotatori umani) ha migliorato l’accuratezza dei modelli.
- Anche fornire alcuni esempi (“few-shot learning”) ha aiutato i modelli ad avvicinarsi di più a quello che consideravamo il “ground truth”.
- Modelli diversi reagiscono in modo diverso ai prompt. Ad esempio, Mixtral si è distinto per risultati piuttosto differenti dagli altri, forse per la sua architettura particolare (“Sparse Mixture of Experts”).
- C’è una certa omogeneità tra i modelli più recenti (escludendo Mixtral), e il miglioramento ottenuto con un “prompt engineering” sofisticato è relativamente piccolo. Questo, in un certo senso, rafforza la validità delle nostre “verità di base” iniziali.
I risultati sembrano migliorare con le nuove generazioni di LLM, ma è un campo in rapido movimento!
Perché Tanta Discordia? La Soggettività dell’Interpretazione
Il basso accordo tra annotatori non ci ha sorpreso più di tanto. La filosofia (con la Scuola dell’ermeneutica di Ricoeur), la psicolinguistica e persino le scienze politiche offrono spiegazioni. L’interpretazione è un processo soggettivo: ognuno di noi porta il proprio bagaglio di conoscenze, esperienze, e persino la propria sensibilità linguistica e culturale, quando legge un testo. Fattori come la memoria di lavoro, le abilità di comprensione, l’esperienza, la conoscenza di altre lingue e, secondo alcuni studi, persino l’orientamento politico (ad esempio, alcuni ricercatori suggeriscono che i conservatori potrebbero essere meno tolleranti all’ambiguità e preferire i sostantivi) possono influenzare come percepiamo e risolviamo l’ambiguità testuale.
Pensateci: per riconoscere un concetto come “essenzialmente contestato”, bisogna essere stati esposti a visioni del mondo diverse dalla propria. Se vivo in una bolla dove tutti la pensano come me sulla “giustizia fiscale”, potrei non rendermi conto che quel concetto è tutt’altro che univoco.
Quindi, non c’è da stupirsi se persone diverse (o persone e LLM) non concordano su ogni singola parola “open-textured”.
Cosa Significa Tutto Questo per il Futuro del Diritto (e dell’APR)?
Nonostante le sfide, i nostri risultati sono incoraggianti. L’uso di LLM come gpt-3.5-turbo potrebbe davvero accelerare e rendere meno costosa l’identificazione delle parti di un regolamento che possono essere trasformate in APR. Non immaginiamo che gli LLM sostituiranno completamente gli umani, almeno non a breve. Piuttosto, li vediamo come assistenti potentissimi: l’LLM propone, l’umano valuta, corregge, integra. Un “human-in-the-loop”, come si dice in gergo.
Certo, l’alta percentuale di clausole “open-textured” nel GDPR (quasi il 90%!) potrebbe far pensare che trasformarlo in APR sia una missione impossibile. Ma attenzione: “difficile” non significa “impossibile”. Molti termini vaghi potrebbero essere resi più concreti con definizioni aggiuntive, linee guida o interpretazioni giurisprudenziali consolidate. Il nostro lavoro è un punto di partenza per capire dove concentrare gli sforzi di chiarificazione.
È fondamentale, però, essere consapevoli dei limiti e dei rischi. Bisogna evitare la trappola di pensare che esista una sola interpretazione valida di un testo, soprattutto quando si usano strumenti che possono dare un’illusione di oggettività. La trasparenza su come questi strumenti funzionano e sulle loro limitazioni sarà cruciale, specialmente con normative come l’AI Act europeo alle porte.
Prossimi Passi: La Ricerca Continua
Il nostro viaggio nell’open-texture è appena iniziato. Ci sono ancora tante domande a cui rispondere:
- Come possiamo assicurarci che gli annotatori (umani o LLM) stiano valutando l’open-texture a livello dell’intero testo e non solo della singola frase? Forse istruendoli a leggere tutto prima, o presentando loro porzioni più brevi.
- Cosa succederebbe se considerassimo non solo il testo della legge, ma anche tutte le altre fonti legali autorevoli (sentenze, dottrina) per cercare di restringere l’interpretazione? Questo richiederebbe esperti legali e, di nuovo, gli LLM potrebbero aiutare a sintetizzare queste informazioni.
- Come tenere conto di fattori esterni, come la volontà dei cittadini di portare un caso in tribunale per contestare una definizione, o la “sensibilità” di un termine a essere messo in discussione?
Un’area che mi affascina particolarmente è la connessione tra termini legali e “sensory grounding”, cioè il loro legame con dati sensoriali del mondo reale, specialmente per i sistemi ciber-fisici (pensate alle auto a guida autonoma). Come tradurre un requisito di “visibilità adeguata” in letture specifiche di sensori, tenendo conto della contestualità della situazione? Un bel rompicapo!
In conclusione, sebbene l’identificazione dell’open-texture sia un compito complesso e intriso di soggettività, gli LLM si stanno dimostrando strumenti promettenti per affrontarlo. Non sono una bacchetta magica, ma possono sicuramente aiutarci a navigare meglio le acque a volte torbide del linguaggio giuridico, aprendo la strada a una regolamentazione più chiara e, forse un giorno, ampiamente automatizzabile. Ma sempre con l’intelligenza umana a fare da bussola.
Fonte: Springer