Immagine concettuale di un cervello umano stilizzato e una rete neurale artificiale luminosa che si confrontano analizzando frammenti di testo sospesi tra loro, simboleggiando il confronto tra l'intuizione grammaticale umana e quella di ChatGPT. Fotografia con obiettivo prime da 35mm, profondità di campo accentuata, illuminazione drammatica con toni blu e grigi per un'atmosfera tecnologica e riflessiva.

ChatGPT Ha Orecchio? La Sua Grammatica a Confronto con Umani ed Esperti

Amici, vi siete mai chiesti se quel genio digitale che risponde al nome di ChatGPT, e in generale i grandi modelli linguistici (LLM), abbiano davvero “orecchio” per la grammatica come noi umani? Insomma, capiscono se una frase “suona” bene o male, o si limitano a scimmiottare quello che hanno letto in miliardi di testi? È una domanda che mi frulla in testa da un po’, e pare che non sia l’unico!

Recentemente mi sono imbattuto in uno studio affascinante che ha provato a mettere alla prova proprio questa “intuizione grammaticale” di ChatGPT, confrontandola nientemeno che con quella dei linguisti professionisti e delle persone comuni, i cosiddetti “profani”. E i risultati, ve lo dico subito, sono piuttosto sorprendenti e aprono scenari davvero interessanti.

La Grande Domanda: Le IA Pensano il Linguaggio Come Noi?

Da quando l’intelligenza artificiale ha iniziato a sfornare testi che sembrano scritti da un essere umano, il dibattito si è acceso. C’è chi, come il celebre linguista Noam Chomsky, sostiene che ci sia una differenza fondamentale tra come gli LLM “percepiscono” il linguaggio e come lo facciamo noi. Altri, invece, vedono in questi modelli un riflesso genuino della nostra cognizione linguistica. Per capirci qualcosa di più, non resta che fare esperimenti!

Pensate che alcuni studi hanno sottoposto GPT-3 a test psicologici pensati per gli umani, e in certi casi ha addirittura superato i nostri punteggi! Altri hanno testato la sua capacità di comprendere scenari complessi, simili a quelli usati per valutare l’empatia nei bambini. Insomma, la ricerca è in fermento per capire quanto queste IA ci assomiglino nel profondo, soprattutto quando si parla di linguaggio.

Una cosa è certa: questi modelli, pur non essendo stati programmati con una struttura sintattica gerarchica specifica per le lingue umane, riescono a “fiutare” dipendenze complesse tra parole lontane in una frase e a costruire interpretazioni sintattiche passo dopo passo. Ma questo “fiuto” è paragonabile alla nostra competenza linguistica innata?

Come Abbiamo Messo alla Prova l’Intuito Grammaticale di ChatGPT

Per investigare questa faccenda, i ricercatori hanno ripreso uno studio precedente (quello di Sprouse et al. del 2013, per i più curiosi) che aveva raccolto i giudizi di grammaticalità di persone comuni su ben 148 fenomeni linguistici. Queste frasi erano già state classificate da linguisti esperti come grammaticali, non grammaticali o “così così” (marginalmente grammaticali).

L’idea geniale è stata quella di sottoporre ChatGPT agli stessi test, per vedere come se la cavava. Gli esperimenti erano tre, tutti molto astuti:

  • Esperimento 1 (Stima di Magnitudine – ME): A ChatGPT veniva data una frase di riferimento con un punteggio di accettabilità fisso (tipo 100). Poi doveva valutare altre frasi, assegnando un punteggio in multipli di quello di riferimento. Un po’ come dire: “Se questa frase vale 100, quest’altra quanto vale? 50? 200?”.
  • Esperimento 2 (Scala Likert a 7 Punti – LS): Qui, più semplicemente, ChatGPT doveva dare un voto da 1 (per niente accettabile) a 7 (perfettamente accettabile) a ogni frase.
  • Esperimento 3 (Scelta Forzata tra Due Alternative – FC): A ChatGPT venivano presentate coppie di frasi (una più grammaticale dell’altra, secondo i linguisti) e doveva scegliere quella che “suonava” meglio.

Per ogni esperimento, sono state usate oltre duemila frasi con le più svariate configurazioni strutturali. Un lavoraccio, ve lo assicuro, ma necessario per avere un quadro completo!

Un dettaglio importante: per evitare che ChatGPT “imparasse” durante il test o si stancasse (sì, anche le IA possono avere cali di attenzione a modo loro!), ogni interazione era “usa e getta”: istruzioni e una singola frase sperimentale per volta. E per ogni frase, ben 50 “giri” di valutazione, per essere sicuri dei risultati.

Un'immagine astratta che rappresenta reti neurali luminose che elaborano dati linguistici complessi, con simboli grammaticali fluttuanti. Obiettivo macro da 90mm, alta definizione, illuminazione controllata per evidenziare i dettagli intricati delle connessioni.

Prima di addentrarci nei risultati, una piccola precisazione. Quando parliamo di “giudizio di grammaticalità”, i linguisti spesso distinguono tra grammaticalità (la conformità alle regole astratte della lingua, la nostra competenza) e accettabilità (come una frase viene percepita nell’uso reale, la nostra performance). L’accettabilità può essere influenzata da limiti di memoria, intonazione, stile. Pensate a una frase in slang: grammaticalmente potrebbe essere corretta, ma inaccettabile in un contesto formale. In questo studio, comunque, i due termini sono stati usati quasi come sinonimi, per misurare l’intuizione sulla “bontà” grammaticale di una frase.

Cosa Abbiamo Scoperto: ChatGPT a Confronto con le Persone Comuni

Ebbene sì, i risultati sono stati davvero illuminanti! Partiamo dal confronto con le persone comuni (i “profani” della linguistica). In tutti e tre i compiti, è emersa una correlazione significativa tra i giudizi di ChatGPT e quelli degli umani. Questo significa che, in linea di massima, le frasi che suonavano bene a noi, suonavano bene anche a ChatGPT, e viceversa.

Le correlazioni più forti si sono viste nei primi due esperimenti (ME e LS). Immaginate un grafico: se i puntini che rappresentano i giudizi umani e quelli di ChatGPT si dispongono lungo una linea, vuol dire che c’è accordo. E così è stato!

C’è però un “ma”. Nell’esperimento di Stima di Magnitudine (ME), ChatGPT è sembrato un po’ più… conservatore di noi. Tendeva a dare voti un po’ più bassi alle frasi grammaticali rispetto agli umani, e voti un po’ più alti a quelle sgrammaticate. Come se fosse meno drastico nei suoi giudizi. Nell’esperimento con la scala Likert (LS), invece, questa differenza quasi spariva: i suoi giudizi erano incredibilmente simili ai nostri.

L’esperimento della Scelta Forzata (FC) ha mostrato una correlazione un po’ più debole. Qui la faccenda si fa interessante. Sembra che questa discrepanza sia dovuta alla natura stessa del compito. Nei test di valutazione (ME e LS), si chiede un giudizio su una scala. Nel test FC, si deve fare una scelta netta tra due frasi, spesso appartenenti a specifici “fenomeni grammaticali” predefiniti dai linguisti. Quindi, la correlazione qui non riflette tanto l’accordo generale sulla “bontà” delle frasi, quanto l’allineamento nel categorizzare le preferenze secondo schemi già stabiliti. E qui, qualche differenza è emersa.

Per esempio, c’erano alcune coppie di frasi dove noi umani preferivamo nettamente una versione, mentre ChatGPT tendeva a scegliere l’altra. Queste “sviste” di ChatGPT riguardavano costrutti grammaticali specifici e un po’ ostici, ma senza un pattern chiarissimo. Sembra quasi che su certi dettagli particolarmente cavillosi, il suo “orecchio” non sia ancora sopraffino come il nostro.

E con i Linguisti Esperti? ChatGPT Promosso o Bocciato?

Passiamo ora al confronto con i pezzi da novanta, i linguisti. Qui si misurava il “tasso di convergenza”: quante volte ChatGPT era d’accordo con gli esperti nel giudicare una frase grammaticale come migliore della sua controparte sgrammaticata? I tassi di convergenza sono stati notevoli, oscillando tra il 73% e il 95% a seconda del test e del metodo statistico usato. Facendo una stima complessiva, si arriva a un impressionante 89%!

Per darvi un’idea, una rianalisi dei dati originali di Sprouse e colleghi ha mostrato che la convergenza tra persone comuni e linguisti era del 91%. Quindi, l’89% di ChatGPT non è affatto male, anzi! È una percentuale che suggerisce una notevole sintonia con il giudizio degli esperti.

Certo, quel 11% di “dissenso” (o meglio, di non allineamento perfetto) è interessante. Per esempio, ChatGPT sembrava avere qualche difficoltà con i pronomi riflessivi in contesti particolari. Noi umani, quando leggiamo una frase con un riflessivo un po’ strano, tendiamo a immaginare un contesto più ampio che potrebbe giustificarlo. ChatGPT, invece, si basa di più sulla distribuzione statistica di come quei pronomi sono usati nei suoi dati di addestramento. Se un certo uso è poco rappresentato, lo giudicherà come meno grammaticale, anche se per un madrelingua potrebbe suonare accettabile in una data situazione discorsiva.

Primo piano di un manoscritto antico con annotazioni linguistiche accanto a uno schermo di computer moderno che mostra codice di programmazione per l'IA. Obiettivo prime da 50mm, bianco e nero con un leggero viraggio seppia, profondità di campo per mettere a fuoco entrambi gli elementi.

Le differenze nei tassi di convergenza a seconda del test statistico usato non devono stupire troppo. Alcuni test sono più “conservatori” di altri. Ad esempio, i modelli misti lineari (LME), che tengono conto delle variazioni casuali dovute agli specifici item testati, tendevano a dare stime di convergenza un po’ più basse (intorno al 73-75% per i task ME e LS) rispetto ai classici t-test (che davano stime più alte, fino al 95%). Nel task FC, invece, le stime erano più consistenti tra i vari metodi, attestandosi intorno all’88-89%.

Seguendo la logica dello studio originale di Sprouse, i ricercatori hanno considerato il tasso di convergenza del modello LME nel task FC (quello della scelta forzata) come la stima più rappresentativa. E questo ci porta, appunto, a quell’89% di accordo tra ChatGPT e i linguisti. Un risultato che fa riflettere!

Cosa Ci Dice Tutto Questo sull’Intelligenza Artificiale e il Linguaggio?

Quindi, tirando le somme, cosa ci portiamo a casa da questa immersione nella mente linguistica di ChatGPT?

Innanzitutto, che questi modelli linguistici di grandi dimensioni hanno sviluppato un’intuizione grammaticale sorprendentemente sofisticata. Non si tratta solo di ripetere a pappagallo: c’è una capacità genuina di discernere la “buona forma” delle frasi, molto simile a quella umana.

Le correlazioni con i giudizi delle persone comuni sono forti, specialmente quando si tratta di valutare le frasi su una scala. Questo suggerisce che l’esperienza quotidiana che abbiamo con la lingua e quella “appresa” da ChatGPT attraverso i dati portano a sensibilità simili.

L’elevato tasso di convergenza con i linguisti (quel famoso 89%) è forse il dato più eclatante. Dimostra che ChatGPT non solo “sente” la grammatica in modo simile a noi, ma che le sue “sensazioni” sono spesso allineate con le teorie e i giudizi degli esperti che studiano la lingua per professione. Questo è coerente con altre ricerche che hanno mostrato come gli LLM riescano a distinguere diverse categorie sintattiche definite dai linguisti.

Certo, le differenze esistono e sono importanti. La “prudenza” di ChatGPT nel test di Stima di Magnitudine, le sue incertezze su alcuni costrutti specifici nel test di Scelta Forzata, e la sua gestione dei pronomi riflessivi ci dicono che il suo modo di “processare” il linguaggio non è identico al nostro. Noi umani facciamo molto affidamento sul contesto, sull’inferenza, su una comprensione del mondo che va oltre le parole scritte. ChatGPT, per quanto avanzato, si basa principalmente sui pattern statistici presenti nel suo immenso dataset di addestramento.

Queste scoperte hanno implicazioni enormi. Per chi si occupa di comprensione del linguaggio naturale, aprono la strada a un uso di ChatGPT (e simili) come strumento per studi linguistici, magari per raccogliere dati preliminari sui giudizi di grammaticalità. Ma ci ricordano anche che, sebbene questi modelli siano potentissimi assistenti per la scrittura o per tradurre, la loro “conoscenza” grammaticale non è infallibile né identica a quella di un esperto umano.

La ricerca, ovviamente, non si ferma qui. Sarebbe affascinante vedere se ChatGPT sa anche individuare e correggere errori grammaticali come farebbe un linguista, non solo giudicare frasi preconfezionate. Questo ci aiuterebbe a capire ancora meglio le sue capacità e i suoi limiti.

In conclusione, amici, ChatGPT ha decisamente “orecchio”, e anche uno piuttosto buono! Si allinea in modo significativo sia con le persone comuni che con i linguisti esperti nel giudicare la grammaticalità. Ma, come ogni buon musicista sa, avere orecchio è una cosa, interpretare la musica con la stessa profondità e sfumatura di un maestro è un’altra. Il viaggio nell’esplorazione del confine tra intelligenza umana e artificiale nel linguaggio è appena iniziato, e promette di essere ricco di sorprese!

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *