ChatGPT Corregge i Compiti: Un Assistente Affidabile o un Rischio per la Valutazione?
Ragazzi, parliamoci chiaro. Da quando è spuntata l’Intelligenza Artificiale generativa come ChatGPT, il mondo dell’educazione è in subbuglio. All’inizio, diciamocelo, un po’ di panico c’è stato: “Oddio, gli studenti copieranno tutto!”, “Come faremo a valutare?”. Ma poi, come spesso accade con le novità tecnologiche, abbiamo iniziato a chiederci: e se invece di vederla come una minaccia, provassimo a usarla a nostro vantaggio? In fondo, ignorare questi strumenti è impossibile, tanto vale capire come integrarli nel nostro lavoro quotidiano.
Una delle aree più “calde” è sicuramente quella della valutazione dei testi scritti. Immaginate: un assistente instancabile che legge e valuta decine, centinaia di temi, relazioni, saggi… un sogno per molti insegnanti, vero? Ma la domanda sorge spontanea: possiamo davvero fidarci? ChatGPT è abbastanza “bravo” da sostituire l’occhio esperto (e a volte stanco, ammettiamolo) di un docente?
La Sfida Eterna della Correzione
Sappiamo tutti quanto tempo ed energia richieda correggere e valutare i compiti scritti. Uno studio ha rivelato che oltre il 70% degli insegnanti si sente sovraccaricato da questa attività. Questo, purtroppo, spesso si traduce in meno tempo dedicato all’insegnamento effettivo della scrittura. D’altro canto, anche gli studenti trarrebbero beneficio da feedback più rapidi e magari dalla possibilità di autovalutarsi, capendo meglio i propri punti di forza e di debolezza.
Ecco perché l’idea di usare un’IA come ChatGPT per dare un’occhiata preliminare (o anche di più) ai testi è così allettante. Potrebbe alleggerire il carico dei docenti e dare agli studenti uno strumento in più per migliorare. Ma, ovviamente, c’è un “ma”: quanto è accurata questa valutazione automatica? È qui che entra in gioco la ricerca.
Intelligenza Artificiale alla Prova: Il Confronto
Negli ultimi anni, l’IA ha fatto passi da gigante nella valutazione della scrittura. Da semplici controllori di grammatica e ortografia, siamo passati a sistemi come ChatGPT che possono analizzare la struttura argomentativa, il contenuto semantico, persino il tono. Affascinante, no?
Però, il dibattito è aperto: meglio l’IA o l’umano? L’IA offre coerenza (non si stanca e non ha pregiudizi… o almeno, così si spera) e velocità. Ma, come sottolineano molti studi, fatica a cogliere le sfumature, la creatività, l’originalità, il pensiero complesso – insomma, tutto ciò che rende uno scritto davvero “bello” e profondo.
Gli umani, invece, eccellono proprio in questo: capiscono il contesto, apprezzano lo stile, colgono l’ironia o la passione tra le righe. Certo, anche noi abbiamo i nostri limiti: possiamo essere incoerenti, influenzati dalla stanchezza o da simpatie/antipatie (sì, succede!).
E poi c’è la differenza tra insegnanti esperti e “matricole” (i futuri insegnanti, o pre-service teachers). L’esperienza conta: chi ha corretto migliaia di temi sviluppa un “sesto senso” che un principiante, per quanto preparato, ancora non possiede.

Lo Studio: Mettiamo alla Prova ChatGPT (Versione Normale e “Addestrata”)
Proprio per capirci qualcosa di più, è stato condotto uno studio interessante (i cui dettagli trovate nel link alla fine). L’obiettivo? Confrontare l’accuratezza nella classificazione di testi scritti (in turco, per la precisione) da parte di quattro gruppi di “valutatori”:
- Insegnanti esperti
- Futuri insegnanti (studenti all’ultimo anno di tirocinio)
- ChatGPT 3.5 (la versione “base”, senza particolari istruzioni)
- ChatGPT 3.5 “addestrato” (a cui era stata fornita una dettagliata griglia di valutazione – la rubric – con esempi specifici per ogni criterio)
I testi erano stati preventivamente classificati come “scarsi”, “mediocri” o “avanzati” in base a una griglia specifica (la rubric di Kaldirim, 2014, adattata). Ai valutatori è stato chiesto di assegnare ciascun testo a una di queste tre categorie. L’addestramento di ChatGPT è stato un processo meticoloso: gli sono state spiegate le regole, forniti esempi per ogni livello di qualità atteso, e giustificazioni. Un po’ come si farebbe con uno studente, ma in versione digitale!
I Risultati: Sorpresa (Forse Non Troppo)?
Ebbene, cosa è emerso? All’inizio, alcune analisi statistiche preliminari (test chi-quadro) non mostravano differenze significative tra umani e IA. Ma quando si è andati più a fondo con un’analisi più potente (la regressione logistica), la musica è cambiata.
I valutatori umani si sono dimostrati significativamente più accurati dell’IA nel classificare correttamente i testi. Addirittura, la probabilità che un umano classificasse correttamente un testo era circa 2,6 volte superiore a quella di una macchina (ChatGPT base o addestrato).
Scendendo nel dettaglio:
- Gli insegnanti esperti sono stati i più precisi.
- I futuri insegnanti hanno fatto un po’ meno bene degli esperti (circa 2,6 volte meno probabilità di classificare correttamente rispetto ai docenti navigati), probabilmente per la minore esperienza pratica.
- ChatGPT base ha avuto prestazioni simili ai futuri insegnanti (circa 2,4 volte meno probabilità di azzeccarci rispetto agli esperti).
- Curiosamente, anche confrontando insegnanti, futuri insegnanti e ChatGPT addestrato, non sono emerse differenze statisticamente significative *in quel modello specifico*, suggerendo che l’addestramento, pur migliorando l’IA, non l’ha portata al livello degli umani più esperti in questo compito specifico di classificazione.
Il modello statistico finale (Umani vs Macchine) è riuscito a prevedere correttamente la classificazione nell’81,3% dei casi, confermando la superiorità umana in questo compito. Perché? Sembra proprio che la nostra capacità di cogliere le sfumature, il contesto, la coerenza profonda e gli aspetti stilistici sia ancora ineguagliabile per le macchine, anche quelle più avanzate. L’IA è brava con gli aspetti più “superficiali” e strutturali, ma fatica con l’interpretazione sottile.

Allora, Che Si Fa? Verso un Modello Ibrido
Questi risultati non significano che ChatGPT sia inutile, anzi! Ci dicono però che, almeno per ora, non possiamo pensare di sostituire completamente il giudizio umano nella valutazione della scrittura. L’approccio più sensato sembra essere quello ibrido.
Immaginiamo un modello (chiamato nello studio HAHWAM – Hybrid AI-Human Writing Assessment Model) in cui l’IA fa una prima scrematura: controlla grammatica, punteggiatura, coerenza strutturale di base, magari evidenzia passaggi problematici. Questo fa risparmiare un sacco di tempo all’insegnante.
Poi, entra in gioco l’umano. Forte della pre-analisi dell’IA, il docente può concentrarsi sugli aspetti più complessi e qualitativi: la profondità delle idee, l’originalità, l’efficacia comunicativa, lo stile. Può fornire quel feedback personalizzato e profondo che solo un essere umano, con la sua sensibilità e la sua esperienza didattica, sa dare.
Questo approccio sfrutta il meglio dei due mondi:
- Efficienza e coerenza dell’IA per le parti più meccaniche.
- Profondità, comprensione contestuale e sensibilità umana per la valutazione qualitativa.
Così, l’insegnante ha più tempo per attività a maggior valore aggiunto: discutere con gli studenti, stimolare il pensiero critico, curare la relazione educativa. E gli studenti ricevono un feedback più completo e tempestivo.
Ovviamente, dobbiamo essere consapevoli dei rischi. L’IA non è neutra, può avere bias nascosti nei suoi algoritmi. È fondamentale che gli educatori mantengano il controllo del processo, sappiano usare questi strumenti criticamente e garantiscano equità e trasparenza. Serve formazione specifica per imparare a integrare l’IA in modo efficace e responsabile.
![]()
Conclusioni: Un Futuro di Collaborazione, Non di Sostituzione
Insomma, la risposta alla domanda iniziale è: no, ChatGPT (almeno nella sua forma attuale e per questo tipo di compito) non è ancora un assistente totalmente affidabile per sostituire la valutazione umana dei testi scritti. È uno strumento potente, con un potenziale enorme per assistere e supportare il lavoro degli insegnanti, ma l’occhio critico, l’intuizione e la capacità interpretativa umana restano insostituibili.
Il futuro della valutazione, probabilmente, non è né tutto umano né tutto artificiale, ma una collaborazione intelligente tra i due. Dobbiamo imparare a usare questi nuovi strumenti per potenziare le nostre capacità, non per farci sostituire. La sfida è trovare il giusto equilibrio, usando la tecnologia per migliorare l’educazione senza perdere di vista l’importanza fondamentale del tocco umano.
Fonte: Springer
