Primo piano di un foglio di un test PISA con item di matematica e una matita appoggiata, simbolo dell'analisi statistica e del DIF, fotografia still life, obiettivo macro 100mm, alta definizione, illuminazione laterale per creare texture.

DIF e Test PISA: Quando un Item “Balla” e Scombussola i Risultati (Ma Forse Non Troppo!)

Amici lettori, oggi voglio portarvi con me in un viaggio un po’ tecnico, ma spero affascinante, nel mondo dei test standardizzati, in particolare quelli del PISA. Avete mai pensato a quanto sia complicato confrontare i risultati di test diversi, magari somministrati in Paesi differenti o in versioni leggermente modificate? Ecco, è proprio qui che entra in gioco il nostro argomento: l’impatto del cosiddetto “Differential Item Functioning” (DIF) sull’adattamento degli item al modello statistico, quando si usa un metodo chiamato “equiparazione concorrente”. Sembra un parolone, ma cercherò di spiegarvelo in modo semplice e, perché no, divertente!

Ma cos’è questo PISA e perché parliamo di “equiparazione”?

Allora, partiamo dalle basi. L’OCSE (Organizzazione per la Cooperazione e lo Sviluppo Economico) ogni tre anni ci regala il PISA, un’indagine internazionale che valuta le competenze degli studenti quindicenni in lettura, matematica e scienze. L’obiettivo è capire come vanno le politiche educative dei vari Paesi e scovare pratiche che funzionano. La Turchia, ad esempio, partecipa dal 2003. Nel PISA 2018, che è quello che abbiamo analizzato, c’erano, come sempre, le prove di matematica. Per non appesantire troppo i ragazzi, non tutti rispondono alle stesse domande. Esistono diverse “forme” del test, cioè versioni differenti con alcuni item (le singole domande o esercizi) in comune. Questi item comuni sono fondamentali, perché permettono di “collegare” le varie forme e rendere i punteggi confrontabili. Questo processo di rendere confrontabili test diversi si chiama equiparazione.

Ora, il problema è che queste forme, per vari motivi (item non comuni diversi, posizione differente degli item comuni, errori nella somministrazione, o item comuni che non si comportano come dovrebbero), potrebbero misurare costrutti leggermente diversi da quelli attesi, introducendo dei potenziali “bias”, cioè delle distorsioni. Ecco perché è cruciale esaminare come si adattano gli item al modello statistico dopo averli equiparati.

Il Cuore della Ricerca: Modelli, Metodi e il “DIF”

Nel nostro studio, ci siamo concentrati sulle forme 2, 8 e 12 del test di matematica PISA 2018, analizzando i dati di studenti provenienti da Turchia, Regno Unito e Italia. Abbiamo usato un sofisticato strumento statistico chiamato Modello di Rasch Dicotomico (non spaventatevi, è solo un modo per analizzare risposte giuste/sbagliate) e un software specifico, WINSTEPS. Per l’equiparazione, abbiamo scelto il metodo dell’equiparazione concorrente con item comuni. Questo metodo, in parole povere, analizza tutti gli item di due forme contemporaneamente, come se fossero su una scala comune, il che dovrebbe dare risultati più precisi.

Una cosa importante che abbiamo fatto, a differenza di come solitamente si procede nelle analisi PISA ufficiali (dove i Paesi sono analizzati tutti insieme), è stata quella di valutare ogni Paese separatamente. E qui entra in gioco il protagonista nascosto: il DIF (Differential Item Functioning). Immaginate un item di un test che, a parità di abilità generale, risulta sistematicamente più facile o più difficile per un gruppo specifico di studenti (ad esempio, maschi contro femmine, o studenti di un Paese rispetto a un altro). Ecco, questo è il DIF! Un item con DIF “funziona diversamente” per gruppi diversi, e questo può creare problemi di equità e validità del test.

Ci siamo quindi chiesti: questi item con DIF, che impatto hanno quando equipariamo le forme? E cosa succede se li teniamo o se li togliamo dall’analisi?

Un gruppo multietnico di studenti adolescenti concentrati mentre svolgono un test PISA in un'aula moderna e luminosa, fotografia di reportage, obiettivo 35mm, luce naturale diffusa, profondità di campo media per mettere a fuoco i volti.

Sotto la Lente: Turchia, Regno Unito e la Nostra Italia

Perché proprio questi tre Paesi? L’Italia è stata scelta perché ha un livello di competenza medio nel test di matematica PISA. La Turchia si posiziona leggermente sotto la media, mentre il Regno Unito è un po’ sopra la media e, dettaglio non trascurabile, gli studenti hanno svolto il test nella loro lingua madre. Abbiamo analizzato le risposte di circa 1198 studenti italiani, 1401 britannici e 793 turchi che hanno compilato le forme 2, 8 e 12. Queste forme contengono 22 o 23 item, di cui 11 sono comuni.

Prima di tutto, abbiamo verificato se i dati di ciascuna forma e per ciascun Paese rispettassero i presupposti del Modello di Rasch (come l’unidimensionalità, cioè se il test misura effettivamente una sola abilità latente, e l’indipendenza locale). In generale, i dati si sono comportati bene, mostrando un buon adattamento al modello. Abbiamo anche controllato il DIF tra maschi e femmine all’interno di ogni Paese, trovando alcuni item che mostravano un funzionamento differenziale.

Cosa Abbiamo Scoperto? Luci e Ombre del DIF

La prima cosa che è saltata all’occhio è che lo stato di DIF degli item comuni non era affatto statico, ma variava tra le diverse coppie di forme analizzate. Questo significa che un item comune poteva mostrare DIF quando si confrontava la Forma 2 con la Forma 8, ma magari non quando si confrontava la Forma 2 con la Forma 12, o viceversa. È un po’ come se la “personalità” dell’item cambiasse a seconda del contesto in cui veniva inserito!

E, cosa ancora più importante, abbiamo concluso che gli item che mostravano DIF avevano un impatto sul funzionamento generale degli item comuni. In pratica, la presenza di questi item “ballerini” influenzava il modo in cui l’intero set di item comuni si comportava durante il processo di equiparazione. Quando abbiamo confrontato le misure di difficoltà degli item comuni tra le forme (prima dell’equiparazione vera e propria), abbiamo notato che alcuni item cadevano fuori dagli intervalli di confidenza, suggerendo che non venivano percepiti allo stesso modo nelle diverse forme. Ad esempio, gli item 8 e 9 sono risultati “problematici” nel confronto tra le Forme 8 e 12 in tutti e tre i Paesi quando il DIF era incluso.

Visualizzazione astratta di dati statistici con grafici e curve che si intersecano, alcuni punti evidenziati in rosso a simboleggiare il DIF, fotografia macro, illuminazione da studio controllata, alta definizione, colori blu e grigio duotone.

Il DIF Scombussola Tutto? Forse Meno di Quanto Pensiamo…

Qui la faccenda si fa interessante. Nonostante l’impatto del DIF sugli item comuni, abbiamo osservato che la sua presenza non modificava in modo significativo i risultati complessivi dell’equiparazione quando venivano rimossi gli item comuni che non funzionavano in modo equivalente tra le forme (cioè quelli che cadevano fuori dagli intervalli di confidenza nei grafici di confronto). In altre parole, anche se il DIF “disturbava” alcuni item, una volta eliminati quelli palesemente non equivalenti, l’equiparazione procedeva in modo abbastanza simile sia tenendo sia rimuovendo gli item con DIF identificati specificamente per gruppi (es. maschi/femmine o tra forme).

Ad esempio, per la Turchia, nel confronto tra le Forme 2 e 8, i risultati non cambiavano molto tra l’analisi con DIF e quella senza. Per il Regno Unito, nel confronto tra Forme 12 e 8, anche rimuovendo gli item con DIF, un altro item (il 6) finiva fuori dall’intervallo di confidenza, suggerendo che il DIF non era l’unico “colpevole” delle discrepanze.

Dopo aver “pulito” i set di item comuni (escludendo quelli fuori dagli intervalli di confidenza), abbiamo effettuato l’equiparazione concorrente vera e propria, sia mantenendo sia rimuovendo gli item con DIF. Le statistiche di “in-fit” (che indicano quanto bene un item si adatta al modello per persone con abilità vicina alla difficoltà dell’item) erano buone per tutti gli item in tutti e tre i Paesi. Le statistiche di “out-fit” (più sensibili a risposte inattese da persone con abilità molto diverse dalla difficoltà dell’item) hanno mostrato qualche criticità in più per alcuni item, ma nulla di così grave da doverli eliminare drasticamente.

Un item comune, l’item 1, è risultato spesso “non produttivo” (valori di out-fit tra 1.5 e 2), il che significa che non contribuiva in modo ottimale alla misurazione, ma senza degradarla. Curiosamente, nei confronti preliminari tra forme, questo item 1 rientrava sempre negli intervalli di confidenza. L’item 7, un altro comune, è risultato “meno produttivo” (valori sotto 0.5) solo per la Turchia, forse per un effetto specifico del Paese.

E Nei Singoli Paesi? Come si Comportano gli Item?

Quando abbiamo confrontato l’adattamento degli item al modello tra i Paesi, dopo le procedure di equiparazione, sono emerse delle differenze:

  • Per la Forma 2, il Regno Unito è risultato il campione in cui gli item si adattavano meglio al modello, seguito da Italia e Turchia.
  • Per la Forma 8, l’adattamento migliore si è osservato nel campione italiano, seguito da Regno Unito e Turchia.
  • Per la Forma 12, gli item nei campioni di Italia e Regno Unito hanno dimostrato un migliore adattamento al modello rispetto alla Turchia.

In generale, valutando tutte le forme insieme, Regno Unito e Italia hanno mostrato una concordanza degli item simile e migliore rispetto alla Turchia.

Mappamondo stilizzato con tre paesi evidenziati (Italia, UK, Turchia) e linee che collegano dati di test, infografica fotorealistica, obiettivo 50mm, illuminazione soffusa, focus selettivo sui paesi.

Tirando le Somme: Cosa Portiamo a Casa?

Allora, cosa ci dice tutta questa analisi? Beh, prima di tutto, che lo stato di DIF degli item comuni può effettivamente cambiare a seconda delle forme che stiamo confrontando e che gli item con DIF influenzano il comportamento degli altri item comuni. Questo è un campanello d’allarme: bisogna stare attenti!

Tuttavia, la buona notizia è che questa influenza non sembra avere un effetto così devastante da compromettere l’intero processo di equiparazione, specialmente se si ha l’accortezza di identificare e, se necessario, escludere gli item comuni che palesemente non misurano la stessa cosa nelle diverse forme. Anzi, nel campione del Regno Unito, anche con un rapporto di item comuni piuttosto basso (12%) in un caso specifico (Forme 12 e 8, dopo aver rimosso gli item con DIF), l’adattamento al modello è rimasto simile a quello ottenuto conservando gli item con DIF.

Quindi, il consiglio spassionato che emerge da questo studio è: se si utilizza il metodo di equiparazione concorrente, è fortemente raccomandato indagare l’effetto dello stato di DIF degli item sugli item comuni. Questa indagine può aiutare a identificare quegli item comuni che potrebbero essere “inquinati” dal DIF. Se gli item comuni riflettono la stessa struttura in entrambe le forme, è probabile che lo stato di DIF non abbia un impatto significativo sull’adattamento degli item al modello. Infine, anche se il PISA non nasce per calcolare punteggi individuali precisi al millesimo, il nostro studio suggerisce che, escludendo gli item comuni più problematici, si può ottenere un buon adattamento del test e degli item al modello statistico.

Insomma, il mondo della psicometria è pieno di sfide, ma con gli strumenti giusti e un po’ di attenzione ai dettagli, possiamo assicurarci che i nostri test siano il più equi e validi possibile. E questo, credo, è un obiettivo che vale la pena perseguire!

Fonte: Springer

Articoli correlati

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *