Un Tutor AI per Ingegneria Geotecnica? Vi racconto la mia ricerca con GPT-4 e Llama-3!
Amici, diciamocelo chiaramente: l’ingegneria geotecnica non è una passeggiata. Tra formule complesse, analisi del terreno e principi fisici da padroneggiare, gli studenti universitari hanno spesso bisogno di un faro nella notte. E se quel faro fosse un tutor basato sull’Intelligenza Artificiale? È proprio quello che ho voluto indagare con il mio studio, un’avventura affascinante nel mondo dei Large Language Models (LLM) come GPT-4 e Llama-3, per vedere se possono davvero dare una mano nell’istruzione universitaria di questa materia così specialistica.
Perché un Tutor AI in Geotecnica?
L’ingegneria geotecnica è una di quelle discipline che richiede non solo di imparare a memoria, ma di capire a fondo, di risolvere problemi analitici complessi. I metodi di insegnamento tradizionali, pur validissimi, a volte faticano a fornire quella guida continua e personalizzata di cui ogni studente avrebbe bisogno. Immaginate di avere un assistente virtuale sempre disponibile, capace di adattare le spiegazioni al vostro ritmo e alle vostre lacune. Ecco, gli LLM promettono proprio questo: esperienze di apprendimento su misura.
Studi precedenti hanno già messo alla prova questi modelli in vari esami e test, mostrando risultati promettenti ma anche qualche ombra, specialmente quando si tratta di ragionamenti complessi o di conoscenze molto specifiche di un dominio. Ad esempio, alcuni LLM se la cavano alla grande con problemi strutturati, ma inciampano su domande che richiedono un pensiero più critico o su errori di “allucinazione”, cioè quando inventano risposte plausibili ma scorrette. Per la geotecnica, con le sue formule precise e i suoi vincoli ingegneristici, questo è un punto cruciale.
La Sfida degli LLM nell’Insegnamento Tecnico
Implementare tutor AI in facoltà come ingegneria geotecnica non è privo di ostacoli:
- Resistenza istituzionale: C’è la preoccupazione che gli studenti si affidino troppo all’AI, con possibili ricadute sull’integrità accademica.
- Accuratezza e fiducia: Modelli come GPT-4 e Llama-3, a volte, possono generare risposte errate, specialmente in scenari complessi che richiedono giudizio ingegneristico.
- Integrazione con le piattaforme esistenti: I tutor AI devono “dialogare” con i sistemi di gestione dell’apprendimento (LMS), i criteri di valutazione e i curricula, il che spesso richiede personalizzazioni non banali.
Per migliorare l’affidabilità, la ricerca si è mossa verso tecniche come il “Chain of Thought” (CoT) prompting o framework di istruzioni personalizzate. Nel mio precedente lavoro, ad esempio, ho dimostrato come queste tecniche potessero migliorare l’accuratezza di GPT-4. Ma c’è un’altra strada, forse ancora più promettente: la Retrieval-Augmented Generation (RAG).
RAG: L’Ingrediente Segreto per un AI più Intelligente?
Cosa succede se un LLM, invece di basarsi solo sulla sua conoscenza “interna” (derivata dal training), potesse consultare in tempo reale database specifici, manuali tecnici o pubblicazioni recenti? Questo è il cuore della RAG. Immaginatela come dare al vostro LLM una biblioteca specializzata e la capacità di cercare al volo l’informazione giusta prima di rispondere.
I vantaggi sono notevoli:
- Affidabilità e trasparenza: I sistemi RAG possono citare le fonti, permettendo di verificare l’informazione. Un LLM “standalone” è più una scatola nera.
- Flessibilità e adattabilità: Si possono “collegare” diverse basi di conoscenza a seconda della materia. Pensate a manuali geotecnici specifici!
- Efficienza dei costi e aggiornamento: Aggiornare un database vettoriale è molto meno costoso e dispendioso in termini di tempo rispetto a riaddestrare un intero LLM come GPT-4.
Il mio studio si è concentrato proprio su questo: integrare la RAG con tutor basati su LLM per l’ingegneria geotecnica. L’idea è di avere un sistema che non solo risolva problemi, ma lo faccia recuperando riferimenti ed equazioni geotecniche in tempo reale, minimizzando risposte obsolete o imprecise, e strutturando le spiegazioni in modo da seguire la tassonomia di Bloom, per un apprendimento graduale.
Come Abbiamo Messo alla Prova i Nostri Tutor AI
Per valutare l’efficacia di GPT-4 e Llama-3, sia in modalità “Zero Shot” (cioè senza esempi specifici) sia con il supporto API e RAG, abbiamo usato un set di 391 domande prese da un noto manuale di ingegneria geotecnica (“Principles of Geotechnical Engineering” di Das e Sobhan). Le soluzioni corrette provenivano dal manuale del testo stesso.
Ci siamo concentrati in particolare su 20 domande che uno studio precedente aveva identificato come particolarmente ostiche per GPT-4 in modalità Zero Shot. Queste domande coprivano vari argomenti chiave, dalle relazioni di fase alla resistenza al taglio. È interessante notare che la maggior parte di queste domande (80%) rientrava nel livello “Applicare” della tassonomia di Bloom, richiedendo principalmente il richiamo e l’applicazione diretta di formule.
Un aspetto fondamentale è stato l’analisi degli errori. In modalità Zero Shot, GPT-4 mostrava:
- Errori di “Grounding” (60%): Il modello recuperava equazioni o vincoli sbagliati per la domanda.
- Errori Concettuali (20%): Incapacità di ottenere concetti o fatti necessari.
- Errori di Calcolo (20%): Sbagli nelle operazioni algebriche e aritmetiche.
Questo ci dice che il problema principale, senza aiuti esterni, è capire *quale* formula o concetto applicare.
GPT-4 vs. Llama-3: Il Confronto sul Campo
Qui le cose si fanno interessanti. GPT-4, sviluppato da OpenAI, è noto per le sue capacità avanzate, ma è un servizio a pagamento. Llama-3 di Meta AI, invece, è open-source (gratuito, anche se farlo girare localmente ha i suoi costi hardware) e permette un buon livello di personalizzazione.
Per integrare la RAG, abbiamo usato LangChain, un framework che facilita la connessione degli LLM a fonti di dati esterne. In pratica, quando arriva una domanda, LangChain la trasforma in un “embedding” (una rappresentazione numerica), cerca informazioni simili in un database vettoriale di documenti geotecnici, e poi passa sia la domanda che i documenti rilevanti all’LLM per generare la risposta.
Un parametro chiave che abbiamo testato è la “temperatura”. Una temperatura bassa (es. 0.1) rende le risposte del modello più deterministiche e focalizzate, ideali per materie tecniche. Temperature più alte introducono più casualità, utile per la creatività ma rischiosa per l’accuratezza.
I risultati? Eccoli:
- GPT-4 (Zero Shot): Accuratezza 0% sulle 20 domande difficili. Sì, avete letto bene.
- GPT-4 con API (RAG) e Temperatura 0.1: Accuratezza del 95%! Un balzo incredibile.
- GPT-4 con API (RAG) e Temperatura 0.5: Accuratezza 82.5%.
- GPT-4 con API (RAG) e Temperatura 1.0: Accuratezza 60%.
Questo dimostra quanto sia cruciale la RAG e un settaggio oculato della temperatura per GPT-4.
E Llama-3?
- Llama-3 (Zero Shot, Temp. 0.1): Accuratezza 25%. Meglio di GPT-4 in Zero Shot, ma comunque bassa.
- Llama-3 con API (RAG, Temp. 0.1): Accuratezza 45%. Un miglioramento, ma non paragonabile a GPT-4.
Analizzando gli errori con la configurazione API (RAG, Temp. 0.1):
- GPT-4: Errori concettuali e di calcolo scesi a 0%. Errori di grounding ridotti al 5%.
- Llama-3: Errori concettuali stabili al 5%, errori di calcolo aumentati leggermente al 15%, errori di grounding al 30%. È comparso un 5% di “Errori di deficienza” (problemi nell’interpretare grafici o tabelle, anche se nel nostro studio non c’erano input visuali, questo indica una potenziale debolezza se ci fossero stati).
Un test chi-quadro ha confermato che la differenza di accuratezza tra GPT-4 (API, Temp 0.1) e Llama-3 (API, Temp 0.1) è statisticamente significativa. GPT-4, con la giusta configurazione, stravince.
Progettare un Tutor AI Efficace: Non Solo Risposte Corrette
Un buon tutor AI non deve solo dare la risposta giusta, ma deve guidare lo studente. Nel nostro approccio, abbiamo puntato su:
- Esperienze di apprendimento personalizzate: Adattare le risposte al profilo dello studente.
- Coinvolgimento interattivo: Linguaggio chiaro e accessibile.
- Supporto e feedback costruttivo: Spiegazioni chiare e rinforzo positivo.
- Flessibilità: Suggerire materiali aggiuntivi e percorsi alternativi.
- Ambiente sicuro ed etico: Rispetto della privacy.
Questi principi sono stati incorporati in un “prompt template” che guida le interazioni dell’AI, ispirandosi a teorie dell’apprendimento come il Costruttivismo (lo studente costruisce attivamente la conoscenza), la Teoria del Carico Cognitivo (gestire lo sforzo mentale per ottimizzare l’apprendimento) e la Teoria dell’Apprendimento Autoregolato (incoraggiare l’autonomia dello studente).
Abbiamo anche confrontato brevemente l’uso dell’API GPT con CustomGPT (un’offerta di OpenAI per integrare conoscenze esterne più facilmente, senza codice). L’API offre più flessibilità, mentre CustomGPT è più accessibile per chi non programma. Per l’uso in classe, l’API può essere più conveniente a breve termine perché non richiede account ChatGPT Plus per ogni studente.
Le Implicazioni Etiche: Un Aspetto da Non Sottovalutare
L’introduzione di tutor AI solleva questioni importanti:
- Privacy dei dati: Come vengono gestiti i dati personali e accademici degli studenti? È fondamentale aderire a normative come il GDPR.
- Bias algoritmici: I modelli AI sono addestrati su grandi dataset che possono contenere bias storici. È cruciale monitorare e mitigare questi bias.
- Impatto sui ruoli tradizionali dell’insegnamento: I tutor AI non devono sostituire i docenti umani, ma affiancarli, potenziando l’esperienza educativa. I docenti restano insostituibili per il contesto, il pensiero critico e l’intelligenza emotiva.
Limiti dello Studio e Prospettive Future
Ogni ricerca ha i suoi limiti. Il nostro studio si è concentrato sull’ingegneria geotecnica a livello universitario e su due specifici LLM. Inoltre, abbiamo usato solo domande testuali. Molti problemi geotecnici, però, includono dati grafici (cerchi di Mohr, carte di classificazione dei suoli, ecc.).
Il futuro della ricerca dovrà quindi esplorare:
- Modelli multimodali: Come GPT-4V (Vision) o Claude Opus, capaci di analizzare testo e immagini.
- Dataset specializzati: Curare set di dati di alta qualità e diversificati per l’addestramento.
- Tecniche avanzate di integrazione delle formule: Per gestire espressioni matematiche complesse, diagrammi e tabelle.
- Contesti educativi più ampi: Valutare l’efficacia in diversi ambienti di apprendimento.
- Implicazioni etiche e sociali: Approfondire l’impatto sull’equità educativa e sulla privacy.
Un’altra area interessante è lo sviluppo di contenuti: questi LLM potrebbero aiutare a creare domande d’esame, rubriche di valutazione, scenari di role-playing e fornire feedback sui compiti.
Conclusioni: Un Passo Avanti per l’Istruzione Ingegneristica
Il mio studio dimostra che sia GPT-4 (commerciale) sia Llama-3 (open-source), se opportunamente configurati, possono generare risposte accurate e spiegazioni passo-passo per problemi di ingegneria geotecnica. GPT-4 con RAG, in particolare, ha raggiunto un’accuratezza del 95% su problemi basati su formule, dimostrando che gli LLM possono recuperare e applicare correttamente equazioni geotecniche standard.
Tuttavia, l’accuratezza cala quando i problemi richiedono un ragionamento concettuale di ordine superiore, come interpretare vincoli da descrizioni testuali o applicare principi fisici multi-step. Questo suggerisce che i tutor AI dovrebbero essere usati come strumenti di supporto, non come sostituti dell’istruzione tradizionale.
La cosa importante è che questi tutor AI possono fornire una guida strutturata e un supporto interattivo alla risoluzione dei problemi, piuttosto che offrire semplicemente soluzioni. La loro disponibilità 24/7 è un enorme vantaggio, permettendo agli studenti di accedere al supporto quando ne hanno bisogno.
Il potenziale degli LLM per trasformare l’istruzione in ingegneria geotecnica è enorme. Sfruttando questi progressi, possiamo guardare a strumenti didattici più personalizzati, coinvolgenti ed efficaci, pronti per le sfide della formazione degli ingegneri di domani. E io, da ricercatore, non vedo l’ora di continuare a esplorare questa frontiera!
Fonte: Springer