ChatGPT e Copilot dal Ginecologo: Promossi o Bocciati sull’Ecografia Ostetrica?
Ciao a tutti! Oggi voglio parlarvi di qualcosa che mi ha davvero incuriosito: l’intelligenza artificiale (AI) applicata a un campo delicatissimo come l’ostetricia, e in particolare all’interpretazione delle ecografie. Sappiamo tutti quanto l’AI stia entrando nelle nostre vite, ma come se la cava quando si tratta di salute, gravidanza ed esami così importanti? Mi sono imbattuto in uno studio recente che ha messo alla prova due pezzi da novanta del mondo AI: ChatGPT (nelle sue versioni 3.5 e 4.0) e Microsoft Copilot (quello integrato in Bing). L’obiettivo? Capire quanto siano bravi a rispondere a domande sulle ecografie ostetriche e ad analizzare i referti. Una sfida affascinante, non trovate?
La Prova delle Domande: Chi Risponde Meglio?
Immaginate di essere una futura mamma piena di dubbi sull’ecografia che dovrà fare. Domande tipo: “Cosa significa questo valore?”, “Quante ecografie devo fare?”, “È normale questo risultato?”. I ricercatori hanno fatto proprio questo: hanno posto 20 domande comuni sull’ecografia ostetrica a ChatGPT-3.5, ChatGPT-4.0 e Copilot. E non una volta sola, ma ben tre volte per ciascuna domanda, in momenti diversi, per testare non solo l’accuratezza ma anche la consistenza delle risposte.
I risultati? Beh, diciamo che ChatGPT, sia nella versione 3.5 che 4.0, sembra aver fatto meglio i compiti a casa rispetto a Copilot. Hanno mostrato un’accuratezza maggiore (circa il 95% di risposte corrette contro l’80% di Copilot) e anche una maggiore coerenza tra le diverse risposte date alla stessa domanda (tra l’85% e il 90% contro il 75% di Copilot). Però, attenzione: nonostante questi numeri, lo studio sottolinea che non c’è una differenza statisticamente significativa tra i tre. Questo potrebbe dipendere dal numero non enorme di domande testate.
Certo, non sono mancate le sbavature. Ad esempio, Copilot ha dato una risposta errata sulla frequenza degli ultrasuoni in una delle prove, e anche ChatGPT (sia 3.5 che 4.0) ha inciampato su domande specifiche come l’indice del liquido amniotico o la maturità placentare. A volte le risposte erano corrette ma un po’ troppo superficiali, mancando di dettagli importanti che un medico esperto aggiungerebbe. Nessuna risposta, però, è stata giudicata completamente sbagliata. Insomma, promettenti, ma non infallibili.
Analisi dei Referti: L’AI Sa Leggere un’Ecografia?
La seconda parte dello studio è stata ancora più ambiziosa. Hanno preso 110 referti di ecografie ostetriche reali (di 107 donne in gravidanza tra la 32esima e la 41esima settimana) e li hanno dati “in pasto” ai nostri tre contendenti AI, sempre ripetendo l’operazione tre volte per referto. L’obiettivo era vedere se l’AI riusciva a identificare correttamente i risultati normali e le eventuali anomalie (come problemi nella crescita fetale, nel liquido amniotico o nella placenta) e a fornire un’analisi sensata.
Qui le differenze si sono fatte più marcate. ChatGPT-3.5 e ChatGPT-4.0 hanno dimostrato un’accuratezza significativamente superiore a Copilot nell’analizzare i referti (parliamo di un P-value inferiore a 0.05, che in statistica conta!). L’accuratezza generale è stata dell’83.86% per ChatGPT-3.5, dell’84.13% per ChatGPT-4.0 e del 77.51% per Copilot. Tutti e tre, però, hanno mostrato una buona consistenza nelle loro analisi (cioè, ripetendo l’analisi dello stesso referto, davano risultati simili) e la capacità di fornire raccomandazioni.
Tuttavia, c’è un “ma”. Quando si trattava di identificare anomalie nelle misurazioni della crescita fetale, l’accuratezza calava per tutti: 59.38% per ChatGPT-3.5, 60.42% per ChatGPT-4.0 e solo il 50% per Copilot. Perché questa difficoltà? I ricercatori ipotizzano che dipenda dal fatto che questi modelli sono allenati su una marea di testi da internet, ma non specificamente sulla letteratura scientifica più aggiornata o sulle linee guida specifiche che tengono conto, ad esempio, delle differenze etniche negli standard di crescita. Inoltre, l’AI non “chiede” chiarimenti, ma cerca di indovinare cosa l’utente voglia sentirsi dire, il che può portare a informazioni imprecise.
Potenzialità e Pericoli: Cosa Dobbiamo Aspettarci?
Allora, qual è il succo della questione? Questi modelli AI hanno sicuramente del potenziale enorme. Possono aiutare a spiegare concetti medici complessi in un linguaggio comprensibile, supportare la comunicazione tra medico e paziente, e forse un giorno alleggerire il carico di lavoro clinico. Pensate a quanto potrebbe essere utile per una paziente ricevere una prima spiegazione chiara del suo referto ecografico, magari mentre attende il consulto con lo specialista.
Ma, come sempre quando si parla di AI in medicina, la cautela è d’obbligo. Lo studio lo dice chiaramente: le risposte possono essere inconsistenti o inaccurate. E c’è di più: la sicurezza. Un’informazione sbagliata data da un’AI (come successo in un paio di casi con Copilot, che ha diagnosticato erroneamente una “placenta previa” causando potenziale ansia) può avere conseguenze emotive e cliniche serie. Non dimentichiamo le preoccupazioni sulla privacy e sulla cybersecurity.
Un altro aspetto interessante emerso è la differenza nello “stile” delle risposte: ChatGPT-3.5 tende a essere più conciso, ChatGPT-4.0 molto dettagliato e riassuntivo, mentre Copilot analizza punto per punto seguendo la struttura del referto. Ognuno con i suoi pro e contro.
Conclusioni: AI Sì, Ma con Giudizio (Umano!)
In conclusione, questo studio ci dà uno spaccato realistico delle capacità attuali di ChatGPT e Copilot nel campo dell’ecografia ostetrica. Sono strumenti potenti, con un potenziale notevole per migliorare l’educazione sanitaria e la comunicazione clinica. Tuttavia, non sono ancora pronti per sostituire l’occhio esperto e il giudizio clinico del medico. Le imprecisioni, le inconsistenze e le preoccupazioni sulla sicurezza rendono la supervisione umana assolutamente cruciale.
Il futuro probabilmente vedrà un’integrazione sempre maggiore di questi strumenti nel flusso di lavoro medico, magari analizzando anche dati multimodali (non solo testo, ma anche immagini), ma per ora dobbiamo vederli come assistenti intelligenti, non come decisori autonomi. La strada è ancora lunga, ma sicuramente affascinante!
Fonte: Springer