DeepSeek vs ChatGPT: Chi Vince nella Diagnosi Orale? La Sfida dell’IA!
Ragazzi, parliamoci chiaro: l’Intelligenza Artificiale (IA) sta entrando prepotentemente in ogni angolo della nostra vita, e la medicina non fa eccezione. Mi sono sempre chiesto quanto potesse essere davvero d’aiuto, specialmente in campi complessi come la diagnosi. Di recente, mi sono imbattuto in uno studio affascinante che mette a confronto due pezzi da novanta del mondo AI, DeepSeek e ChatGPT, nel campo specifico delle patologie orali. La domanda è scottante: possono questi cervelloni digitali darci una mano concreta a capire cosa succede nella nostra bocca? Andiamo a scoprirlo insieme!
Perché l’IA nella Patologia Orale?
Prima di tuffarci nel confronto, capiamo un attimo il contesto. Le patologie orali sono un bel guazzabuglio: possono essere lesioni benigne o maligne, spuntare sulla mucosa o nelle ossa mascellari, causate da infezioni, malattie autoimmuni, traumi, farmaci… insomma, un sacco di roba! Si presentano con sintomi diversi come rossore, dolore, gonfiore e, se non diagnosticate e trattate per tempo, possono portare a problemi seri.
La diagnosi precoce è fondamentale. Tradizionalmente, ci si affida all’esame clinico, alle radiografie, all’esame istopatologico (la famosa biopsia) e ai consulti tra specialisti. Metodi validissimi, certo, ma che a volte richiedono tempo e, diciamocelo, possono essere complicati, soprattutto nei casi più ingarbugliati. E c’è sempre il rischio di una valutazione un po’ soggettiva da parte del clinico.
Ecco che entra in gioco l’IA. Negli ultimi tempi, il deep learning (un ramo dell’IA) ha mostrato cose egregie nell’analisi di immagini (foto intraorali, esami istopatologici) e nella pre-diagnosi di patologie orali. Però, questi sistemi richiedono un sacco di dati per l’addestramento, sono complessi e non sempre facili da usare nella pratica clinica quotidiana.
Qui si inseriscono i Large Language Models (LLM), come i nostri amici ChatGPT e DeepSeek. Sono sistemi AI allenati su quantità enormi di testi (libri, articoli, siti web) e sono capaci di capire e generare linguaggio naturale in modo simile a noi umani. La loro forza? Sono accessibili, facili da usare e danno risposte rapide. Questo li rende molto attraenti per noi clinici. ChatGPT, sviluppato da OpenAI, lo conosciamo un po’ tutti. DeepSeek, invece, è un modello cinese più recente (lanciato a fine 2024) che ha fatto parlare di sé per i costi contenuti e le buone performance, puntando su trasparenza e riproducibilità. Ma quanto sono affidabili queste risposte, specialmente in campo medico?
La Sfida: DeepSeek contro ChatGPT
Lo studio che ho analizzato ha voluto mettere alla prova proprio questo. I ricercatori hanno creato 16 scenari clinici immaginari di patologie orali. Niente pazienti reali, quindi niente conferme istopatologiche, ma descrizioni dettagliate basate su storia medica, sintomi, caratteristiche cliniche e reperti radiografici panoramici. Hanno volutamente evitato di inserire dettagli troppo specifici (come l’aspetto a “vetro smerigliato” o il fenomeno di Nikolsky) per non rendere la diagnosi troppo facile.
Hanno poi posto la stessa domanda a DeepSeek-V3 e ChatGPT-4o (le versioni più recenti disponibili al momento dello studio, febbraio 2025) per ciascuno dei 16 casi: “Elenca le tre diagnosi più probabili in base allo scenario descritto, dalla più probabile alla meno probabile, e supportale con citazioni dalla letteratura.”
Per evitare “contaminazioni”, hanno cancellato cronologia e cookie prima di ogni domanda. Le risposte ottenute sono state poi sottoposte, in forma anonima (senza sapere quale IA avesse risposto cosa), a 20 specialisti: 8 radiologi maxillo-facciali e 12 chirurghi maxillo-facciali, con un’esperienza media di oltre 7 anni. A questi esperti è stato chiesto di valutare ogni risposta su una scala Likert da 1 (pessima) a 5 (ottima), confrontando direttamente le due risposte per ogni caso.
Il Verdetto: Chi Ha Vinto?
Ebbene, i risultati sono piuttosto interessanti! In generale, entrambe le IA se la sono cavata discretamente: per 13 casi su 16, le loro risposte sono state giudicate “accettabili” o “buone” dagli specialisti. Il punteggio medio per DeepSeek-V3 è stato di 4.02 su 5 (±0.36), mentre per ChatGPT-4o è stato di 3.15 su 5 (±0.41).
Ma scavando un po’ più a fondo, emerge una differenza significativa. DeepSeek-V3 è risultato statisticamente migliore di ChatGPT-4o in ben 9 dei 16 scenari clinici. ChatGPT-4o ha avuto la meglio solo in un caso. Nei restanti 5 casi, non c’era una differenza statisticamente rilevante tra i due. Confrontando le medie generali, DeepSeek-V3 è risultato complessivamente più performante in modo statisticamente significativo (p=0.024). Quindi, round uno a DeepSeek!
Il Tallone d’Achille: Le Fonti Inventate!
Qui, ragazzi, casca l’asino. Una cosa è dare una diagnosi plausibile, un’altra è supportarla con riferimenti scientifici validi. I ricercatori hanno controllato tutte le citazioni fornite dalle due IA, cercandole su database come Google Scholar, PubMed e Web of Science.
I risultati sono stati… preoccupanti, soprattutto per ChatGPT.
- ChatGPT-4o ha fornito 62 riferimenti in totale. Di questi, ben 50 (cioè l’80.6%) erano “fake”, inventati di sana pianta! Solo 12 erano reali, e provenivano da sole 6 fonti diverse (spesso ripetute).
- DeepSeek-V3 ha fornito 48 riferimenti. Di questi, 8 (il 16.7%) erano “fake”. I restanti 40 erano reali, ma provenivano da sole 11 fonti diverse, anche qui con ripetizioni (soprattutto libri).
Questo fenomeno delle informazioni false generate dalle IA è noto come “allucinazione artificiale”. Entrambi i modelli ne soffrono, ma ChatGPT-4o in questo studio ha mostrato un tasso di “fake references” decisamente allarmante (solo il 19.35% di accuratezza). DeepSeek-V3 è stato molto più affidabile sotto questo aspetto, ma comunque non perfetto. Il fatto che entrambe le IA inventino riferimenti bibliografici è un campanello d’allarme enorme per l’uso clinico e per la medicina basata sull’evidenza. Non possiamo basare decisioni sulla salute delle persone su informazioni potenzialmente false!
Allora, Possiamo Fidarci?
La domanda sorge spontanea: questi strumenti sono pronti per la clinica? La risposta, basandomi su questo studio e sulla letteratura esistente, è un cauto “non ancora, non da soli”.
L’IA, e in particolare gli LLM, hanno un potenziale enorme come assistenti. Possono processare informazioni velocemente, suggerire diagnosi differenziali a cui magari non avevamo pensato, aiutarci a navigare la vasta letteratura medica (se solo citassero correttamente!). Possono alleggerire il carico di lavoro e forse rendere l’assistenza sanitaria più efficiente. Lo studio mostra che DeepSeek-V3, in questo specifico contesto, sembra offrire risposte diagnostiche più accurate rispetto a ChatGPT-4o.
Tuttavia, i limiti sono evidenti e importanti:
- Affidabilità delle fonti: Il problema delle “allucinazioni” e dei riferimenti falsi è grave e mina la fiducia.
- Bias: Le IA sono addestrate su dati esistenti, che possono contenere bias (razziali, geografici, ecc.). Questo potrebbe portare a consigli medici non ottimali per certi gruppi di persone.
- Mancanza di “comprensione” reale: Gli LLM sono bravissimi a manipolare il linguaggio e a trovare pattern, ma non “capiscono” la medicina come un essere umano. Possono dare risposte che sembrano logiche ma non sono basate sulla realtà clinica.
- Responsabilità: Chi è responsabile se l’IA dà un consiglio sbagliato? Le aziende produttrici (OpenAI, DeepSeek) declinano responsabilità. Alla fine, la responsabilità ricade sempre sul clinico.
- Specificità medica: Questi modelli sono generalisti. Servirebbero versioni addestrate specificamente su dati medici verificati e capaci di operare secondo i criteri della medicina basata sull’evidenza.
Lo studio stesso ha delle limitazioni: pochi scenari (anche se valutati da molti esperti), casi immaginari non confermati da biopsia, mancanza di patologi orali nel panel di valutazione, valutazione soggettiva degli esperti.
Uno Sguardo al Futuro
Cosa ci aspetta? Sicuramente non la sostituzione dei medici con le macchine, almeno non a breve. L’idea più promettente è quella di un sistema ibrido: l’IA come potente strumento di supporto, che aiuta il clinico a prendere decisioni più informate e rapide, ma sempre sotto la sua supervisione critica. L’IA può ampliare la nostra visione, ma il giudizio finale, l’esperienza clinica, l’empatia e la responsabilità restano umane.
Servono più studi, più ampi, con casi reali, che coinvolgano tutte le figure specialistiche rilevanti (come i patologi orali) e che valutino anche la ripetibilità delle risposte nel tempo. E, soprattutto, servono sviluppi tecnologici che portino a IA più affidabili, trasparenti e specificamente progettate per il delicato campo della salute.
In conclusione, questa “sfida” tra DeepSeek e ChatGPT ci dice che l’IA sta facendo passi da gigante, ma la strada per un’integrazione sicura ed efficace nella diagnosi delle patologie orali (e in medicina in generale) è ancora lunga. DeepSeek-V3 sembra avere un vantaggio, almeno in questo confronto, ma entrambi i modelli devono migliorare parecchio, soprattutto sul fronte dell’affidabilità delle fonti. Per ora, usiamoli come assistenti intelligenti, ma teniamo sempre ben saldo il timone della decisione clinica nelle nostre mani umane.
Fonte: Springer