ChatGPT all’esame per l’abilitazione dei medici USA

24 Gennaio 2023Massimo Mangia

Fonte: Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models – MedRxiv

Alcuni ricercatori hanno sottoposto il sistema di OpenAI al test che i medici americani devono superare per poter esercitare la professione. I risultati ottenuti sono davvero interessanti.

Nelle ultime settimane ChatGPT, un nuovo modello di intelligenza artificiale, ha catturato l’attenzione per la sua capacità di eseguire una vasta gamma di compiti in linguaggio naturale. In questo blog vi avevo illustrato una mia breve esperienza con questo sistema sul tema della sanità digitale (potete leggerlo qui). ChatGPT è un modello generale di Large Language Model (LLM) sviluppato da OpenAI. A differenza dei modelli di intelligenza artificiale esistenti, costituiti principalmente da modelli di Deep Learning (DL), progettati per apprendere e riconoscere modelli nei dati, gli LLM sono un nuovo tipo di algoritmo di intelligenza artificiale addestrato a prevedere la probabilità di una determinata sequenza di parole in base al contesto delle parole che la precedono. Pertanto, se gli LLM vengono addestrati su quantità sufficientemente grandi di dati testuali, sono in grado di generare nuove sequenze di parole mai osservate in precedenza dal modello, ma che rappresentano sequenze plausibili basate sul linguaggio umano naturale.

ChatGPT è alimentato da GPT3.5, un LLM addestrato sul modello OpenAI 175B parameter foundation e su un ampio corpus di dati testuali provenienti da Internet attraverso metodi di apprendimento rinforzato e supervisionato.

Lo studio

I ricercatori, in uno studio pubblicato in anteprima su MedRxiv (NdA l’articolo è un preprint e non è stato sottoposto ancora a una peer-review; riporta una ricerca medica che non è ancora stata valutata), hanno valutato le prestazioni di ChatGPT, un LLM non specifico per il dominio, sulla sua capacità di effettuare ragionamenti clinici, testando le sue prestazioni su domande dell’esame di abilitazione medica degli Stati Uniti (USMLE).

L’USMLE è un programma di test standardizzato in tre fasi che copre tutti gli argomenti che devono conoscere i medici, dalle scienze di base al ragionamento clinico, dalla gestione medica alla bioetica. La difficoltà e la complessità delle domande sono altamente standardizzate e regolamentate, il che lo rende un substrato di input ideale per i test di IA.

L’esame Step 1 viene solitamente sostenuto dagli studenti di medicina che hanno completato due anni di apprendimento didattico, è basato su problemi e si concentra sulle scienze di base, sulla farmacologia e sulla fisiopatologia; gli studenti di medicina spesso dedicano circa 300-400 ore di studio alla preparazione di questo esame. L’esame Step 2CK è solitamente sostenuto dagli studenti di medicina del quarto anno che hanno completato anche 1,5-2 anni di training; pone l’accento sul ragionamento clinico, sulla gestione medica e sulla bioetica. L’esame Step 3 è sostenuto da medici che generalmente hanno completato almeno sei mesi o un anno di formazione medica post-laurea.

La metodologia

I ricercatori hanno individuato 376 domande del test disponibili pubblicamente sul sito ufficiale dell’USMLE. Sono stati eseguiti controlli casuali per assicurarsi che nessuna delle risposte, delle spiegazioni o dei contenuti correlati fosse indicizzata su Google prima del 1° gennaio 2022, che rappresenta l’ultima data accessibile al dataset di formazione ChatGPT. Tutte le domande del test sono state controllate e sono state rimosse quelle che contenevano elementi visivi come immagini cliniche, fotografie mediche e grafici. Dopo il filtraggio, 305 domande USMLE (Step 1: 93, Step 2CK: 99, Step 3: 113) sono state sottoposte a codifica.

La codifica

Le domande sono state elaborate in tre varianti e inserite in ChatGPT nella seguente sequenza:

Formato a risposta aperta (OE): Creato rimuovendo tutte le opzioni di risposta e aggiungendo una frase interrogativa iniziale variabile. Questo formato simula un input libero e un modello di interrogazione naturale da parte dell’utente.
Risposta singola a scelta multipla senza giustificazione forzata (MC-NJ): Creato riproducendo alla lettera la domanda USMLE originale.
Risposta multipla singola con giustificazione forzata (MC-J): Creato aggiungendo una frase imperativa o interrogativa variabile che obbliga il ChatGPT a fornire una motivazione per ogni scelta di risposta.

Per ridurre le distorsioni da ritenzione della memoria, è stata avviata una nuova sessione di chat in ChatGPT per ogni voce. Sono state eseguite analisi post-hoc per escludere variazioni sistematiche da parte del codificatore (dati non mostrati).

I risultati ottenuti sono stati valutati in modo indipendente per Accuratezza, Concordanza e Approfondimento da due medici giudicatori.

Accuratezza da migliorare

Le voci d’esame sono state codificate prima come domande aperte con suggerimenti variabili. Questo formato di input simula un modello naturale di interrogazione da parte dell’utente. Con le risposte indeterminate censurate/incluse, l’accuratezza di ChatGPT per i passi USMLE 1, 2CK e 3 è stata rispettivamente del 68,0%/42,9%, 58,3%/51,4% e 62,4%/55,7%.

Successivamente, gli item dell’esame sono stati codificati come domande a risposta multipla singola senza giustificazione forzata (MC-NJ). Questo input corrisponde al formato delle domande presentate agli esaminatori. Con le risposte indeterminate censurate/incluse, l’accuratezza del ChatGPT per i passi 1, 2CK e 3 dell’USMLE è stata rispettivamente del 55,1%/36,1%, 59,1%/56,9% e 60,9%/54,9%.

Infine, gli item sono stati codificati come domande a risposta multipla singola con giustificazione forzata delle selezioni positive e negative (MC-J). Questo formato di input simula il comportamento degli utenti alla ricerca di informazioni. Con le risposte indeterminate censurate/incluse, l’accuratezza del ChatGPT è stata rispettivamente del 62,3%/40,3%, 51,9%/48,6% e 64,6%/59,8%.

Elevata concordanza

La concordanza è stata valutata in modo indipendente da due medici revisori attraverso l’ispezione del contenuto della spiegazione. Complessivamente, ChatGPT ha prodotto risposte e spiegazioni con una concordanza del 94,6% per tutte le domande. L’elevata concordanza globale è stata mantenuta per tutti i livelli di esame e per i formati di input delle domande OE, MC-NJ e MC-J.

Successivamente i ricercatori hanno analizzato la contingenza tra accuratezza e concordanza nelle risposte MC-J. ChatGPT è stato costretto a giustificare la sua preferenza per le scelte di risposta e a difendere il suo rifiuto di scelte alternative. La concordanza tra le risposte accurate è stata quasi perfetta e significativamente maggiore di quella tra le risposte imprecise (99,1% contro 85,1%, p<0,001). Questi dati indicano che ChatGPT presenta una concordanza risposta-spiegazione molto elevata, che probabilmente riflette un’alta coerenza interna del suo modello linguistico probabilistico.

Dopo aver stabilito l’accuratezza e la concordanza di ChatGPT, i ricercatori hanno esaminato il suo potenziale per aumentare l’apprendimento umano nel campo della formazione medica. Le spiegazioni generate dall’intelligenza artificiale sono state valutate in modo indipendente da due revisori medici. Il contenuto delle spiegazioni è stato esaminato alla ricerca di intuizioni significative, definite come istanze che soddisfacevano i criteri di novità, non ovvietà e validità. Il valutatore ha adottato la prospettiva del pubblico target del test, in quanto studente di medicina al secondo anno per lo Step 1, studente di medicina al quarto anno per lo Step 2CK e specializzando post-laurea al primo anno per lo Step 3.

ChatGPT ha prodotto almeno un’intuizione significativa nell’88,9% di tutte le risposte. La prevalenza di insight è stata generalmente coerente tra il tipo di esame e il formato di inserimento delle domande.

Conclusioni

I risultati dello studio possono essere suddivisi in due temi principali:

l’accuratezza di ChatGPT, che si avvicina o supera la soglia di superamento dell’USMLE;
il potenziale di questa IA di generare nuove intuizioni che possono aiutare gli studenti umani in un contesto di formazione medica.

ChatGPT ha ottenuto un’accuratezza superiore al 50% in tutti gli esami, superando il 60% nella maggior parte delle analisi. La soglia di superamento dell’USMLE, pur variando da un anno all’altro, è di circa il 60%. ChatGPT si colloca dunque all’interno della fascia di superamento. Essendo il primo esperimento a raggiungere questo benchmark, per gli autori si tratta di un risultato sorprendente e impressionante.

Paradossalmente, ChatGPT ha superato PubMedGPT (accuratezza 50,8%, dati non pubblicati), un LLM omologo con una struttura neurale simile, ma addestrato esclusivamente sulla letteratura biomedica.

Gli autori hanno anche esaminato la capacità di ChatGPT di assistere il processo di apprendimento umano del suo pubblico di riferimento (ad esempio, uno studente di medicina del secondo anno che si prepara per l’USMLE Step 1). Le risposte di ChatGPT erano altamente concordanti, tanto che un discente umano poteva facilmente seguire il linguaggio interno, la logica e la direzionalità delle relazioni contenute nel testo della spiegazione (ad esempio, ipercortisolismo surrenale ⥬ aumento dell’attività degli osteoclasti ossei ⥬ aumento del riassorbimento del calcio ⥬ diminuzione della densità minerale ossea ⥬ aumento del rischio di fratture). Un’elevata concordanza interna e una bassa autocontraddizione sono un indicatore di un solido ragionamento clinico e un importante parametro della qualità delle spiegazioni. È rassicurante che la direzionalità delle relazioni sia preservata dal modello di elaborazione del linguaggio, in cui ogni oggetto verbale viene lemmatizzato individualmente.

Anche le risposte generate dall’intelligenza artificiale hanno offerto una visione significativa, modellando un processo di ragionamento deduttivo prezioso per gli studenti umani. Almeno un’intuizione significativa era presente in circa il 90% delle risposte. ChatGPT possiede quindi la capacità parziale di insegnare la medicina facendo emergere concetti nuovi e non ovvi che potrebbero non essere nella sfera di consapevolezza degli studenti. Questo risultato qualitativo fornisce una base per futuri studi sul mondo reale sull’efficacia dell’IA generativa per aumentare il processo di formazione medica umana. Ad esempio, è possibile studiare il rendimento longitudinale degli esami in un contesto quasi controllato tra studenti assistiti dall’IA e non assistiti.

Gli autori evidenziano infine anche alcuni limiti del loro studio. Chi volesse leggere il testo integrale del lavoro può accedervi qui.

Salute Digitale

Riflessioni, idee, informazioni e commenti