Come misurare la precisione diagnostica dell’intelligenza artificiale

Rx

La diagnostica è un campo in cui l’IA è in forte crescita. Medici, ricercatori e tecnici informatici sono molto coinvolti nello sviluppo e la sperimentazione di nuove soluzioni in grado di superare la capacità diagnostica attuale. Ma come si può misurare la precisione diagnostica dell’IA?

Ci sono diverse metriche per misurare la precisione che sono spesso difficili da confrontare. Alcune di esse sono poi influenzate dal campione dei dati che può distorcere i risultati ottenuti.

Per valutare le prestazioni di un sistema diagnostico è quindi importante conoscere le principali metriche e comprendere cosa esse rappresentino nella realtà. Un interessante articolo, apparso su MedCityNews, a firma di Elad Walach, spiega bene questi concetti.

Una delle metriche più comuni utilizzate dalle aziende di IA è Area Under Curve (AUC). Questo modo di misurare la precisione è stato in realtà inventato dagli operatori radar durante la seconda guerra mondiale, ma è diventato molto comune nella comunità dell’apprendimento automatico.

L’AUC misura quante più probabilità ci sono che la soluzione di IA classifichi correttamente un risultato positivo (ad esempio la presenza di un’embolia polmonare in una radiografia) rispetto a quanto sia probabile che la stessa IA rilevi erroneamente qualcosa che non c’è.

Più alto è l’AUC, più il modello è in grado di distinguere tra vero e falso e quindi di distinguere tra pazienti con malattia e quelli senza.

Ci sono poi due ulteriori metriche che sono più precise rispetto all’AUC: la sensibilità e la specificità.

La sensibilità misura quanti casi positivi un algoritmo rileva da tutti i casi positivi. Se l’algoritmo rileva il 95 casi su 100 di emorragia cerebrale, significa che ha una sensibilità del 95 per cento.

Allo stesso modo, la specificità è il numero di casi negativi rilevati tra tutti i casi negativi. Questo significa che se si hanno 1.000 casi negativi (in uno scenario reale, di solito si hanno più casi negativi che positivi), e l’IA ne segnala erroneamente 80 come positivi, l’algoritmo ha una specificità del 92%.

Insieme, queste due misure indicano quanti casi potrebbero non essere rilevati dall’algoritmo.

Volendo confrontare queste tre misure, una soluzione con sensibilità dell’89% e specificità dell’84% potrebbe ottenere un AUC di 0,95, così come un algoritmo con sensibilità dell’80% e specificità del 92%. Sono tutti buoni valori di performance anche se un punteggio AUC di 0,95 potrebbe far pensare a migliori valori di sensibilità e specificità.

L’AUC fornisce una singola misura aggregata delle prestazioni del sistema che può non essere sufficiente per valutare le prestazioni del sistema in ambiti specifici.

Altre due metriche molto importanti nell’IA sono il valore predittivo positivo (PPV) e il valore predittivo negativo (NPV). Mentre la sensibilità e la specificità sono interessanti dal punto di vista di una valutazione tecnica, il PPV e il NPV rappresentano clinicamente meglio l’esperienza dell’utente.

Il PPV è il numero di casi realmente positivi, sul totale dei casi segnalati come positivi (incluso i falsi positivi).  Un PPV dell’80% significa che 8 diagnosi su 10 sarebbero corrette, 2 sbagliate. In altre parole, il PPV è una metrica che riflette lo “spam“, ossia la percentuale di falsi positivi che l’algoritmo produce. Quindi, più basso è il PPV, più “spam” (avvisi irrilevanti) vengono generati.

Facendo un esempio reale, pensiamo di utilizzare un sistema IA con sensibilità del 95% e specificità del 90% per rilevare fratture della spina dorsale. Su un campione di 1000 casi, 100 di questi sono considerati positivi per le fratture.

Il numero di casi di vero positivo (TP), in cui l’IA individua correttamente una frattura, sarebbe il 95% di 100 (95). Il numero di falsi positivi (FP), dove l’IA pensa di aver trovato una frattura in un paziente sano, sarebbe il 10% di 900 (90). I 95 TPs e i 90 FPs fanno complessivamente 185 allarmi positivi. Il PPV sarà dunque di 95/185, ossia pari al 51%.

Ma come mai se il sistema è caratterizzato sia da un’elevata sensibilità (95%) che da un’elevata specificità (90%), il PPV è “solo” il 51%?

La risposta dipende dal mix di dati. Anche se c’è un numero relativamente basso di casi di falsi positivi, c’è un numero molto alto di casi negativi  (900 negativi contro 100 positivi), il che significa che ogni punto percentuale nella specificità crea una differenza enorme in termini di precisione complessiva.

Al contrario, il Negative Predictive Value (NPV) riflette la precisione dell’algoritmo sui casi negativi. In altre parole, di tutti i casi negativi, quanti lo sono realmente? Poiché di solito sono molti di più i casi negativi (ad esempio i pazienti senza una diagnosi) di quelli positivi, il valore dell’NPV è molto più alto di quello del PPV. Valori superiori al 97% sono molto comuni.

Ad esempio una soluzione di IA con sensibilità e specificità di solo l’80% otterrebbe, nell’esempio di prima, un NPV di ben il 97,5%. Un buon sistema con sensibilità e specificità al 95%, con lo stesso mix di dati otterrebbe un NPV vicino al 99,5%.

La valutazione di queste metriche dipende quindi molto dal contesto clinico. In ambiti in cui la prevalenza della malattia è relativamente bassa, ad esempio l’influenza aviaria, una soluzione con un PPV nell’intervallo 50%-70% sarebbe ottimale. Per le malattie più rare, un numero di PPV fino al 20% potrebbe comunque rappresentare una prestazione eccellente! L’NPV dovrebbe invece essere molto alto. Si dovrebbe cercare un NPV del 95% o superiore per sistemi IA affidabili.

 

Rispondi