AI är lika bra på att diagnostisera sjukdom som människor

Den första systematiska granskningen och metaanalysen i sitt slag visar att artificiell intelligens (AI) är lika bra för att diagnostisera en sjukdom baserat på en medicinsk image som vårdpersonal. Men mer högkvalitativa studier är nödvändiga.

AI och vårdpersonal är lika effektiva vid diagnos av sjukdom baserat på medicinsk bildbehandling, föreslår ny forskning.

En ny artikel undersöker befintliga bevis i ett försök att avgöra om AI kan diagnostisera sjukdomar lika effektivt som vårdpersonal.

Såvitt författarna vet - det vill säga ett stort team av forskare som leds av professor Alastair Denniston från University Hospitals Birmingham NHS Foundation Trust i Storbritannien - är detta den första systematiska granskningen som jämför AI-prestanda med läkare för alla sjukdomar.

Prof.Denniston och teamet sökte i flera medicinska databaser för alla studier som publicerades mellan 1 januari 2012 och 6 juni 2019. Teamet publicerade resultaten av sin analys i tidskriften Lancet Digital Health.

AI i nivå med vårdpersonal

Forskarna letade efter studier som jämförde den diagnostiska effektiviteten hos djupinlärningsalgoritmer med vårdpersonalens när de hade ställt en diagnos baserad på medicinsk bildbehandling.

De undersökte kvaliteten på rapporteringen i nämnda studier, deras kliniska värde och studiernas design.

Dessutom, när det gällde att bedöma AI: s diagnostiska prestanda jämfört med vårdpersonalens, såg forskarna på två resultat: specificitet och känslighet.

”Känslighet” definierar sannolikheten för att ett diagnostiskt verktyg får ett positivt resultat hos personer som har sjukdomen. Specificitet avser noggrannheten i det diagnostiska testet, vilket kompletterar känslighetsmåttet.

Urvalsprocessen gav endast 14 studier vars kvalitet var tillräckligt hög för att inkluderas i analysen. Prof. Denniston förklarar, "Vi granskade över 20 500 artiklar, men mindre än 1% av dessa var tillräckligt robusta i sin design och rapporterade att oberoende granskare hade stort förtroende för sina påståenden."

"Dessutom validerade endast 25 studier AI-modellerna externt (med hjälp av medicinska bilder från en annan population), och bara 14 studier jämförde prestanda hos AI och vårdpersonal med samma testprov."

”Inom denna handfull högkvalitativa studier fann vi att djupinlärning verkligen kunde upptäcka sjukdomar som sträcker sig från cancer till ögonsjukdomar lika exakt som vårdpersonal. Men det är viktigt att notera att AI inte väsentligt överträffade den mänskliga diagnosen. "

Prof. Alastair Denniston

Mer specifikt fann analysen att AI kan diagnostisera sjukdomar korrekt i 87% av fallen, medan detektion av vårdpersonal gav en noggrannhetsgrad på 86%. Specificiteten för algoritmer för djupinlärning var 93%, jämfört med människors 91%.

Bias kan överdriva AI-prestanda

Prof. Denniston och kollegor uppmärksammar också flera begränsningar de hittade i studier som undersöker AI-diagnostikprestanda.

För det första undersöker de flesta studier AI och vårdpersonalens diagnostiska noggrannhet i en isolerad miljö som inte efterliknar regelbunden klinisk praxis - till exempel berövar läkare ytterligare klinisk information som de vanligtvis behöver för att ställa en diagnos.

För det andra, säger forskarna, jämförde de flesta studier endast datamängder, medan högkvalitativ forskning inom diagnostisk prestanda skulle kräva jämförelser hos människor.

Dessutom led alla studier av dålig rapportering, säger författarna, med analys som inte redogjorde för information som saknades i nämnda datamängder. "De flesta [studier] rapporterade inte om någon data saknades, vilken andel detta representerade och hur saknade data hanterades i analysen", skriver författarna.

Ytterligare begränsningar inkluderar inkonsekvent terminologi, som inte klart anger en tröskel för känslighets- och specificitetsanalys och bristen på validering utanför provet.

"Det finns en inneboende spänning mellan önskan att använda ny, potentiellt livrädd diagnostik och det absolut nödvändiga att utveckla högkvalitativa bevis på ett sätt som kan gynna patienter och hälso- och sjukvårdssystem i klinisk praxis," kommenterar första författare Dr. Xiaoxuan Liu från University of Birmingham.

”En viktig läxa från vårt arbete är att inom AI - som med alla andra delar av hälso- och sjukvården - är bra studiedesign viktigt. Utan det kan du enkelt införa bias som vrider dina resultat. Dessa fördomar kan leda till överdrivna påståenden om bra prestanda för AI-verktyg som inte översätts till den verkliga världen. ”

Dr. Xiaoxuan Liu

"Bevis på hur AI-algoritmer kommer att förändra patientresultaten måste komma från jämförelser med alternativa diagnostiska tester i randomiserade kontrollerade studier", tillägger medförfattare Dr. Livia Faes från Moorfields Eye Hospital, London, Storbritannien.

"Hittills finns det knappast några sådana prövningar där diagnostiska beslut som fattas av en AI-algoritm används för att se vad som sedan händer med utfall som verkligen betyder något för patienterna, som snabb behandling, tid för utskrivning från sjukhus eller till och med överlevnad."

none:  kirurgi gastrointestinal - gastroenterologi fibromyalgi