Ai & medische beeldvorming

Hoefgetrappel? Volgens medische AI waarschijnlijk een zebra.

Large Language Models laten zich misleiden door details

Large Language Models (LLM's) worden steeds vaker geïntegreerd in klinische processen. Volgens een recente studie laten deze chatbots zich bij het stellen van diagnoses echter makkelijk misleiden door niet-doorslaggevende details.

Als je op straat hoefgetrappel hoort, is het waarschijnlijk afkomstig van een paard en niet van een zebra. Er zijn nu eenmaal veel meer paarden dan zebra’s. Met dat regeltje leren geneeskundestudenten dat ze bij een diagnose ook rekening moeten houden met de prevalentie van een aandoening.

Om te testen of LLM’s dat ook doen, stelden de auteurs van de studie 300 korte scenario’s met symptomen voor eerstelijns- en spoedeisende zorg op. Voor elk scenario was zowel een veel voorkomende aandoening (zoals 'griep') als een minder prevalente aandoening (zoals 'de ziekte van Lyme') als diagnose mogelijk.

Elk scenario werd op twee manieren gepresenteerd: een keer zonder, en een keer met een detail dat naar de veel zeldzamere diagnose kon leiden (zoals: 'heeft gekampeerd'). De onderzoekers gebruikten tien verschillende verwoordingen per prompt om het effect van de exacte formulering te mitigeren.

De scenario’s werden voorgelegd aan 20 verschillende LLM-modellen - zowel algemene modellen (zoals ChatGPT en Gemini) als gespecialiseerde medische LLM's. Dat leverde in totaal 1,8 miljoen antwoorden op.

De helft trapt erin

Uit analyse blijkt dat de modellen zich in bijna de helft van de gevallen laten misleiden door het extra detail: in 49,8% was de diagnose die van de minder prevalente aandoening. Als expliciet gevraagd werd om rekening te houden met prevalentie en epidemiologie, daalde dit percentage, maar werd er nog steeds te veel belang gehecht aan het opvallende maar niet doorslaggegevende detail.

Resultaten LLM bij diagnose
Wanneer een saillant detail (rood) aan het scenario wordt toegevoegd, kiest het model vaak voor de minder frequente aandoening (rood) in plaats van voor de meest waarschijnlijke diagnose (groen).

Er was een grote variatie tussen de geteste modellen. De percentages correcte antwoorden varieerden van 28,33% in MediPhi, het zwakst presterende model, tot 49,06% in medgemma-4b-it, het best presterende model. De Zebra-voorkeur vertoonde een nog grotere spreiding, variërend van 20,33% in MediPhi tot 63,57% in phi-4.

De resultaten zijn te  verklaren door de manier waarop huidige systemen worden gebouwd en getraind. Veel van de geëvalueerde modellen presteren goed op geneeskunde-examens en gestructureerde benchmarks. Maar een kort scenario met daarin een opvallend maar niet doorslaggevend detail doet hen snel afwijken van de meest voor de hand liggende diagnose. LLM’s doen aan associatieve patroonherkenning in plaats van strikt probabilistische redenering.

In klinische workflows waar LLM's ingezet worden voor differentiaaldiagnoses en triage  kan deze bias voor zeldzamere aandoeningen een grote hoeveelheid misleidende diagnoses opleveren, waarschuwen de auteurs. Uiteraard zijn ook menselijke artsen vatbaar voor de zebra-bias; maar data uit de praktijk tonen aan dat clinici toch meestal bij de meest waarschijnlijke diagnose belanden.

 Mahmud Omar e.a., "Large Language Models Chase Zebras: Salient Cues Overrule Base Rates in Clinical Diagnosis" verscheen op Preprints with The Lancet.

Wat heb je nodig

Krijg GRATIS toegang tot het artikel
of
Proef ons gratis!Word één maand gratis premium partner en ontdek alle unieke voordelen die wij u te bieden hebben.
  • checkwekelijkse newsletter met nieuws uit uw vakbranche
  • checkdigitale toegang tot 35 vakbladen en financiële sectoroverzichten
  • checkuw bedrijfsnieuws op een selectie van vakwebsites
  • checkmaximale zichtbaarheid voor uw bedrijf
Heeft u al een abonnement? 
Geschreven door Erik Derycke6 januari 2026

Meer weten over

Print Magazine

Recente Editie
24 juni 2025

Nu lezen

Ontdek de nieuwste editie van ons magazine, boordevol inspirerende artikelen, diepgaande inzichten en prachtige visuals. Laat je meenemen op een reis door de meest actuele onderwerpen en verhalen die je niet wilt missen.

In dit magazine