ChatGPT scoort op kennis ... en empathie

In november van vorig jaar werd ChatGPT op het internet geplaatst. Het systeem is gratis en had vanaf de eerste twee maanden honderd miljoen abonnees. Een storm van commentaren raasde over het web, ook vanuit medische hoek.
Als je een ingenieur vraagt te omschrijven wat ChatGPT is, word je algauw overdonderd door een jargon waar je als simpele arts geen touw aan kan vastknopen. Dan maar de omschrijving die een medische nieuwssite vermeldt (vrij vertaald): "ChatGPT is een chatbot die wordt aangestuurd door artificiële intelligentie en een gesprek tussen mensen kan nabootsen." (1)
Neem nu het artikel hiertegenover. U tikt de volgende vraag in: 'Waarom worden mitochondria alleen door de moeder overgedragen?' In een tijdspanne van een twintigtal seconden genereert ChatGPT een synthese van zowat een getypte pagina, die overeenstemt met wat te lezen staat in de artikels opgeleverd door een Google-search - dat is althans de perceptie van een gebruiker die niet iedere dag met mitochondriën bezig is.
Als een machine zoiets kan, gaan sommigen zoeken naar de zwakke punten ervan - dat is des mensen. En die zwakke punten bestaan. ChatGPT blijkt wel eens onzin uit te kramen. En op de vraag naar een bespreking van een recent boek (gesteld op 19 mei jongstleden) moest ChatGPT deemoedig antwoorden dat zijn kennis maar tot 2021 strekt. De vraag rijst dus hoe vers de aangeleverde informatie is. Maar goed, als leek kunnen we er in onze onkundige onbezorgdheid van uitgaan dat updates een anekdotisch gegeven zijn naast het verbijsterende potentieel van dit systeem.
Geblindeerd onderzoek
Zei u: een gesprek onder mensen nabootsen? Een team van artsen en informatici trok het na.(2) Uit het platform Reddit's r/AskDocs haalden de onderzoekers 195 vragen rond gezondheid die gebruikers in december 2022 hadden gesteld, alsook de antwoorden die een arts daarop schriftelijk gaf. Ze legden die 195 zelfde vragen voor aan ChatGPT in een nieuwe sessie. De antwoorden van de arts en die van ChatGPT werden geblindeerd en in gerandomiseerde volgorde gepresenteerd aan een panel van zorgverleners. Het panel evalueerde zowel de kwaliteit als het empathisch gehalte van de informatie op een vijfpuntenschaal. Resultaat: ChatGPT scoorde significant beter dan de corresponderende arts, zowel op kwaliteit als op empathie (telkens met een p < 0,001). Het percentage hoge scores (4 of 5) lag gevoelig hoger voor de chatbot dan voor de arts, zowel voor kwaliteit (78,5% versus 22,1%) als voor empathie (45,1% versus 4,6%).
Heuglijk nieuws is dit wel: het betekent dat systemen als ChatGPT op termijn in de dagelijkse praktijk kunnen worden ingezet om vragen van patiënten te beantwoorden, terwijl de arts zich met complexere activiteiten bezighoudt. Het zou dan volstaan dat de arts de antwoorden even herleest.
1. News Medical - What does ChatGPT mean for Healthcare?
2. JAMA InternMed. Published online April 28, 2023. doi:10.1001/jamainternmed.2023.1838.
Gebuisd worden, het gebeurt
Kan ChatGPT goed overweg met patiëntvragen, dan zal het systeem toch nog een tandje moeten bijsteken om correcte informatie naar professionele zorgverleners te communiceren.
Een team van gastro-enterologen ondervond het aan den lijve. Ze kopieerden in het venster van ChatGPT de vragen van de American College of Gastroenterology Self-Assessment Test (met uitsluiting van de vragen waarbij beeldmateriaal moest worden beoordeeld).(1) "Je kan redelijkerwijze verwachten dat een arts hierop 99%, of tenminste 95% scoort", zei medeauteur Arvind Trindade in de pers. De drempel voor een geslaagde test ligt bij 70%. ChatGPT moest zich scores van 65% (versie 3 van de chatbot) en 62% (versie 4) getroosten. Alle vragen rond diagnose en medicamenteuze behandeling werden verkeerd beantwoord.
De auteurs van de studie zijn zich ervan bewust dat ChatGPT flink presteert met gezondheidscommunicatie naar het grote publiek. De zwakke beurt van het systeem in de professionele context schrijven ze toe aan het feit dat het geen toegang heeft tot literatuur die alleen tegen betaling kan worden geraadpleegd. Arvind Trindade raakte door ChatGPT geïntrigeerd omdat hij gastro-enterologen in opleiding het systeem zag bevragen. Voorlopig blijkt het geen goed idee te zijn om op die manier te studeren. De Amerikaanse gastro-enteroloog sluit niet uit dat ChatGPT alsnog zijn nut als educatief instrument kan bewijzen zodra de robot toegang krijgt tot meer betrouwbare informatie. Al eerder kwam ChatGPT zwak uit de verf op een test oftalmologie.(2)
1. Medscape - ChatGPT Bot Flunks Gastroenterology Exam
2. JAMA Ophthalmol. Published online April 27, 2023. doi:10.1001/jamaophthalmol.2023.1144.