Uit een recent onderzoek gepubliceerd in Nature Medicine is gebleken dat ChatGPT Health, een chatbot gelanceerd door OpenAI voor medische scenario's, vaak de ernst van medische noodsituaties onderschat bij het beoordelen van gevallen. Het onderzoeksteam voerde 60 medische gevallen uit de echte wereld in het systeem in en vergeleek de triage-aanbevelingen met de oordelen van drie artsen op basis van richtlijnen en ervaring.

De resultaten toonden aan dat van de gevallen waarvan artsen bepaalden dat ze onmiddellijk naar de afdeling spoedeisende hulp moesten gaan, 51,6% van ChatGPT Health vastbesloten was "binnen 24 tot 48 uur een arts te zien", wat de zogenaamde "lage graad" is. Situaties die als noodsituatie worden geclassificeerd, zijn onder meer diabetische ketoacidose, dreigend ademhalingsfalen en andere ernstige ziekten die tot de dood zullen leiden als ze niet onmiddellijk worden behandeld. Ashwin Ramaswamy, hoofdauteur van het onderzoek en docent urologie aan het Mount Sinai Hospital in New York City, merkte op dat elke arts met enige opleiding zou aannemen dat dergelijke patiënten onmiddellijk naar de afdeling spoedeisende hulp moeten worden gebracht, maar de chatbot leek te ‘wachten tot de aandoening onmiskenbaar ernstig is’ voordat hij een reis aanbeveelt. Voor noodsituaties zoals een beroerte, die zeer typische symptomen hebben, heeft ChatGPT Health in dit onderzoek echter een 100% nauwkeurige classificatie bereikt.
In het onderzoek werd ook gekeken naar hoe het systeem presteerde onder verschillende demografische kenmerken: van elk geval werden 16 varianten gemaakt, waarbij het geslacht, het ras en andere informatie van de patiënt veranderden, maar door het ontwerp zouden de conclusies hetzelfde moeten zijn, ongeacht de variant. De studie vond geen bewijs van systematische vertekening in de resultaten op basis van geslacht of ras.
Uit het onderzoek bleek ook dat ChatGPT Health het tegenovergestelde probleem had met niet-urgente gevallen: het "overschatte" 64,8% van de niet-dringende gevallen in vergelijking met artsen, zoals het vragen aan een patiënt die slechts drie dagen keelpijn had gehad om binnen 24 tot 48 uur door de thuiszorg te worden gezien. Ramaswamy zei dat hij moeite had om de logica achter de aanbevelingen van het model in verschillende scenario's te zien, en zei dat de risicobeoordelingen "een beetje omgekeerd, bijna het tegenovergestelde" waren van het klinische risico.
De prestaties van ChatGPT Health waren eveneens inconsistent in situaties waarin sprake was van zelfmoordgedachten of het risico op zelfbeschadiging. Het beleid van OpenAI stelt dat wanneer een gebruiker zelfmoordgedachten uit, de chatbot hem de opdracht moet geven om 988, de National Suicide and Crisis Hotline, te bellen, en ChatGPT Health volgt hetzelfde mechanisme. Maar in dit onderzoek stelde het systeem soms voor om 988 te bellen als het niet nodig was, maar gaf het geen advies als het echt nodig was.
In reactie op de conclusies van het onderzoek zei een woordvoerder van OpenAI dat het bedrijf onderzoek naar de toepassing van kunstmatige intelligentie op medisch gebied verwelkomt, maar van mening is dat de opzet van dit onderzoek niet het typische gebruik of de verwachte gebruiksscenario's van ChatGPT Health weergeeft. Volgens OpenAI moedigt het interactiemodel van ChatGPT Health gebruikers aan om vragen te blijven stellen om meer achtergrondinformatie te geven, in plaats van erop te vertrouwen om een eenmalig oordeel te vellen over een enkele beschrijving. Momenteel is ChatGPT Health nog steeds alleen toegankelijk voor een beperkt aantal gebruikers. OpenAI blijft de veiligheid en betrouwbaarheid van het model verbeteren en heeft het nog niet volledig gepromoot. Officiële informatie benadrukt ook dat het product “niet voor diagnose of behandeling” is, maar is gebouwd op een veiliger platform waarmee gebruikers gevoeligere persoonlijke medische informatie kunnen uploaden.
Uit een rapport dat OpenAI in januari van dit jaar publiceerde, bleek dat meer dan 40 miljoen mensen over de hele wereld ChatGPT hebben gebruikt om gezondheidsgerelateerde vragen te beantwoorden. Er zijn elke week bijna 2 miljoen gesprekken over ziektekostenverzekeringen. De overgrote meerderheid van de gezondheidsconsultaties vindt plaats buiten de normale spreekuren van artsen, en wekelijks komen ruim 500.000 berichten uit gebieden die meer dan 30 minuten rijden van het ziekenhuis liggen. Onderzoekers wijzen erop dat AI-tools voor deze mensen erg aantrekkelijk zijn omdat ze goedkoop te verkrijgen zijn, er geen limiet is op het aantal vragen en antwoorden en gebruikers alle documenten en details kunnen uploaden die ze willen bespreken. Volgens Ramaswamy zijn veel mensen op zoek naar meer dan alleen advies, maar ook naar een interactieve ervaring met een ‘medische begeleider’.
Verschillende experts die niet bij het onderzoek betrokken waren, waarschuwden echter dat de medische mogelijkheden van de huidige chatbots niet moeten worden overschat. John Mafi, een internist bij UCLA Health System, zei dat elk medisch AI-product dat de levensveiligheid beïnvloedt, rigoureuze gerandomiseerde gecontroleerde onderzoeken moet ondergaan om te bewijzen dat de voordelen opwegen tegen de risico's voordat het op grote schaal wordt gepromoot. Deskundigen zijn over het algemeen van mening dat chatbots in veel scenario's nuttige gezondheidsinformatie kunnen verschaffen, maar het is nog steeds moeilijk om het persoonlijke oordeel van artsen te vervangen.
Monica Agrawal, assistent-professor bij de afdeling Biostatistiek en Computerwetenschappen aan de Duke University, wees erop dat de buitenwereld nog steeds geen transparant inzicht heeft in de trainingsgegevens en trainingsmethoden van grootschalige taalmodellen, en dat veel bestaande evaluatie-indicatoren (zoals hoge scores bij licentie-examens) niet direct hun werkelijke medische bekwaamheid weergeven. Ze zei ook dat grote taalmodellen ‘toegeven’ en de neiging hebben de mening van de gebruiker te weerspiegelen, ook al zijn die meningen onnauwkeurig, wat de bestaande misverstanden en vooroordelen van patiënten kan versterken. Mafi voegde eraan toe dat AI-hulpmiddelen ‘ontworpen zijn om u tevreden te stellen’, maar dat artsen soms dingen moeten zeggen die patiënten niet willen horen.
Op de vraag of het veilig is om op chatbots te vertrouwen om medisch advies te geven, is Ramaswamy van mening dat, althans in het huidige stadium, het antwoord nee is. Vooral in noodsituaties mag niet op AI worden vertrouwd, maar moet eerst contact worden opgenomen met artsen of hulpdiensten. Ethan Goh, uitvoerend directeur van ARISE, een AI-onderzoeksnetwerk in Singapore, is van mening dat AI in veel specifieke situaties inderdaad veilige en haalbare suggesties kan geven, maar de sleutel is dat gebruikers zich bewust moeten zijn van de beperkingen ervan en het niet mogen beschouwen als een vervanging voor artsen. Deskundigen benadrukken dat het een veiligere toekomstige richting is om AI te gebruiken in samenwerking met artsen, met voortdurende regulering en verbetering van instrumenten door nauwere samenwerking tussen medische instellingen en technologiebedrijven.
Ramaswamy zei dat als de mogelijkheden van het model blijven verbeteren, het opzetten van een ‘patiënt-AI-arts’ driepartijensamenwerkingsrelatie in afgelegen gebieden of mondiale gezondheidsscenario’s met schaarse medische middelen tastbare voordelen voor patiënten kan opleveren. Maar daarvoor is het nog steeds een moeilijk probleem waarmee de medische en technologische industrie wordt geconfronteerd, hoe rigoureus genoeg evaluaties en beperkingen van deze systemen moeten worden uitgevoerd voordat beslissingen worden genomen die werkelijk levens beïnvloeden.