Het onderzoeksteam heeft de oogziekte ‘bixonimanie’ uitgevonden en meerdere AI-chatbots herhaalden it

Als iemand het afgelopen jaar zijn symptomen van ‘te lang naar het scherm staren, jeukende ogen en roodachtige oogleden’ invoert in verschillende reguliere kunstmatige intelligentie-chatbots, zal het systeem waarschijnlijk een vreemde diagnose geven: een nieuwe ziekte genaamd ‘bixonimanie’. Deze zogenaamde ziekte komt echter helemaal niet voor in de officiële medische literatuur. Het kwam volledig voort uit een doelbewust ontworpen experiment van het team van medisch onderzoeker Almira Osmanovic Thunström aan de Universiteit van Göteborg in Zweden.

Op 15 maart 2024 verschenen voor het eerst twee blogposts waarin ‘bixonimanie’ werd geïntroduceerd op het platform Medium. Vervolgens werden op 26 april en 6 mei twee vervalste academische preprints geüpload naar de academische sociale netwerksite SciProfiles. De ondertekende auteur was de niet-bestaande "Lazljiv Izgubljenovic", en de avatars werden ook gegenereerd met behulp van AI. "Asteria Horizon University" en "Nova City, California", waar de fictieve auteur werkt, zijn ook fictief. Zelfs de "Starfleet Academy", "Enterprise", "Professor Sideshow Bob Foundation", "Fellowship of the Ring University", "Galactic Triad" en andere instellingen die in de dankbetuigingen van de krant worden genoemd, zijn allemaal afkomstig uit sciencefictionwerken en stripfiguren, en de hints zijn uiterst duidelijk. De tekst van het artikel bevat al vroeg woorden als 'het hele artikel is verzonnen' en '50 fictieve proefpersonen zijn gerekruteerd', waardoor iedereen die geïnteresseerd is bijna wordt aangekondigd dat 'dit een grap is'.

Osmanovich Tongström zei dat hij dit experiment oorspronkelijk had bedacht om studenten uit te leggen hoe grote taalmodellen kennis kunnen opbouwen uit 'algemene crawling datasets' op internet (zoals Common Crawl), en om te laten zien hoe 'prompt injection' chatbots van buiten de veiligheidsrail kan 'ontvoeren'. Op basis van haar medische achtergrond koos ze een gezondheidsgerelateerd thema en gebruikte ze bewust een ‘grappig klinkende’ naam, bixonimanie, om de fictieve aard ervan te benadrukken. Elke arts die de naam van een oogziekte ziet eindigen in manie, zou weten dat er iets mis was, aangezien dat een psychiatrische term is.

Het experiment ‘ging echter iets te ver’. Binnen enkele weken nadat de informatie was geüpload, had Microsoft's Bing's Copilot bixonimanie beschreven als een 'echte en zeldzame ziekte', terwijl Google Gemini het een 'ziekte veroorzaakt door overmatige blootstelling aan blauw licht' noemde en gebruikers aanbeval een oogarts te raadplegen. Gedurende dezelfde periode gaf Perplexity AI een specifiek "prevalentiepercentage" van ongeveer 1 per 90.000 mensen, en OpenAI's ChatGPT zal bepalen of de symptomen consistent zijn met bixonimanie op basis van de beschrijving van de gebruiker. Onder deze antwoorden bevinden zich gebruikers die rechtstreeks vragen stellen over bixonimanie, en er zijn ook algemene vragen die alleen beschrijven "blauw licht veroorzaakt ooglidpigmentatie", en het model zal ze actief verbinden met deze fictieve ziektenaam.

De reacties schokten sommige experts. Alex Ruani, een onderzoeker op het gebied van gezondheidsdesinformatie aan het University College London, wees erop dat als het wetenschappelijke systeem en de systemen die dit ondersteunen dergelijke ‘rommel’ niet kunnen identificeren en eruit filteren, de gevolgen rampzalig zullen zijn. Ze noemde de zaak “een schoolvoorbeeld van hoe desinformatie en desinformatie werken” en benadrukte dat “het misschien grappig lijkt, maar het probleem is zeer ernstig.”

Valse informatie op internet is geen nieuw probleem. Zoekmachines zoals Google blijven al jaren strijden tegen ‘nepinhoud’ en ‘misleidende inhoud’, waarbij ze slechte informatie eruit filteren door de rangschikkingsalgoritmen bij te werken. In tegenstelling tot traditioneel zoeken hebben generatieve grote modellen echter natuurlijke tekortkomingen op het gebied van informatiescreening en traceerbaarheid, en verzinnen ze vaak 'serieus onzin' als er een gebrek aan betrouwbare basis is. Sinds de opkomst van deze neppapieren hebben enkele van de nieuwste versies van grote modellen geleerd scepticisme te uiten wanneer ze worden geconfronteerd met bixonimanie, zoals op 11 maart 2026, toen ChatGPT er passief op wees dat de term 'waarschijnlijk een nep- of pseudowetenschappelijk label is.' Maar slechts een paar dagen later werd bixonimanie beschreven als "een nieuw subtype van periorbitale melanose geassocieerd met blootstelling aan blauw licht van digitale schermen" in een nieuwe ronde van vragen en antwoorden.

Soortgelijke schommelingen komen voor in andere systemen. Medio maart van dit jaar zal Microsoft Copilot antwoorden dat bixonimanie "nog niet algemeen wordt erkend als een medische diagnose, maar dat meerdere nieuw gepubliceerde artikelen en casusrapporten het beschouwen als een goedaardige, verkeerd gediagnosticeerde ziekte die verband houdt met langdurige blootstelling aan blauw licht." In januari beschreef Perplexity het in zijn beschrijving als "een nieuw opkomende term". Nadat de relevante verklaringen in twijfel waren getrokken, reageerden verschillende bedrijven achtereenvolgens: Perplexity stelde dat "het grootste voordeel nauwkeurigheid" is. Hoewel het niet beweerde "100% nauwkeurig" te zijn, beweerde het "het AI-bedrijf te zijn dat nauwkeurigheid het meest waardeert"; OpenAI verklaarde dat het model dat de huidige versie van ChatGPT ondersteunt, aanzienlijk is verbeterd in het verstrekken van veilige en nauwkeurige medische informatie. Eerder onderzoek weerspiegelde de situatie van het oude generatiemodel. Gevraagd naar Gemini's eerdere reactie met betrekking tot bixonimanie als een echte ziekte, zei een woordvoerder van Google dat dit de prestaties van vroege modellen weerspiegelde en benadrukte dat het bedrijf "openhartig is geweest over de beperkingen van generatieve AI", gebruikers in de app ertoe aanzet "informatie te controleren", en gebruikers aanbeveelt professionals te raadplegen als het gaat om gevoelige onderwerpen zoals medische zorg. Microsoft heeft niet gereageerd op een verzoek om commentaar.

Een deel van het probleem is dat de output van een AI-model sterk afhankelijk is van de specifieke manier waarop er naar gevraagd wordt en van de informatiebron waarop het gebaseerd is. Als u zoekt naar 'bixonimanie', kan het AI-overzicht van Google dit als een legitieme aandoening beschouwen; als je vraagt: "Bestaat bixonimanie echt?" hetzelfde kenmerk zou kunnen bevestigen dat het niet legitiem is en slechts een verzonnen zelfstandig naamwoord is.

Het ‘succes’ van het bixonimanie-experiment houdt ook verband met de hoge mate van authenticiteit van het verpakkingsformaat: het gebruikt het professionele formaat van academische artikelen en klinische documenten en ziet eruit als een ‘officiële bron’. Mahmud Omar, een arts aan de Harvard Medical School die zich bezighoudt met medisch AI-onderzoek, ontdekte in een onderzoek met twintig grote modellen dat wanneer de invoertekst wordt gepresenteerd in professionele medische stijlen zoals ontslagsamenvattingen en klinische documenten, de grote modellen waarschijnlijk "brandstof en azijn toevoegen" aan de oorspronkelijke informatie en hallucinaties veroorzaken; als de tekst afkomstig is van sociale media en een meer nonchalante toon heeft, is de kans op hallucinaties kleiner. Hij wees erop dat de huidige iteratieve modelsnelheid van AI-bedrijven extreem snel is, en dat de industrie nog geen uniform proces en consensus heeft gevormd voor het geautomatiseerd en rigoureus testen van elke versie, wat de veiligheidsbeoordeling en gestandaardiseerde controle veel moeilijker maakt.

Wat nog alarmerender is, is dat dit experiment uiteindelijk de grens tussen machines en mensen doorbrak en in een officieel medisch tijdschrift terechtkwam. Onderzoek naar bixonimanie is aangehaald in een handvol artikelen, waaronder een artikel in het medische tijdschrift Cureus van het Maharishi Markandeshwar Institute of Medical Sciences and Research in Moulana, India. Het artikel citeerde een van de vervalste preprints en schreef: "Bixonimanie is een opkomende vorm van periorbitale pigmentatie (POM) geassocieerd met blootstelling aan blauw licht, en het mechanisme ervan vereist verder onderzoek." Nadat het nieuwsteam "Nature" bevestiging had gevraagd aan het tijdschrift, kondigde "Cureus" op 30 maart 2026 zijn terugtrekking aan, op grond van het feit dat er drie irrelevante verwijzingen in het artikel stonden, waaronder een die verwees naar een fictieve ziekte, en dat de redactie daarom "niet langer het vertrouwen kan behouden in de nauwkeurigheid en de bron van dit werk." De auteurs waren het niet eens met het intrekkingsbesluit, maar het artikel werd uiteindelijk officieel ingetrokken.

Ruani is van mening dat dit incident veel verder gaat dan het bereik van ‘AI die onzin praat’, omdat het ook ‘mensen voor de gek hield’ en aan het licht bracht dat het vertrouwensmechanisme van wetenschappelijke onderzoekers in de bron en inhoud van documenten wordt uitgehold. ‘We moeten ons vertrouwen als goud beschermen’, zei ze. “De huidige situatie kan in één woord worden omschreven: chaos.”

Bij het ontwerpen van dit experiment had Osmanovich Thunström ook zorgen. Ze was bang dat het opzettelijk 'zaaien' van een nepziekte in de wetenschappelijke literatuur echte schade zou aanrichten. Daartoe raadpleegde ze een ethisch adviseur over mogelijke risico's en koos bewust voor relatief 'laag-risico' kleine huidproblemen als onderwerpen om mogelijke negatieve gevolgen te verminderen. ‘Wat ik zeker wil weten, is dat we door op deze manier experimenten uit te voeren de schade verminderen in plaats van nog meer schade te veroorzaken’, zei ze.

De kettingreactie rond bixonimanie laat duidelijk zien hoe desinformatie gemakkelijk meerdere lagen van technische en institutionele verdedigingsmechanismen kan doordringen in een tijdperk waarin generatieve kunstmatige intelligentie zich snel ontwikkelt en academische productie sterk afhankelijk is van digitale hulpmiddelen. Van chatbots tot peer-reviewed tijdschriften, de gezamenlijke deelname van machines en mensen aan deze ‘collectieve misleiding’ heeft ook de academische wereld, de industrie en toezichthouders gedwongen om opnieuw na te denken: hoe kunnen we de betekenis van ‘geloofwaardigheid’ herijken in de nieuwe fase van de deelname van AI aan kennisproductie, en hoe kunnen we een duidelijkere en stabielere prudentiële grens trekken terwijl we efficiëntie nastreven.