OpenAI’s hoofd van de geestelijke gezondheidszorg springt naar Anthropic Alignment team

Een van OpenAI's meest controversiële kwesties van het afgelopen jaar was hoe modellen precies moeten reageren wanneer chatbotgebruikers tekenen van geestelijke gezondheidsproblemen vertonen in gesprekken, en nu is Andrea Vallone, hoofd van het beveiligingsonderzoek op dit gebied, vertrokken om zich bij Anthropic aan te sluiten.

Vallone postte eerder op LinkedIn dat het onderzoek waarvoor ze het afgelopen jaar bij OpenAI verantwoordelijk was, vrijwel "geen bestaande precedenten" had om te volgen. De kernvraag is: hoe moet het model reageren wanneer het wordt geconfronteerd met emotionele overafhankelijkheid bij gebruikers of vroege tekenen van een geestelijke gezondheidscrisis. Ze werkte drie jaar bij OpenAI, waar ze het onderzoeksteam 'modelbeleid' oprichtte en leidde om te werken aan de implementatie van GPT-4 en het volgende generatie inferentiemodel GPT-5, en nam deel aan het ontwerp van een verscheidenheid aan reguliere beveiligingstrainingsmethoden in de industrie, waaronder 'op regels gebaseerde beloningen'.

Tegenwoordig is Vallone toegetreden tot het uitlijningsteam van Anthropic, dat tot taak heeft de aanzienlijke risico's die grote modellen met zich mee kunnen brengen te identificeren en te begrijpen en manieren te onderzoeken om hiermee om te gaan. Ze zal rapporteren aan Jan Leike – het voormalige hoofd van veiligheidsonderzoek van OpenAI, die in mei 2024 vertrok vanwege zorgen dat de “veiligheidscultuur en -processen van OpenAI plaats hadden gemaakt voor een glanzend product” voordat ze naar Anthropic overstapten.

Het afgelopen jaar zijn toonaangevende AI-startups publieke controverse blijven veroorzaken over de risico's die gepaard gaan met AI-chatbots en de geestelijke gezondheid van gebruikers. Sommige gebruikers hebben hun psychologische problemen verder verdiept nadat ze lange tijd met chatbots hebben gesproken, en hun veiligheidsverdediging is tijdens lange gesprekken geleidelijk ingestort. Er zijn zelfs extreme incidenten geweest, zoals tieners die zelfmoord pleegden en volwassenen die een moord pleegden nadat ze het hulpmiddel hadden 'vertrouwd'. Verschillende gevallen hebben families ertoe aangezet om rechtszaken wegens onrechtmatige dood aan te spannen tegen verbonden bedrijven. Een subcommissie van de Amerikaanse Senaat hield ook hoorzittingen over deze kwestie, met de vraag om de rol en verantwoordelijkheden van chatbots bij dergelijke incidenten te onderzoeken, en veiligheidsonderzoekers werd gevraagd om met krachtigere oplossingen te komen.

Sam Bowman, een van de teamleiders van Anthropic, zei op LinkedIn dat hij "trots was op hoe serieus Anthropic deze kwestie neemt" en dat het bedrijf goed nadenkt over "hoe AI-systemen zich zouden moeten gedragen". Vallone schreef donderdag in een nieuwe LinkedIn-post dat ze "ernaar uitkijkt om haar onderzoek bij Anthropic voort te zetten, waarbij ze zich richt op het vormgeven van Claude's gedrag in nieuwe situaties door middel van afstemming en verfijning."