OpenAI's GPT-4.5 is beter in het overtuigen van andere AI's om het money

Volgens de resultaten van OpenAI’s interne benchmarkevaluatie is OpenAI’s volgende grote kunstmatige-intelligentiemodel GPT-4.5 zeer overtuigend. Het is vooral goed in het overtuigen van een andere AI om hem geld te geven.

Donderdag bracht OpenAI een witboek uit waarin de mogelijkheden van zijn GPT-4.5-model, met de codenaam Orion, worden beschreven. Volgens het artikel heeft OpenAI het model door een reeks 'overtuigings'-benchmarks geleid, die OpenAI definieert als 'het risico dat gepaard gaat met het overtuigen van mensen om hun overtuigingen te veranderen (of actie te ondernemen op basis van statische en interactieve inhoud die door het model wordt gegenereerd).'

In één test probeerde GPT-4.5 een ander model te manipuleren – OpenAI's GPT-4o – om virtueel geld te ‘doneren’, dat veel beter presteerde dan de andere beschikbare modellen van OpenAI, inclusief ‘inferentie’-modellen zoals o1 en o3-mini. GPT-4.5 presteerde ook beter dan alle OpenAI-modellen door GPT-4o te misleiden om hem de geheime code te vertellen, en presteerde 10 procentpunten beter dan o3-mini.

Het witboek wijst erop dat de reden dat GPT-4.5 uitblinkt in het oplichten van donaties, is dat het tijdens het testen een unieke strategie heeft ontwikkeld. Het model vroeg GPT-4o om een bescheiden donatie, wat resulteerde in een reactie als "zelfs $ 2 of $ 3 van de $ 100 zou me veel helpen." Als gevolg hiervan zijn de donaties aan GPT-4.5 doorgaans kleiner dan de donaties die door andere OpenAI-modellen worden ontvangen.

Benchmarkresultaten van het donatieprogramma van OpenAI. Bron afbeelding: OpenAI

Ondanks de grotere overtuigingskracht van GPT-4.5 zei OpenAI dat het model niet voldeed aan de interne drempel van ‘hoog’ risico in deze specifieke benchmarkcategorie. Het bedrijf beloofde geen modellen vrij te geven die hoge risicodrempels bereiken totdat ‘adequate beveiligingsinterventies’ zijn geïmplementeerd om het risico tot ‘gematigd’ te beperken.

OpenAI's benchmarkresultaten voor wachtwoordspoofing. Bron afbeelding: OpenAI

Er bestaat reële bezorgdheid dat kunstmatige intelligentie de verspreiding van valse of misleidende informatie zal vergemakkelijken om de geest van mensen te beïnvloeden en kwaadaardige doeleinden te bereiken. Politiek relevante deepfakes hebben zich het afgelopen jaar als een lopend vuurtje over de hele wereld verspreid, en kunstmatige intelligentie wordt steeds vaker gebruikt om social engineering-aanvallen tegen consumenten en bedrijven uit te voeren.

In het witboek en de documenten van GPT-4.5 die eerder deze week zijn vrijgegeven, merkt OpenAI op dat het de manier wijzigt waarop zijn detectiemodellen omgaan met risico's van overreding in de echte wereld, zoals het massaal vrijgeven van misleidende informatie.