Nieuw onderzoek: Chatbots op het gebied van kunstmatige intelligentie zijn creatiever dan de gemiddelde mens

Een recente studie gepubliceerd in het tijdschrift Scientific Reports suggereert dat chatbots voor kunstmatige intelligentie met een groot taalmodel (LLM) beter kunnen presteren dan gewone mensen bij creatieve taken, zoals het brainstormen over alternatieve toepassingen voor gemeenschappelijke items – een weerspiegeling van divergerend denken. De hoogst scorende personen op deze taken overtroffen echter nog steeds de resultaten van de best presterende chatbots.

Divergent denken is een denkproces dat vaak wordt geassocieerd met creativiteit en dat de nadruk legt op het genereren van veel verschillende ideeën of oplossingen voor een specifieke taak.

Het wordt doorgaans beoordeeld via de Alternative Use Task (AUT), waarbij deelnemers wordt gevraagd om in korte tijd zoveel mogelijk alternatieve toepassingen voor alledaagse voorwerpen te bedenken. De reacties werden onderverdeeld in vier verschillende categorieën: vloeiendheid, flexibiliteit, originaliteit en uitwerking.

Mika Koivisto en Simone Grassini vergeleken de reacties van 256 menselijke deelnemers met die van drie AI-chatbots (ChatGPT3, ChatGPT4 en Copy.Ai) en hun AUT-reacties op vier objecten: een touw, een doos, een potlood en een kaars. De auteurs beoordeelden de originaliteit van reacties door semantische afstand (hoe nauw de reactie verband houdt met het oorspronkelijke gebruik van het object) en creativiteit te beoordelen.

Semantische afstand wordt gekwantificeerd met behulp van computationele methoden op een schaal van 0 tot 2, terwijl menselijke beoordelaars, blind voor de initiator van de reactie, creativiteit subjectief beoordelen op een schaal van 1 tot 5. Gemiddeld genereerden chatbots reacties die aanzienlijk hoger scoorden dan menselijke reacties op semantische afstand (0,95 versus 0,91) en creativiteit (2,91 versus 2,47).

Menselijke reacties hadden een groter bereik op beide statistieken: de laagste scores waren veel lager dan de AI-reacties, maar de hoogste scores waren over het algemeen hoger. De beste reactie van de mens presteerde beter dan de beste reactie van elke chatbot in zeven van de acht beoordelingscategorieën.

Deze bevindingen suggereren dat AI-chatbots nu minstens net zo goed ideeën kunnen genereren als mensen. De auteurs merken echter op dat zij slechts de prestaties op één enkele taak in aanmerking namen die relevant waren voor de beoordeling van creativiteit. De auteurs suggereren dat toekomstig onderzoek zou kunnen onderzoeken hoe kunstmatige intelligentie kan worden geïntegreerd in het creatieve proces om de menselijke prestaties te verbeteren.