Onderzoekers gebruiken Super Mario als maatstaf voor het testen van kunstmatige intelligentie

Is Pokémon een moeilijke maatstaf voor kunstmatige intelligentie? Een team van onderzoekers denkt dat Super Mario Bros. uitdagender is. Onderzoekers van de Universiteit van Californië, het Hao Artificial Intelligence Laboratory (HaoAILab) van de Universiteit van Californië in San Diego, hebben vrijdag kunstmatige intelligentie in de livestreaming van de Super Mario Bros.-game gezet. Anthropic's Claude3.7 presteerde het beste, gevolgd door Claude3.5. Google's Gemini1.5Pro en OpenAI's GPT-4o presteerden slecht.

Weet je, de versie van Super Mario Bros. is niet precies dezelfde als de originele versie die in 1985 werd uitgebracht. De game draait in een emulator en kan worden geïntegreerd met het GamingAgent-framework om Mario door kunstmatige intelligentie te laten besturen.

De door HaoAILab ontwikkelde GamingAgent biedt basisinstructies aan de kunstmatige intelligentie, zoals "Als er een obstakel of vijand nadert, beweeg dan naar links/spring om te vermijden" en gamescreenshots. De AI genereert vervolgens de input die Mario aanstuurt in de vorm van Python-code.

Hao zei echter dat het spel elk model dwingt om te "leren" complexe operaties te plannen en spelstrategieën te ontwikkelen. Interessant genoeg ontdekte het laboratorium dat inferentiële modellen (zoals het o1-model van OpenAI, dat stap voor stap over een probleem 'denkt' om tot een oplossing te komen) minder goed presteerden dan 'niet-inferentiële' modellen, ook al waren ze over het algemeen sterker op de meeste benchmarks.

Onderzoekers zeggen dat een van de belangrijkste redenen waarom inferentiemodellen moeite hebben met het spelen van dergelijke realtime games, is dat het enige tijd (vaak seconden) duurt voordat ze tot een actie besluiten. Timing is alles in Super Mario Bros. Een seconde kan het verschil betekenen tussen een veilige sprong maken of in een afgrond vallen.

Games worden al tientallen jaren gebruikt als maatstaf voor kunstmatige intelligentie. Maar sommige experts twijfelen aan de wijsheid van het koppelen van de spelvaardigheden van AI aan technologische vooruitgang. In tegenstelling tot de echte wereld zijn games vaak abstract en relatief eenvoudig, en bieden ze theoretisch onbeperkte hoeveelheden gegevens voor het trainen van kunstmatige intelligentie.

Recente flitsende gaming-benchmarks suggereren dat OpenAI-onderzoeker en oprichter Andrej Karpathy met een ‘evaluatiecrisis’ wordt geconfronteerd.

"Ik weet echt niet naar welke [AI]-statistieken ik nu moet kijken. TLDR, mijn reactie is dat ik echt niet weet hoe goed deze modellen op dit moment zijn", schreef hij in een bericht op X.

Maar we kunnen tenminste AI Mario zien spelen.