Google verbetert de consistentie van AI-wereldmodel Genie 3

Google heeft onlangs de nieuwste vooruitgang gedemonstreerd van zijn generatieve AI-wereldmodel Genie 3, dat zich richt op het verbeteren van de ‘consistentie’ van de gegenereerde wereld. De algehele mogelijkheden zijn echter nog lang niet in staat om het professionele game-ontwikkelingsproces echt te ondersteunen.

Toen Google Project Genie een paar maanden geleden voor het eerst introduceerde, werd het project gezien als een potentiële 'game changer' die het proces van game-ontwikkeling en het bouwen van een virtuele wereld zou kunnen veranderen. Volgens de laatste introductie van Google op de GDC is het Genie 3-model, dat de kernmotor is van Project Genie, echter nog lang niet "de industrie ondermijnt" of zelfs "de manier waarop de industrie werkt substantieel verandert".

Google positioneert Project Genie als een set tools die interactieve werelden in realtime kunnen genereren: ontwikkelaars hoeven alleen tekstbeschrijvingen te geven, en het universele model van Genie 3 kan een 'fotorealistische' driedimensionale omgeving genereren en op deze basis fysieke en logische beperkingen toevoegen, waardoor gebruikers in realtime kunnen verkennen. Google DeepMind beschouwt Genie 3 ook als een van de belangrijkste modellen in zijn langetermijnstreven naar een algemene kunstmatige intelligentie (AGI) -strategie, in de hoop te evolueren naar een virtuele agent met geavanceerde redeneermogelijkheden vergelijkbaar met "The Matrix".

De werkelijkheid is veel ingetogener dan de visie. Google onthulde in een GDC-toespraak over het thema "Playable Worlds" dat de eerste versie van Genie 3 de samenhang van een driedimensionale wereld slechts enkele seconden kan behouden. Na een recente reeks upgrades zijn de prestaties van het huidige model op het gebied van wereldconsistentie verbeterd tot ongeveer één minuut. Na deze tijd zullen de foto's en scènes snel instorten en evolueren naar chaotische en vervormde "hallucinerende" beelden.

Technisch gezien lijkt de door Genie 3 gegenereerde ‘wereld’ dichter bij een videostream die frame voor frame is gesplitst, dan bij een 3D-omgeving die bestaat uit stabiele scènes en objecten in de traditionele zin. Met andere woorden, het lijkt meer op een dynamische video die onmiddellijk reageert op tekstaanwijzingen dan op een volledig gestructureerd spelniveau of een open wereld die continu kan worden geladen en bewerkt. DeepMind-onderzoeker Alexandre Moufarek benadrukte dat Google Genie 3 of Project Genie niet ontwikkelt met als doel de hele game-industrie te vervangen, maar naarmate het model blijft evolueren, kan de mogelijkheid om games te genereren er in de toekomst “natuurlijk” uit groeien.

In de officiële verklaring is AGI nog steeds het primaire doel van het Genie-project, maar Moufarek maakte ook duidelijk dat hij hoopt dit soort generatieve wereldtechnologie in het juiste stadium open te stellen voor game-ontwikkelaars, waardoor ze de kans krijgen om eerst te ‘spelen’ en ‘uit te proberen’. Afgaande op de huidige volwassenheid is Genie 3 nog lang niet op het niveau van “het direct gebruiken om games te maken”, en zal het op korte termijn geen betrouwbare schakel kunnen worden in de productiepijplijn van de studio.

Hoewel Project Genie niet bedoeld was om de game-industrie direct te ‘ondermijnen’, veroorzaakte het, zodra het relevante nieuws eenmaal was aangekondigd, nog steeds schommelingen in de aandelenkoersen van sommige gamebedrijven, wat de gevoelige verwachtingen van de markt ten aanzien van generatieve wereldtechnologie weerspiegelde. Naast het technische probleem van de consistentie in de wereld, kan Genie ook geconfronteerd worden met een groot obstakel in het proces van praktische ontwikkeling: de kwestie van het auteursrecht en het eigendom van intellectueel eigendom, vooral als het gaat om fabrikanten met een sterke houding ten aanzien van de bescherming van rechten, zoals Nintendo. Elke praktische toepassing op basis van deze technologie kan te maken krijgen met juridische uitdagingen en onzekerheid op de lange termijn.

Afgaande op de huidige acties van Google richt het bedrijf zich nog steeds op de iteratie van zijn algehele generatieve AI-mogelijkheden. Op deze GDC demonstreerde Google ook een geüpgradede versie van SIMA 2 - deze AI-agent is ontworpen om autonoom videogames te spelen zonder de noodzaak van uitgebreide scripts. Het is opnieuw een poging van Google om 'AI die games kan spelen' te onderzoeken.

Vanuit een industrieperspectief weerspiegelt de vooruitgang van Genie 3 niet alleen de zichtbare verbeteringen die het generatieve wereldmodel in korte tijd heeft aangebracht, maar legt ook de enorme kloof bloot tussen het generatieve wereldmodel en de echte productie: de consistentie van één minuut betekent dat het momenteel meer geschikt is voor technische demonstraties of proof-of-concept dan voor het uitvoeren van langcyclische, zeer betrouwbare commerciële gameprojecten. Voordat het auteursrecht, de definitie van aansprakelijkheid en de ecologie van de sector worden opgehelderd, is de kans groter dat dit soort technologie zal bestaan als een aanvullend creatief en prototyping-instrument, dan als de ‘ultieme oplossing’ om bestaande game-engines en contentpijplijnen te vervangen.