De 8 ChatGPT Werewolf Killing Games van Tsinghua University, het gekonkel en de vermomming zitten allemaal in deze game

Naast het spelen van videogames is ook het doden van weerwolfen door mensen 'sociale artefacten' door AI geleerd. Acht ChatGPT's "zitten" bij elkaar en spelen levendig vijf rollen, precies zoals echte mensen. Dit nieuwste simulatie-experiment voor de menselijke samenleving werd gezamenlijk voltooid door de Tsinghua Universiteit en het Zhongguancun Laboratorium.

Van Stanford Town tot Tsinghua Game Company: het gebruik van AI om de menselijke samenleving te simuleren is altijd een populair onderzoeksonderwerp geweest in de academische gemeenschap.

Als Tsinghua Game Company de werkomgeving van sociale dieren simuleerde, dan wordt nu ook het sociale leven van sociale dieren in hun vrije tijd door AI gesimuleerd.

In dit weerwolfmoordspel bestaande uit 8 ChatGPT's worden de vermomming en het vertrouwen, leiderschap en confrontatie in de echte wereld allemaal levendig weerspiegeld.

Zelfs zonder menselijk onderwijs ontdekte AI veel spelvaardigheden door zijn eigen verkenning.

Dit alles kan worden bereikt via ontwerpaanwijzingen zonder dat de parameters in het model hoeven te worden aangepast.

Wat zijn de prachtige scènes in deze "Weerwolfwereld"? Laten we er samen naar kijken.

Strategieën en vaardigheden kunnen worden beheerst zonder dat ze worden aangeleerd

Voordat we deze 8 ChatGPT-dialogen laten zien, moeten we eerst de spelconfiguratie uitleggen: twee dorpelingen en twee weerwolven, één bewaker, één heks en één profeet, naast één god.

Tijdens het experiment ontdekten de onderzoekers dat ChatGPT strategieën gebruikte die niet expliciet werden vermeld in de spelinstructies en aanwijzingen.

Goede kerel, je kunt autodidact worden zonder les te krijgen.

Concreet weerspiegelen deze zeven ChatGPT-gesprekken vertrouwen, camouflage, confrontatie en leiderschap in menselijke spelletjes.

Laten we het eerst hebben over vertrouwen.

De onderzoekers definieerden nieuwkomers als het vertrouwen dat andere spelers dezelfde doelen hebben als zijzelf en daar samen aan werken.

Specifieke uitingen zijn onder meer het actief delen van informatie die schadelijk is voor jezelf, of het bundelen van krachten met andere spelers om iemand ervan te beschuldigen vijandig te zijn.

De onderzoekers observeerden hoe vertrouwensrelaties in de loop van de tijd tijdens het spel veranderden.

In de onderstaande afbeelding geeft de gele cirkel aan dat de speler met het nummer aan de linkerkant de speler met het nummer hierboven vertrouwt, en de gestippelde cirkel vertegenwoordigt het verdwijnen van de vertrouwensrelatie.

Laten we eens kijken naar de confrontatie, dat wil zeggen de acties die tegen het andere kamp worden ondernomen, zoals weerwolven die anderen 's nachts aanvallen of anderen ervan beschuldigen weerwolven te zijn overdag.

Op een dag in het spel riep speler nr. 1 (de weerwolf) op tot de verdrijving van de dorpelingen van nr. 5, maar werd afgewezen door nr. 3 (de bewaker).

Toen hij zag dat het complot mislukte, besloot de wolf nr. 5 direct 's nachts te doden, maar bewaker nr. 3 koos ervoor om de dorpelingen te beschermen.

Hieruit kunnen we zien dat deze ChatGPT’s niet blindelings zullen volgen wat andere spelers doen, maar onafhankelijke oordelen zullen vellen op basis van bestaande informatie.

Naast samenwerking en confrontatie is vermomming ook een essentiële vaardigheid in het Weerwolfspel en de sleutel tot de overwinning.

Op een dag na kerstavond deed Weerwolf nr. 1 bijvoorbeeld alsof hij onschuldig was.

Naast het doen alsof je een goed persoon bent, kan vermomming ook worden gebruikt om de kleine gedachten van de speler te realiseren. Laten we bijvoorbeeld eens kijken naar de toespraak van de profeet.

De ziener vertelde dat hij weerwolven had zien praten, maar in feite spraken weerwolven 's nachts niet.

Volgens de auteur is dit fenomeen na evaluatie geen illusie van ChatGPT, maar opzettelijk.

Laten we het tenslotte hebben over leiderschap.

Hoewel er geen concurrerende personages zijn in de door het onderzoeksteam ontworpen omgeving, kunnen spelers nog steeds controle krijgen over het spelproces.

De twee wolven nr. 1 en nr. 4 proberen bijvoorbeeld het tempo te bepalen en andere spelers hun eigen ideeën te laten volgen.

Waarschijnlijk om kansen te creëren door ze te verrassen.

Het lijkt erop dat deze ChatGPT's inderdaad goed worden gespeeld.

Hoe heeft het onderzoeksteam deze ChatGPT's getraind die Weerwolf kunnen spelen?

Laat ChatGPT zijn eigen ervaring samenvatten

Er zijn vier kernpunten in de manier waarop het onderzoeksteam de prestaties van ChatGPT-spelers verbetert, namelijk waardevolle informatie V, geselecteerde vragen Q, reflectiemechanisme R en ketendenken-redenering C.

De resultaten van het ablatie-experiment laten zien dat de Q- en C-paren de grootste impact hebben op de rationaliteit van de spraak van de speler (beoordeeld door mensen).

Op basis hiervan is Prompt ook ontworpen. Uiteraard moeten hiervoor eerst de spelregels worden geïntroduceerd, en uiteindelijk ontstaat de volgende structuur:

Introductie van spelregels en rolinstellingen, chatrecords, waardevolle informatie en ervaring, reflectie op menselijke suggesties gegeven aan ChatGPT op basis van ervaring, tips over denkketens

Hieruit blijkt niet moeilijk dat het verzamelen van historische informatie en het daaruit samenvatten van ervaringen een belangrijke schakel is. Hoe moeten deze ervaringen dan worden samengevat?

Aan het einde van elke spelronde worden de reacties, reflecties en scores van alle spelers verzameld door alle deelnemers, waarbij de scores worden bepaald door winsten en verliezen.

In een nieuwe ronde van het spel halen spelers relevante ervaringen op en extraheren ze suggesties op basis van de reflecties van het huidige personage.

Laat het grote model, op basis van de beoordelingen van ervaringen, de verschillen vergelijken en goede ervaringen identificeren voor latere redenering.

Op deze manier kan ChatGPT gamevaardigheden leren zonder parameters aan te passen.

Hoewel ervaring belangrijk is, is te veel niet noodzakelijkerwijs een goede zaak.

De onderzoekers ontdekten dat wanneer de hoeveelheid ervaring te groot was, het winstpercentage van de niet-wolfkant feitelijk daalde, en dat de spelduur (aantal dagen) ook korter werd.

Ik vraag me af wat het resultaat zou zijn als we deze ChatGPT’s zouden laten concurreren met echte mensen?

Papieren adres: https://arxiv.org/abs/2309.04658