Op het gebied van kunstmatige intelligentie verwijst ‘alignment’ naar het werkelijk consistent maken van de doelen, het gedrag en de beslissingen van kunstmatige-intelligentiesystemen met de ware bedoelingen, waarden en langetermijnbelangen van mensen of ontwerpers/gebruikers, in plaats van slechts oppervlakkig gehoorzaam te zijn of letterlijke taken uit te voeren.

HBz-x6haYAA26Cc.jpgHBz-x6nbAAAOqt7.jpgHBz-x6iakAAegxq.jpg

De hoofdpersoon van dit artikel is Summer Yue, hoofd afstemming bij het Meta Super Artificial Intelligence Laboratory. Ze maakte een fout bij het gebruik van de OpenClaw AI-robot, waardoor haar hele Gmail-mailboxgeschiedenis werd gewist.

Summer Yue gaf ook toe dat onderzoekers op het gebied van de uitlijning van kunstmatige intelligentie niet immuun zijn voor problemen met de uitlijning, dus als je verschillende AI's gebruikt, vooral OpenClaw, moet je verschillende instructies bevestigen om omvallen te voorkomen.

Achtergrond evenement:

Summer Yue gebruikte de OpenClaw AI-robot om een ​​workflow te bouwen. Deze workflow draait al enkele weken probleemloos in een testomgeving. De instructies van deze workflow zijn om de mailbox te controleren en aan te bevelen welke e-mails kunnen worden gearchiveerd of verwijderd, maar voer geen acties uit vóór menselijke bevestiging.

Na wekenlang probleemloos te hebben gewerkt, had Summer Yue er vertrouwen in dat de workflow volledig operationeel was, dus implementeerde ze de workflow in haar primaire Gmail-mailbox om de actie uit te voeren.

Geheugenverlies veroorzaakt opdrachtfouten:

Er bevinden zich relatief weinig e-mails in de testmailbox, maar er bevindt zich een groot aantal e-mails in de hoofdmailbox. Bij het verwerken van e-mails activeert de OpenClaw AI-robot het contextcompressiemechanisme dat in het raamwerk is ingebouwd. Om te voorkomen dat te lange gesprekken het contextvenster van het model overbelasten, zal dit mechanisme vroege berichten automatisch samenvatten en weggooien.

Toen de robot de hoofdmailbox van Summer Yue aan het verwerken was, overweldigde de enorme hoeveelheid e-mails de context, waardoor deze automatisch werd gecomprimeerd en een deel van zijn geheugen verloor. Tijdens dit proces bleef de robot vóór 15 februari 2026 e-mails identificeren en verwerken volgens het vorige proces.

De robot (moet ik zeggen het model) is echter van mening dat de meest efficiënte schoonmaakoplossing de optie voor een atoombom is, waarbij alle e-mails direct worden gewist, en is zelfs van plan door te gaan met de schoonmaakcycli totdat alle e-mails zijn gewist. Door het verlies van door mensen bevestigde instructies voltooit de robot de e-mailopruimtaak volledig autonoom.

Hoe onderbreek ik de instructie als er een fout wordt gevonden?

Het grootste probleem met nieuwe producten of producten waar niet iedereen bekend mee is, is dat er verschillende mishandelingen kunnen optreden. Summer Yue ontdekte bijvoorbeeld dat de robot een groot aantal instructies had verzonden met het verzoek de robot te stoppen met werken bij het wissen van e-mails.

Maar het probleem is dat de OpenClaw AI-robot niet standaard stopt, en dat berichten die door gebruikers worden verzonden ook in de wachtrij moeten worden geplaatst voor verwerking. Dat wil zeggen dat nieuwe berichten die door gebruikers worden verzonden, pas kunnen worden verwerkt nadat de vorige taak is voltooid.

Tijdens het wissen van e-mails stuurde Summer Yue meerdere opdrachten in de hoop dat de robot zou stoppen met werken, maar het mocht niet baten. Uiteindelijk kon ze alleen maar naar de Mac Mini rennen en handmatig alle processen beëindigen om de robot te stoppen.

In dit geval is het commando dat de gebruiker moet uitvoeren feitelijk /stop. Dit commando kan het commando dat door de robot wordt uitgevoerd met geweld onderbreken. Het eenvoudigweg versturen van sms-berichten is nutteloos, wat het eerder genoemde probleem met de berichtenwachtrij is.

Samenvatting achteraf:

Summer Yue plaatste later een bericht waarin ze zichzelf bespotte:: Eerlijk gezegd is dit een beginnersfout. Uitlijningsonderzoekers zijn niet immuun voor uitlijningsproblemen, omdat ze overmoedig zijn nadat ze wekenlang tests zonder incidenten hebben uitgevoerd.

Andere internetgebruikers zagen dit en lachten om zichzelf. Zelfs professionele afstemmingsonderzoekers zouden boos zijn. Als gewone gebruikers hun echte portemonnee, mailboxen, agenda's en andere zeer persoonlijke inhoud aan AI overdragen, hoe groot is dan het risico?