Anthropic heeft dinsdag officieel zijn nieuwste model, Fable, aan het publiek vrijgegeven en positioneert het als een "openbare, beperkte versie" van zijn interne high-end cybersecurity-model Mythos, maar het product leidde al snel tot controverse in cybersecurity-kringen. Veel beveiligingsonderzoekers en praktijkmensen klaagden op sociale platforms en gemeenschappen dat de ingebouwde beveiligingsmaatregelen van Fable te streng waren en nauwelijks konden worden gebruikt voor daadwerkelijk netwerkbeveiligingswerk.

Volgens feedback van onderzoekers wijst Fable “elk verzoek af, zelfs maar enigszins gerelateerd aan cyberveiligheid”, inclusief zelfs ogenschijnlijk onschadelijke taken zoals het helpen lezen van een blogpost. Volgens onderzoeker Valentina “Chompie” Palmiotti, die nu bij IBM X-Force werkt, beëindigt Fable eenvoudigweg het gesprek en geeft aan dat de beveiligingsmechanismen de boodschap hebben gemarkeerd als cybersecurity of biologische onderwerpen. Deze vangrails zijn bedoeld om te voorkomen dat modellen worden gebruikt om malware te ontwikkelen, softwaresystemen aan te vallen of te beschadigen, en ook om het misbruik ervan op biologisch gebied te beperken om te helpen bij de ontwikkeling van biologische wapens.

Toen Anthropic Mythos in april van dit jaar lanceerde, koos het ervoor om het open te stellen voor slechts een klein aantal bedrijven en instellingen via een programma genaamd "Project Glasswing", met de bedoeling dit model te gebruiken om kritieke software en infrastructuur te helpen beschermen. Vorige week kondigde Anthropic aan dat het het gebruik van Mythos zou uitbreiden naar honderden organisaties in 15 landen, waardoor de implementatie van dit soort beveiligingsmodellen met hoge capaciteiten in belangrijke industrieën verder zou worden bevorderd. Nadat Fable voor het publiek was opengesteld, werd de beveiligingsstrategie van Fable echter sterk in twijfel getrokken onder professionele gebruikers. Veel mensen geloofden dat er een aanzienlijke kloof bestond tussen de feitelijke ervaring en de officiële propaganda.

Matt Suiche, een veteraan op het gebied van cyberbeveiliging, vertelde TechCrunch dat Fable zeer abrupt was bij het bepalen of een verzoek verband hield met cyberbeveiliging. Hij zei bijvoorbeeld dat als een gebruiker vraagt ​​om 'veilige code te schrijven', Fable de neiging zal hebben dit te beschouwen als netwerkbeveiligingswerk in plaats van als begeleiding voor best practices op het gebied van software-engineering, waardoor het downgrade-mechanisme direct in werking wordt gesteld. Zodra de vangrail wordt geactiveerd, valt Fable automatisch terug naar de minder capabele Claude Opus 4.8 om het gesprek voort te zetten. Suiche is van mening dat de beoordelingslogica van Fable sterk afhankelijk lijkt te zijn van trefwoorden. "Zolang woorden binnen het semantische veld van 'netwerkbeveiliging' vallen, kunnen ze gemakkelijk worden onderschept door het beveiligingssysteem."

Desondanks drukt Suiche ook een zeker begrip uit van de strenge instellingen in de huidige fase, in de overtuiging dat fabrikanten in dit vroege stadium conservatievere veiligheidsdrempels aan modellen opleggen en veiliger zijn in de risicobeheersing. Hij verwacht dat deze vangrails voortdurend zullen worden verfijnd en verfijnd naarmate Anthropic de samenwerking met een nieuwe generatie cyberbeveiligingsbedrijven verdiept. Volgens hem is het een acceptabeler pad om eerst ‘meer te blokkeren’ en dan geleidelijk de beperkingen te versoepelen, dan om in het begin te veel te versoepelen, waardoor het potentiële risico op misbruik uit de hand loopt.

Fable staat niet alleen in zijn ontevredenheid. Een andere onderzoeker klaagde op het sociale platform dat "zelfs het vragen om codebeoordeling de veiligheidsrail in werking zal stellen." Sommige gebruikers deelden hun ervaringen in de Claude-gerelateerde gemeenschap van Reddit en zeiden dat Fable "bijna allemaal weigert" verzoeken om beveiligingsaudits, kwetsbaarheidsanalyses, enz., wat de bruikbaarheid ervan in professionele omgevingen ernstig aantast. Op het moment van schrijven heeft Anthropic nog niet publiekelijk op de feedback gereageerd.

Naast het automatische vangrailmechanisme binnen het model heeft Anthropic ook een aanvullend toelatingsproces voor cybersecurity-beoefenaars opgezet: het "Cyber ​​Verification Program". Alleen gebruikers die slagen voor het programma kunnen Claude gebruiken voor netwerkbeveiligingswerkzaamheden onder minder beperkende voorwaarden. Op dezelfde manier heeft OpenAI een project gelanceerd met de naam "Trusted Access for Cyber" om meer modelmogelijkheden te ontsluiten voor conforme cyberbeveiligingspraktijken. Deze praktijken weerspiegelen dat, hoewel toonaangevende modelbedrijven AI-aangedreven netwerkbeveiliging bevorderen, ze nog steeds proberen een evenwicht te vinden tussen het vrijgeven van capaciteiten en het risico op misbruik via de tweeledige middelen van beoordelingssystemen en technische vangrails.