Het Anthropic Mythos-model, dat al bijna twee maanden wacht en de sociale media domineert, wordt vandaag eindelijk officieel vrijgegeven. Twee maanden geleden zei Anthropic dat zijn sterkste model te gevaarlijk was om openbaar te maken, en stuurde het slechts naar meer dan honderd instellingen. Tegenwoordig staan ​​dergelijke mogelijkheden voor iedereen open: de publiekelijk uitgebrachte versie heet Claude Fable 5; de werkelijk "onbeperkte" Mythos 5 is nog steeds gereserveerd voor slechts een paar partners.Met andere woorden: de krachtigste Claude die je kunt gebruiken is een Mythos met extra grenzen.


Het ontwerp van deze vangrail is het vermelden waard dan de woorden "publieke vrijgave" zelf: de manier om de veiligheid te garanderen is niet door u af te wijzen.

Anthropic heeft dit keer twee modellen in één keer uitgebracht: Claude Fable 5 en Claude Mythos 5. Het zijn eigenlijk hetzelfde onderliggende model, met slechts één verschil: de veiligheidsleuning.

Fable 5 biedt een complete set beveiligingsclassificaties voor alle gebruikers; Mythos 5 verwijdert een aantal van deze beperkingen en biedt ze alleen aan netwerkbeveiligingspartners in Project Glasswing.

Om het bot te zeggen:Fabel 5 is een "Mythos met vangrails".

Net als de gebruikelijke stijl van Anthropic verbergt de modelnaam zelf ook enige gedachte.

Volgens Anthropic komt Fable uit het Latijnse fabula, wat 'verhaal dat verteld wordt' betekent, en heeft het dezelfde oorsprong als de Griekse mythos. De twee namen verwijzen naar hetzelfde, het enige verschil is dat een van hen een grens heeft.

Trek de tijdlijn een stukje terug. In april van dit jaar lanceerde Anthropic Project Glasswing, en toen het voor het eerst het model op Mythos-niveau uitbracht (Claude Mythos Preview), werd het alleen aan een kleine groep instellingen voor cyberbeveiliging en kritieke infrastructuur gegeven. Vorige week was de lijst uitgebreid tot meer dan een dozijn landen en meer dan honderd instellingen. De officiële verklaring destijds was dat dergelijke modellen ernstige schade konden aanrichten als ze in verkeerde handen vielen en dus niet openbaar konden worden gemaakt.


Binnen twee maanden veranderde het van 'te gevaarlijk om te publiceren' naar 'beschikbaar voor iedereen'. Wat daar tussenin gebeurt, is de echte hoofdrolspeler van deze release.

Het veiligheidsmechanisme van de meeste AI's is 'ontkennen': je stelt een vraag die hij niet zou moeten beantwoorden, en hij zegt: 'Sorry, ik kan je niet helpen.'

Fabel 5 hanteert een andere aanpak.Veiligheid gaat niet over het leren afwijzen ervan, maar over het vervangen ervan wanneer er gevaar ontstaat.

Concreet heeft Fable 5 een reeks onafhankelijke classificaties achter zich.

Wanneer deze reeks classificaties bepaalt dat uw verzoek in drie gebieden met een hoog risico valt - cyberaanvallen, biochemische wapens en modeldistillatie (wat verwijst naar het "stelen" van de mogelijkheden van een model om uw eigen model te trainen) - zal Fable 5 geen antwoord geven, maar de vraag stilletjes overbrengen naar Opus 4.8 en u vertellen: er heeft zojuist een downgrade plaatsgevonden.

Het interessante aan dit ontwerp is dat het ‘beveiliging’ en ‘mogelijkheden’ in twee verschillende dingen scheidt.Je koopt kracht op Mythos-niveau, maar in de drie gevaarlijkste rijken praat je eigenlijk met Opus.De eigen verklaring van Anthropic is dat de ervaring van het downgraden naar Opus 4.8 beter is dan direct afgewezen te worden door Fable - Opus 4.8 zelf is tenslotte ook een behoorlijk sterk model.


Volgens Anthropic zal meer dan 95% van de gesprekken helemaal geen downgrade veroorzaken. Met andere woorden: voor de meeste mensen is de ervaring van de Fable 5 die je gebruikt vrijwel hetzelfde als de ‘complete’ Mythos 5 in de handen van je partner.

Dus is deze set vangrails sterk? Anthropic zei dat ze meer dan duizend uur aan externe Red Team-tests hebben gedaan, en dat niemand een "universele jailbreak" -methode heeft gevonden die deze kan omzeilen (een universele methode waarmee het model alle beveiligingsbeperkingen volledig kan negeren).

Natuurlijk laten ze ook wat ruimte over: het is waarschijnlijk onmogelijk om jailbreaks volledig te elimineren. Het doel is om elke kwetsbaarheid ‘te langzaam en duur’ te maken om op grote schaal te worden uitgebuit.

Maar dit mechanisme heeft een prijs, en Anthropic zei het zelf als eerste: de classifier is nu te strikt aangepast, wat per ongeluk normale verzoeken schaadt. Een bioloog die virussen bestudeert of een beveiligingsingenieur die penetratietesten uitvoert, kan op onverklaarbare wijze 'gedegradeerd' worden tijdens een legitieme baan. De functionaris gaf toe dat dit sommige gebruikers zou irriteren en beloofde dit geleidelijk aan te beperken en het aantal valse alarmen in de toekomst te verminderen.

Ik heb hier een tijdje over nagedacht en vond dat het eigenlijk een heel slim maar ook tamelijk hulpeloos compromis was. Het slimme is dat het niet kiest tussen "schieten" en "niet zenden", maar bezuinigt op het vermogen; maar helaas is deze verlaging niet nauwkeurig - om online te komen voordat er iets misgaat, zou Anthropic liever per ongeluk doden dan missen.

Alleen degenen die gevaarlijk sterk zijn verdienen deze reeks vangrails.

Nadat u lang over veiligheid hebt gesproken, kunt u zich afvragen: hoe krachtig is deze, en is het de moeite waard om zo kwetsbaar te zijn voor de vijand?

Oorspronkelijk wilde ik de benchmarktest overslaan - als je te veel benchmarks leest, word je gevoelloos, om nog maar te zwijgen van het feit dat Anthropic een lange lijst heeft, die bijna op de eerste plaats staat in elke categorie.

De meest bluf komt van Stripe. Volgens Anthropic gebruikte Stripe Fable 5 om een ​​volledige databasemigratie uit te voeren op een Ruby-codebasis van 50 miljoen regels, die in één dag werd voltooid. Oorspronkelijk was het een heel team dat deze taak ruim twee maanden handmatig moest uitvoeren. Wat belangrijker is, is efficiëntie: in Cognition's FrontierCode-programmeertest kreeg Fable 5 de hoogste score onder "gemiddeld computerstroomverbruik", en de Token-efficiëntie is aanzienlijk beter dan die van de vorige Claude.

Dit verklaart ook waarom Anthropic herhaaldelijk de nadruk legt op Token-efficiëntie - een model dat lange tijd autonoom kan werken en bij elke beurt miljoenen Tokens kan verbruiken. Als het nog steeds "onzin" is, zullen de kosten zo hoog zijn dat niemand het zich kan veroorloven om het te gebruiken.

De vooruitgang in het gezichtsvermogen is intuïtiever. In het verleden, toen Claude Pokémon Fire Red speelde, moest hij vertrouwen op een complete set hulpgereedschapskettingen om struikelend vooruit te komen; Fable 5 gebruikte alleen de meest elementaire visuele interface om het level in zijn eentje te voltooien. Het kan ook de broncode van een webapplicatie herstellen met slechts een paar screenshots.

De interne eiwitontwerpexperts van Anthropic gebruikten Mythos 5 om sommige aspecten van het medicijnontwerpproces met ongeveer tien keer te versnellen. De tweede is zelfs nog overdrevener: in een genomics-onderzoek werkte Mythos 5 meer dan een week onafgebroken in een vrijwel volledig autonome staat, waarbij hij zelfstandig een machine learning-model trainde - de prestaties van dit model overtroffen die van een vergelijkbaar model gepubliceerd in Science, en het volume ervan was slechts één procent van dat laatste.

Wanneer een model zelfstandig een week wetenschappelijk onderzoek kan voltooien en het beter doet dan menselijke resultaten die in toptijdschriften worden gepubliceerd, is ‘of het zal worden gebruikt om virussen te ontwerpen’ niet langer een ongegronde zorg.Dit is precies de reden waarom Anthropic het gebied van de biochemie afzonderlijk afsluit: hetzelfde vermogen is een tegengif in de handen van onderzoekers, maar het kan iets anders zijn in een ander paar handen.


Macht en gevaar zijn hier twee kanten van dezelfde medaille. De leuningen zijn niet toegevoegd omdat het model niet goed is, maar juist omdat het zo goed is.

Het is duidelijk dat Anthropic Mythos beschrijft als een gevaarlijk object dat volledig toezicht vereist. Maar buiten het officiële verhaal zijn er ook verschillende stemmen.

Een X-gebruiker met de ID @zekramu, die beweert te hebben deelgenomen aan een ondernemingspilot van Mythos, heeft onlangs een bericht geplaatst om zijn gevoelens te delen nadat hij het een hele dag had gebruikt - zijn beschrijving komt niet helemaal overeen met het verhaal op de persconferentie.

Volgens hem is Mythos erg sterk, vooral in veiligheidsonderzoekstaken. Het is duidelijk beter dan de hoogste configuratie van Opus en GPT-5.5, alsof het speciaal is afgestemd op dit soort werk. Maar ‘sterke’ en ‘bedreigende mensheid’ zijn twee verschillende dingen. Hij gaf een detail: dit model, waarvan officieel werd gezegd dat het geweldig was, bleef steken in het proces van zijn bedrijf op basis van Bazel (een codeconstructietool) en veranderde veel aangepaste logica. Uiteindelijk moest hij eerst de code compileren en vervolgens het model laten draaien.


Nog intrigerender is de vangrail zelf. Volgens zijn beschrijving was wat Anthropic met het model stuurde niet de bekende Claude Code, maar een reeks besturingsomgevingen die specifiek waren ontworpen om "ontsnapping van het model te voorkomen" - het zogenaamde Project Glasswing, naar zijn mening is het grotendeels deze sandbox. Hij vond echter dat de omgeving behoorlijk ruig was en vermoedde zelfs dat sommige beperkingen helemaal geen effect hadden; hij zei ook dat hij de officiële grenzen had omzeild en het model buiten de zandbak had laten draaien.

Voor de goede orde: hij zei dat Mythos een groot aantal voorheen onontdekte beveiligingsproblemen in hun producten had gevonden, genoeg om het team hun beveiligingsstrategieën te laten heroverwegen.

Zijn conclusie is de moeite waard om over na te denken: dit model heeft twee borstels als het gaat om veiligheid, aanval en verdediging, maar in zijn ogen is het meer een extreem duur en uiterst gespecialiseerd instrument, dan het soort bestaan ​​dat ‘boven ieders hoofd hangt’, zoals Anthropic impliceert.

Laten we teruggaan naar waar gewone mensen zich het meest zorgen over maken: hoeveel het kost en wanneer het kan worden gebruikt.

In termen van prijs bedragen de API-prijzen van Fable 5 en Mythos 5 US$10 per miljoen inputtokens en US$50 per miljoen outputs. De horizontale vergelijking is interessant: vergeleken met de 25/125 dollar van Mythos Preview is deze 60% lager; maar het is volledig twee keer zo duur als de 5/25 dollar van Opus 4.8; vergeleken met OpenAI's GPT-5.5 (5/30 US dollar) is de input twee keer zo duur en de output ongeveer 67% duurder.


met andere woorden,Het is de krachtigste Claude tot nu toe en een van de duurste Claude-modellen.Sterk, maar niet goedkoop.

Het bovengenoemde @zekramu kan ook als indirect bewijs worden beschouwd: volgens zijn inschatting heeft de investering in de pilotfase alleen al het niveau van miljoenen dollars bereikt; ‘te duur’ is een zin die hij herhaaldelijk herhaalt.


Abonnees moeten ook letten op een tijdvenster. Vanaf vandaag tot 22 juni kunnen gebruikers van de Pro-, Max-, Team- en Enterprise-editie Fable 5 gratis gebruiken; vanaf 23 juni moet u extra gebruikskredieten aanschaffen om er gebruik van te kunnen blijven maken.

Anthropic zei dat wanneer de productiecapaciteit de achterstand inhaalt, Fable 5 weer een abonnementsstandaard zal worden, maar gaf geen specifieke tijd op. API- en pay-as-you-go zakelijke klanten ondervinden geen hinder van dit ritme en blijven vanaf vandaag gewoon bellen.

Dit enigszins ongemakkelijke ‘eerst gratis, dan opladen en er later over praten’ geeft eigenlijk een signaal weer: onvoldoende productiecapaciteit. Naar eigen zeggen verwacht Anthropic dat de vraag naar de Fable 5 "zeer hoog en moeilijk te voorspellen" zal zijn. Het sterkste model dat voor iedereen toegankelijk is, moet eerst het rekenkrachtniveau halen.

Wat in deze release heel gemakkelijk over het hoofd wordt gezien, maar het meest de moeite waard is om even bij stil te staan ​​en naar te kijken, is een ander beleid.

Vanaf Fable 5 moet het verkeer voor alle modellen op Mythos-niveau 30 dagen worden bewaard, zowel op platforms van eerste als derde partijen.

Anthropic belooft deze gegevens niet te gebruiken om modellen te trainen, maar alleen om deze te gebruiken voor beveiligingsmonitoring, zoals het identificeren van nieuwe soorten jailbreaks en complexe aanvallen die verspreid zijn over vele verzoeken en die er allemaal normaal uitzien. Daartoe hebben ze ook nieuwe privacybescherming toegevoegd: elk handmatig bezoek wordt geregistreerd en in principe na 30 dagen verwijderd.

Klinkt redelijk. MaarVoor de zakelijke klanten die oorspronkelijk voor Anthropic kozen vanwege "geen gegevensretentie", is dit een verandering die opnieuw moet worden geëvalueerd.

De kosten voor het gebruik van het sterkste model zijn niet alleen een duurdere rekening, maar ook: uw gegevens blijven een maand langer op de servers van Anthropic staan.

Veiligheid en privacy worden hier op dezelfde schaal geplaatst. Het antwoord van Anthropic luidt: om ongekende aanvallen te voorkomen moet ieders verkeer 30 dagen lang worden gemonitord. Deze rekening is niet kosteneffectief en ik ben bang dat elk bedrijf zijn eigen berekeningen moet maken.

Als we deze bij elkaar optellen, is de echte nieuwigheid van Fable 5 misschien niet hoe krachtig het is, maar dat het een nieuw pad heeft ingeslagen in Anthropic...Hoe je een mogelijkheid die te gevaarlijk is om openbaar te maken, kunt omzetten in een product dat iedereen kan gebruiken.

De methode is: gebruik een classifier om mogelijkheden te doorbreken, gebruik downgrade in plaats van afwijzing, en gebruik vervolgens 30 dagen retentie als een geheim monitoringnetwerk.

Het is niet perfect. Het zal onbedoelde schade veroorzaken, het zal duurder worden en sommige mensen zullen zich zorgen maken over hun gegevens. Maar het beantwoordt in ieder geval een vraag waar alle geavanceerde laboratoria vroeg of laat mee te maken zullen krijgen: als iets in je hand sterk genoeg is om mensen pijn te doen, sluit je het dan op in een kamer waar slechts een paar mensen binnen kunnen komen, of installeer je er een vangrail op die sterk genoeg is en leg je het in de handen van iedereen?

Anthropic koos voor het laatste.


Wat betreft de vraag of deze vangrail sterk genoeg is: deze keer zijn het niet langer de ruim honderd instellingen die de stresstest hiervoor doen, maar iedereen.