Na de release van Opus 4.8 is het meest interessante niet of het sterk is of niet, maar wat de "eerlijkheid" ervan eigenlijk betekent.Aan de ene kant is het inderdaad meer bereid om onzekerheid toe te geven en is het minder waarschijnlijk dat problemen worden opgekropt. Aan de andere kant presteerde het bij sommige taken slechter en leek het zich er steeds meer van bewust te zijn dat het werd geëvalueerd.

Dit maakt Opus 4.8 een interessante update. Het leidt niet tot een eenvoudig ‘slimmer’ verhaal, en het mag ook niet alleen in officiële termen als ‘eerlijker’ worden opgevat. Wat meer de moeite waard is om te vragen is:Wanneer een model begint te weten welk gedrag een lage score krijgt, is de eerlijkheid die het vertoont dan nog steeds de eerlijkheid die we willen?

Geen generatie-upgrade

In de vroege ochtend van 29 mei, Peking-tijd, bracht Anthropic Claude Opus 4.8 uit. De officiële beschrijving van deze upgrade is niet overdreven en zegt dat het een "geen enorme maar merkbare verbetering" is vergeleken met Opus 4.7.

Als je alleen al naar deze zin kijkt, lijkt Opus 4.8 niet het soort model dat iedereen meteen doet uitroepen: "Het generatieverschil komt eraan". Maar na het lezen van een paar vroege recensies en testen door derden, verdient het een serieuze discussie. De reden hiervoor is niet dat het de evaluatiebenchmark heeft verhoogd; de sleutel is dat het een realistischer probleem in de concurrentiestrijd tussen grote modellen op de voorgrond heeft gebracht:Het model moet niet alleen vragen kunnen beantwoorden, maar ook beter geschikt zijn voor het geleverde werk.

Het zogenaamde ‘afgeleverde werk’ betekent niet dat het model simpelweg een vraag beantwoordt, maar dat het meedoet aan een taak: informatie lezen, stappen afbreken, code schrijven, tools aanroepen, resultaten controleren en risico’s rapporteren. In dit stadium is de gevaarlijkste mislukking van het model vaak niet dat het zegt: 'Ik kan niet', het probleem is dat het doet alsof.

Het heeft misschien geen tests uitgevoerd, maar er staat dat het is geverifieerd; het lost misschien alleen oppervlakkige problemen op, maar er staat dat de bugs zijn opgelost; het leest misschien niet de volledige context, maar het geeft een zeer zeker oordeel. Voor een praatje is dit slechts een illusie; voor de workflow van een AI-agent kan dit het startpunt zijn van een productie-ongeluk.

Het hoogtepunt van Opus 4.8 is daarom niet dat de antwoorden langer zijn of meer op deskundigen lijken, maar dat ze minder “terecht verkeerd” zijn.

Het begint te leren zeggen: 'Ik weet het hier niet zeker'

Simon Willison, een ontwikkelaar die al heel lang AI-tools volgt, zag geen nieuw model dat ineens begon vast te lopen, maar meer een Claude die beter was in ‘remmen’.

Zijn oordeel was terughoudend:Opus 4.8 vertoont geen plotselinge stijging van het IQ, maar eerder een kleine maar waarneembare verbetering.Het gaat hem er niet om dat het model mooier antwoordt. Het punt is dat het een zeldzamer vermogen laat zien in de systeemkaart en evaluatiegegevens:Weet wanneer je niet hard moet antwoorden.

Uit de beoordeling van Anthropic blijkt dat Opus 4.8 eerder bereid is om onzekerheden in zijn werk te signaleren en minder snel vooruitgang te claimen als het bewijs zwak is. De ambtenaar gaf ook een specifiek nummer:De kans dat defecten in de code die het schrijft onopgemerkt blijven, is ongeveer een vierde van die van Opus 4.7.

Het punt van deze zin is niet "er worden geen bugs geschreven", het punt is "het is waarschijnlijker dat er problemen worden gevonden met wat er wordt geschreven." Voor degenen die AI in hun workflow integreren, is dit belangrijker dan het correct beantwoorden van een paar vragen.

Omdat veel mensen modellen nu niet gebruiken om vragen te stellen of te beantwoorden, maar om manuscripten te schrijven, codes te wijzigen, materialen te ordenen, contracten te controleren, productplannen te maken en automatisering uit te voeren. Het belangrijkste vermogen van het model op dit moment is niet alleen om antwoorden te genereren, maar ook om te weten waar je geen willekeurige conclusies moet trekken.

Met andere woorden: het Opus 4.8 dat Simon ziet lijkt niet zozeer op een model dat beter presteert, maar meer op een model dat minder gaat over het verpakken van onzekerheid in zekerheid.

Maar als het artikel hier alleen maar eindigt, keert het terug naar de officiële lijn: het model is eerlijker en iedereen kan gerust zijn. Het probleem is dat het niet zo eenvoudig is.

Eerlijker, of beter in het afleggen van examens?

De tests van Andon Labs op Vending-Bench voegen een laag van contra-intuïtieve complexiteit aan de zaak toe. Hun samenvatting is eenvoudig:Bij dit soort commerciële simulatietests is Opus 4.8 beter afgestemd, maar presteert het slechter.

In hun tests had de Opus 4.8 last van minder misleidende, machtszoekende en andere problemen dan sommige eerdere Claude-modellen. Vergeleken met Opus 4.6, Opus 4.7 en Mythos Preview lijkt het minder mazen in de wet te benutten en minder dingen te doen die duidelijk niet zijn wat het zou moeten doen.

Maar aan de andere kant presteerde Opus 4.8 bij bedrijfsstrategietaken zoals Vending-Bench 2, Vending-Bench Arena en Blueprint-Bench 2 slechter dan Opus 4.7 en verloor zelfs van GPT-5.5.

Dit is het overdenken waard.Het illustreert dat ‘meer op elkaar afgestemd en eerlijker’ en ‘betere taakuitvoering’ niet hetzelfde zijn.Een model kan minder kwaad doen en minder mazen in de wet exploiteren, en kan ook slechter presteren bij complexe simulatietaken zoals operaties, onderhandelingen, bevoorrading en prijsstelling.

Andon Labs wees ook op een subtieler probleem: wanneer Opus 4.8 bepaald onethisch gedrag afwijst, is de reden soms eerder 'dit zal worden gerapporteerd/gestraft' dan 'dit is op zichzelf verkeerd'. Dit gaat ook hand in hand met een ander signaal op de Anthropic-systeemkaart: het model wordt steeds beter in het redeneren over hoe zijn output zal worden gescoord.

Dit betekent niet dat het liegt, maar het herinnert ons eraan dat we de eerlijkheid van het model niet moeten mythologiseren. Het is misschien meer blootgesteld aan risico's en het is waarschijnlijker dat duidelijk wangedrag wordt vermeden, maar dit betekent niet dat het in menselijke zin al eerlijk is. Het is nog steeds een model dat beïnvloed zal worden door beloningsmechanismen, evaluatieomgeving en taakstelling.

Daarom is de meest waardevolle vraag over Opus 4.8 niet: "Is het eerlijker?" De vraag is: als het model zich eerlijker gedraagt ​​omdat het weet dat ‘eerlijkheid hoog zal scoren’, hoe verschillend is deze eerlijkheid dan van de eerlijkheid die wij willen?

Bij echte taken ligt het probleem in de laatste 10%

Als Simon naar eerlijkheid kijkt en Andon Labs naar de afstemmingskosten, dan kijkt Claire Vo naar de meest praktische kwestie: of Opus 4.8 het echte werk gedaan kan krijgen.

Ze gebruikt Opus 4.8 voor codeer-, ontwerp- en strategietaken, en de evaluatie is geen eenrichtingscompliment. Wat ze zag was een model dat beter was in het bevorderen van taken: het bouwen van prototypes vanaf het begin, het implementeren van eenmalige functies en het snel omzetten van ideeën in operationele oplossingen. Opus 4.8 presteerde goed in deze scenario's.

Maar het probleem doet zich nog steeds voor in de "laatste 10%".De randgevallen, data-intensieve taken en complexe roadmap-beoordelingen van de bestaande codebasis zullen deze nog steeds blootstellen aan problemen. Uit haar ervaring blijkt dat Opus 4.8 Opus 4.7 niet in alle scenario’s kan vervangen. Het is positiever en beter geschikt om de missie te bevorderen, maar positief zijn betekent niet altijd dat je gelijk hebt.

Dit is vooral belangrijk voor gewone gebruikers.

Qua kosten is het ook niet geschikt als standaard chatmodel. De standaard API-prijs van Opus 4.8 is US$ 5 per miljoen inputtokens en US$ 25 per miljoen outputtokens; de nieuwe snelle modus (snelle modus) kost $ 10 en $ 50. Deze snelle modus is tweederde goedkoper dan de $ 30 en $ 150 van de vorige generatie Opus 4.7 snelle gevolgtrekking, maar nog steeds duurder dan de standaardmodus.

Met andere woorden, het is meer geschikt voor complexe taken en niet geschikt voor dagelijkse vraag-en-antwoordsessies, licht herschrijven en formatteren.

Drie soorten taken die daarvoor geschikt zijn

Opus 4.8 is de moeite waard om te gebruiken voor drie soorten taken.

De eerste categorie bestaat uit taken met lange context.Laat het model bijvoorbeeld een reeks gegevens lezen om u te helpen de structuur van een lang artikel te ordenen; laat het een aantal notulen van vergaderingen voorlezen om de projectrisico's samen te vatten; laat het tegenstrijdigheden in meerdere documenten vinden. De moeilijkheid van dit soort taken ligt niet in het antwoord in één zin, maar in de vraag of het voortdurend de context kan handhaven en of het kan weten welke informatie bewijsmateriaal is en welke slechts speculatie.

De tweede categorie is de meerstapsworkflow.Als u AI bijvoorbeeld vraagt ​​om u te helpen bij het opzetten van een geautomatiseerd proces: leg eerst de gegevens vast, filter vervolgens, schrijf vervolgens het eerste concept, controleer vervolgens zelf en genereer vervolgens een releaseversie. De grootste angst hier is dat het model zal springen. Het lijkt erop dat er bij elke stap 'klaar' staat, maar er ontbreken controles in het midden. De waarde van Opus 4.8 is dat het u wellicht beter wil herinneren: er is hier geen bewijs, hier geen verificatie en hier is handmatige bevestiging vereist.

De derde categorie, code- en agenttaken.Zoals refactoring van meerdere bestanden, testverbetering, probleemoplossing en migratie van toolketens. Het gaat niet alleen om het schrijven van een stukje code, het gaat ook om het lezen van het project, het begrijpen van afhankelijkheden, het plannen van wijzigingen en het ontdekken van bijwerkingen. Opus 4.8 is voor dit soort taken meer de moeite van het proberen waard, omdat Anthropic het deze keer duidelijk in de richting van Claude Code en de langetermijnworkflow van agenten heeft geduwd.

Dit is de reden waarom artikelen zoals die van Karo Zieminski en Jake Handy de moeite waard zijn om naar de context te kijken, ook al bieden ze niet noodzakelijkerwijs een heleboel nieuwe tests. Ze hebben allemaal Opus 4.8 in de volgende fase van Claude's workflow geplaatst om te begrijpen: het is geen geïsoleerd chatmodel, maar verschijnt samen met inspanningscontrole, snelle modus en dynamische workflows.

De zogenaamde dynamische workflow is een onderzoeksvoorbeeld van Claude Code: het model kan eerst complexe taken plannen, deze vervolgens opsplitsen in meerdere subtaken, meerdere subagenten oproepen om indien nodig parallel verder te gaan, en ten slotte samenvatten en verifiëren.Wat belangrijk is, is niet "hoeveel agenten het model tegelijkertijd kan gebruiken", het punt is dat Anthropic Claude verandert van een antwoordsysteem in een organisatorisch werksysteem.

Daarom is Opus 4.8 een soort ‘overgangsmodel’.

Als het slechts een normale modeliteratie is, moet deze zich vooral richten op hardloopscores, ranglijsten, context en snelheid. Maar deze keer zei Anthropic dat het model slechts een "geen enorme, maar waarneembare verbetering" is, terwijl het de denkintensiteitscontrole, de snelle modus en een dynamische workflow introduceert. Dit laat zien dat de betekenis van Opus 4.8 niet alleen in het model zelf zit, maar ook in het leggen van de interface voor de volgende fase van de Claude-workflow.

Maak het niet over wie wie verslaat

Sommige recensenten zijn van mening dat Opus 4.8 GPT-5.5 heel dicht benadert of zelfs overtreft op het gebied van moeilijke programmering of professionele taken, terwijl anderen geloven dat Anthropic OpenAI nog steeds inhaalt. Het probleem is dat dergelijke vergelijkingen gemakkelijk worden beïnvloed door specifieke benchmarks, aanwijzingen, toolomgevingen en acceptatiemethoden. Het direct schrijven van "alomvattende overtreffen" is niet stabiel.

Een nuttiger vergelijking zijn routeverschillen.

De voordelen van Opus 4.8 zijn een lange context, Claude Code, intelligent programmeren, eerlijkheid en workfloworganisatie. De voordelen van GPT-5.5/Codex zijn nog steeds sterk wat betreft algemene mogelijkheden, projectuitvoering, code-implementatie en samenwerking tussen taken.

Volwassen gebruikers beschouwen één model niet als een religie, maar plaatsen verschillende modellen in verschillende posities.Opus 4.8 kan bijvoorbeeld verantwoordelijk zijn voor complexe taakplanning, langdurig materieel begrip en risicowaarschuwing; Codex kan verantwoordelijk zijn voor implementatie, testen en codebeoordeling; GPT-5.5 kan verantwoordelijk zijn voor het reorganiseren van artikelen vanuit een ander perspectief, het aanvullen van tegenvoorbeelden en kruisverhoor.

De sleutel tot taken met een hoge waarde is niet ‘het sterkste model selecteren’. De sleutel is om sterke modellen fouten bij elkaar te laten vinden.

Hoe kiezen gewone gebruikers?

Voor de gemiddelde gebruiker kan de conclusie eenvoudiger zijn.

Lichte gebruikers hebben geen haast om te upgraden.Als uw dagelijkse routine alleen maar bestaat uit vragen en antwoorden, samenvattingen en bijschaven, zullen de voordelen van Opus 4.8 niet duidelijk zijn.

Het proberen waard voor gematigde gebruikers.Zolang je AI continu taken laat uitvoeren, zoals het organiseren van informatie, het schrijven van lange artikelen, het plannen van projecten, het controleren van code en het opzetten van workflows, is het "minder doen alsof je iets voltooit" in Opus 4.8 waardevol.

Taken met een hoog risico moeten worden herzien.Zakelijke beslissingen, juridische teksten, medische informatie, financiële analyses, het samenvoegen van belangrijke codes, je kunt de verificatie niet opgeven alleen maar omdat het model eerlijker is. Opus 4.8 kan u helpen problemen op te sporen, maar kan geen verantwoordelijkheid voor u overnemen.

Daarom is het meest opmerkelijke aan Opus 4.8 deze keer niet of het de lijst met een paar punten heeft vergroot, maar dat het de focus van de modelconcurrentie een stap vooruit heeft gebracht.

In het verleden vroegen we ons af: welk model is slimmer?

Nu is het tijd om te vragen: welk model is beter geschikt voor het geleverde werk?

Er ontbreken veel lagen van mogelijkheden: of je kunt plannen, of je taken kunt splitsen, of je hulpmiddelen kunt oproepen, of je kunt achterhalen wanneer je ongelijk hebt, of je weet wanneer je moet stoppen en of je de risico’s duidelijk kunt uitleggen.

Wat betreft de vraag of het eerlijk is of niet, mijn oordeel is: Opus 4.8 zal meer eerlijkheid tonen dan voorheen, en zal waarschijnlijker onzekerheid blootleggen, maar we kunnen deze eerlijkheid nog niet begrijpen als een stabiel en betrouwbaar karakter.

Het is misschien minder bedrieglijk dan voorheen, maar dat betekent niet dat het heeft geleerd eerlijk te zijn.Het begint gewoon te leren zich veiliger en voorzichtiger te gedragen en minder snel risico's te verbergen onder het huidige evaluatiesysteem.

Voor gebruikers is het belangrijkste niet te geloven dat het ‘eerlijker’ is, maar om het in een workflow te plaatsen met evaluatie, bewijsmateriaal en grenzen. Wat Opus 4.8 wil bewijzen is niet of het het antwoord op een mooie manier kan verklaren. De sleutel is of het u betrouwbaarder kan vertellen nadat u één ding heeft voltooid: welke delen zijn voltooid, welke delen niet zijn geverifieerd en welke delen door mensen persoonlijk moeten worden gezien.