OpenAI lanceert GPT‑5.4, een vlaggenschipmodel van de nieuwe generatie voor professioneel work

Donderdag heeft OpenAI officieel een nieuwe generatie basismodellen uitgebracht, GPT-5.4, waarmee het wordt gepositioneerd als “het krachtigste, efficiëntste en meest geavanceerde model voor professioneel werk tot nu toe.” Naast de standaardversie lanceerde OpenAI tegelijkertijd twee varianten: GPT-5.4 Thinking, dat de nadruk legt op complexe redeneermogelijkheden, en GPT-5.4 Pro, dat is gericht op krachtige toepassingsscenario's.

In termen van modelmogelijkheden ondersteunt de API-versie van GPT-5.4 een contextvenster van maximaal 1 miljoen tokens, veel groter dan elk model dat eerder door OpenAI werd aangeboden, wat gunstig is voor het verwerken van lange ketenworkflows zoals lange documenten, complexe projecten of taken die uit meerdere rondes bestaan. OpenAI benadrukte ook de verbetering van de efficiëntie van het tokengebruik en zei dat GPT-5.4 taken met dezelfde moeilijkheidsgraad als het model van de vorige generatie kan voltooien met aanzienlijk minder tokens, waardoor er voordelen ontstaan op het gebied van kosten en reactiesnelheid.

Uit de meest recente benchmarktestresultaten blijkt dat GPT-5.4 een aanzienlijke voorsprong heeft behaald in meerdere gezaghebbende evaluaties, waaronder het vestigen van nieuwe records in de twee 'computerbediening'-scenariotests van OSWorld-Verified en WebArena Verified, en het behalen van de hoogste score van 83% op OpenAI's eigen kenniswerkbeoordelingsset GDPval. GPT-5.4 staat ook op de eerste plaats in de APEX-Agents-benchmark van startup Mercor voor professionele vaardigheden zoals recht en financiën.

Mercor CEO Brendan Foody zei in een verklaring dat GPT-5.4 uitblinkt in het produceren van resultaten voor de lange termijn, waaronder presentaties, financiële modellen en juridische analyses, “terwijl topprestaties behouden blijven, sneller en tegen lagere kosten dan vergelijkbare geavanceerde modellen.”

Op het gebied van betrouwbaarheid zet GPT-5.4 de onderzoeks- en ontwikkelingsrichting van OpenAI voort om ‘illusies’ en feitelijke fouten te verminderen. Officiële interne evaluatieresultaten laten zien dat het nieuwe model, vergeleken met GPT-5.2, een reductie van 33% heeft in de kans op fouten op het niveau van een enkele uitspraak, en een reductie van 18% in de kans op fouten in het totale antwoord.

Deze release wordt ook geleverd met een belangrijke wijziging in de API-laag: OpenAI lanceert een nieuw mechanisme voor het aanroepen van tools, genaamd Tool Search. In de oude oplossing moest de systeemprompt de definities van alle beschikbare tools in één keer in het model injecteren. Naarmate het aantal tools toeneemt, zal dit deel van de prompt zelf een groot aantal tokens in beslag nemen. Met de nieuwe Tool Search kunnen modellen op verzoek gereedschapsdefinities opvragen, waardoor de overhead in systemen met grotere gereedschapsgroottes aanzienlijk wordt verminderd, waardoor aanroepen sneller en goedkoper worden.

Met de nadruk op veiligheid en beheersbaarheid heeft OpenAI deze keer een nieuwe veiligheidsbeoordeling toegevoegd om de ‘chain-of-thought’-prestaties van het model te testen bij taken die uit meerdere stappen bestaan. Onderzoekers zijn al lange tijd bezorgd dat modellen met redeneervermogen het ware redeneerpad tijdens het ketendenken kunnen ‘verhullen’ of verbergen. Uit eerder onderzoek is gebleken dat dit onder bepaalde omstandigheden inderdaad kan gebeuren. Nieuwe evaluatieresultaten van OpenAI laten zien dat in de versie van GPT-5.4 Thinking de kans op dergelijke "misleidende" prestaties zelfs nog kleiner is. "Dit laat zien dat het model niet in staat is om het redeneringsproces actief te verbergen, en dat het monitoren van de denkketen nog steeds een effectief beveiligingsinstrument is."

Door de gelijktijdige lancering van GPT-5.4 en de Pro- en Thinking-versies probeert OpenAI een nieuw evenwicht te vinden tussen professionele productiviteit, kostenefficiëntie en beheersbaarheid van de beveiliging, waardoor grote modellen verder worden geduwd in hoogwaardige scenario's zoals recht, financiën en kenniswerk.