OpenAI lanceert Flex-verwerkings-API voor goedkopere, langzamere AI-taken

In een poging om agressiever te concurreren met rivaliserende AI-bedrijven zoals Google, heeft OpenAI Flex Processing geïntroduceerd, een API-optie die lagere prijzen biedt voor het gebruik van AI-modellen, maar met langzamere responstijden en "af en toe onbeschikbare bronnen".

Flex-verwerking is een bètaversie van OpenAI's onlangs uitgebrachte o3- en o4-mini-inferentiemodellen en is ontworpen om taken met een lage prioriteit en "niet-productie"-taken uit te voeren, zoals modelevaluatie, gegevensverrijking en asynchrone werklasten, aldus OpenAI.

Het verlaagt de API-kosten met de helft. Voor o3 bedragen de Flex-verwerkingsprijzen $5 per miljoen inputtokens (~750.000 woorden) en $20 per miljoen outputtokens, vergeleken met standaardprijzen van $10 per miljoen inputtokens en $40 per miljoen outputtokens. Voor o4-mini verlaagde Flex de prijs van $1,10 per miljoen invoerwoorden en $4,40 per miljoen uitvoerwoorden naar $0,55 per miljoen invoerwoorden en $2,20 per miljoen uitvoerwoorden.

De introductie van de Flex-processors komt omdat de prijzen voor geavanceerde kunstmatige intelligentie blijven stijgen en concurrenten goedkopere, efficiëntere, budgetgerichte modellen lanceren. Donderdag lanceerde Google Gemini 2.5 Flash. De prestaties van dit inferentiemodel zijn gelijk aan of zelfs beter dan DeepSeek R1, en de kosten voor het invoerwoord zijn lager.

In een e-mail aan klanten waarin Flex-prijzen werden aangekondigd, merkte OpenAI ook op dat ontwikkelaars op niveaus 1-3 van de gebruiksniveaus een nieuw geïntroduceerd authenticatieproces moeten voltooien om toegang te krijgen tot o3. (Niveaus worden bepaald door het bedrag dat aan OpenAI-services wordt uitgegeven.) O3's inferentieoverzicht en streaming API-ondersteuning vereisen ook authenticatie.

OpenAI heeft eerder gezegd dat authenticatie bedoeld is om slechte actoren ervan te weerhouden het gebruiksbeleid te schenden.

leer meer:

https://platform.openai.com/docs/guides/flex-processing