OpenAI heeft vandaag drie nieuwe realtime spraakmodellen uitgebracht, met als doel "een nieuwe generatie spraaktoepassingsvormen te ontgrendelen" voor ontwikkelaars. Deze drie spraakintelligentiemodellen richten zich op verschillende scenariobehoeften, zoals redeneringsdialoog, realtime vertaling en realtime transcriptie.

Volgens informatie vrijgegeven door OpenAI omvat de nieuwe serie drie modellen: GPT-Realtime-2, GPT-Realtime-Translate en GPT-Realtime-Whisper. Onder hen is GPT-Realtime-2 gepositioneerd als het eerste spraakmodel met redeneermogelijkheden op GPT-5-niveau, dat complexe verzoeken beter kan afhandelen en gesprekken op een meer natuurlijke manier kan blijven bevorderen. Volgens de officiële introductie is dit model speciaal gebouwd voor real-time steminteractie. Wanneer gebruikers vragen stellen of instructies geven, kunnen ze redeneren terwijl ze een samenhangend gesprek voeren. Tegelijkertijd kunnen ze ook tools oproepen, onderbrekingen en correcties van gebruikers afhandelen en passendere reacties geven op basis van de huidige situatie.

Het tweede model, GPT‑Realtime‑Translate, richt zich op realtime vertaalmogelijkheden, ondersteunt “meer dan 70 invoertalen en 13 uitvoertalen” en probeert de spreeksnelheid van de spreker tijdens het vertaalproces bij te houden. Deze functie betekent dat dit model naar verwachting in scenario's zoals gesprekken in meerdere talen, vergaderingen of live-uitzendingen een ervaring zal bieden die dichter bij "simultaanvertolking" ligt.

De derde GPT‑Realtime‑Whisper is een real-time streaming spraaktranscriptiemodel dat zich richt op spraak-naar-tekstmogelijkheden met lage latentie. OpenAI zei dat het model de transcriptie onmiddellijk kan voltooien terwijl de spreker aan het woord is, waardoor verschillende realtime producten sneller, responsiever en natuurlijker verschijnen. Van live ondertiteling "spreken terwijl je spreekt" tot vergaderverslagen die het tempo van de discussies kunnen bijhouden, dergelijke toepassingsscenario's worden beschouwd als de hoofdrichting van GPT-Realtime-Whisper.

In termen van toegangsmethoden en prijzen zei OpenAI dat de drie nieuwe spraakmodellen zijn opgenomen in zijn Realtime API-systeem. GPT-Realtime-2 kost $32 per 1 miljoen audio-invoertokens ($0,40 voor in de cache opgeslagen invoertokens) en $64 per 1 miljoen audio-uitvoertokens. GPT-Realtime-Translate kost $ 0,034 per minuut, terwijl GPT-Realtime-Whisper $ 0,017 per minuut kost.

OpenAI zei dat ontwikkelaars deze nieuwe realtime spraakmodellen rechtstreeks kunnen testen via de Playground. Als u Codex al hebt geïnstalleerd, klikt u gewoon op Verzenden op de aangegeven prompt om GPT‑Realtime‑2 toe te voegen aan een bestaande applicatie of snel een nieuwe applicatie te maken op basis van het model. De ambtenaar introduceerde ook de technische details van deze drie stemmodellen verder op zijn website, en hoe sommige partnerbedrijven deze in daadwerkelijke producten hebben gebruikt.

In de context waarin generatieve AI blijft evolueren naar multimodaliteit en realtime interactie, worden de drie door OpenAI uitgebrachte spraakmodellen beschouwd als een andere belangrijke lay-out in de richting van "stemintelligentie". Met de uniforme integratie van redeneer-, vertaal- en transcriptiemogelijkheden kunnen ontwikkelaars gebruikers gemakkelijker een stem-AI-ervaring bieden die “met een handomdraai beschikbaar is”. Van assistent-tools tot productiviteitstoepassingen, tot contentcreatie en toegankelijkheidsdiensten: er wordt verwacht dat dit een nieuwe ronde van verkenning en innovatie zal inluiden.