OpenAI ontwikkelt een tweerichtingsspraakmodel: het kan onmiddellijk reageren, zelfs als het wordt onderbroken, waardoor gesprekken natuurlijker en soepeler verlopen

Volgens berichten in de media isOpenAI ontwikkelt een nieuw spraakmodel dat is ontworpen om de gesprekken van gebruikers met ChatGPT natuurlijker en soepeler te maken. De kerndoorbraak van deze technologie is dat wanneer de gebruiker het systeem onderbreekt terwijl de AI aan het woord is, de AI de reactie in realtime kan aanpassen in plaats van plotseling te stoppen zoals nu.

Momenteel maakt de geavanceerde stemmodus van ChatGPT gebruik van een turn-based dialoogmechanisme. De gebruiker moet klaar zijn met spreken voordat AI de stem verwerkt en een antwoord genereert. Als de gebruiker een kort antwoord invoegt, zoals "oké" of "mm-hm" wanneer de AI aan het woord is, stopt het systeem meestal direct en kan de communicatie niet worden voortgezet zoals bij een normaal gesprek.

Om dit probleem op te lossen,Het door OpenAI ontwikkelde BiDi (bidirectioneel spraakmodel) verwerkt continu de spraakinvoer van de spreker, zodat deze bij onderbreking onmiddellijk zijn reactie kan aanpassen.Zodra bestaande spraakmodellen daarentegen antwoorden beginnen te genereren, staat de uitvoerinhoud in principe vast en kan deze niet veranderen op basis van nieuwe invoer.

Deze technologie bevindt zich nog in de ontwikkelingsfase. Volgens mensen die met de materie bekend waren, was het prototype gevoelig voor storingen en maakte het soms zelfs onnatuurlijke geluiden na enkele minuten aanhoudend gesprek. OpenAI-onderzoekers hoopten oorspronkelijk BiDi in het eerste kwartaal van dit jaar uit te brengen, maar de nieuwste release wordt mogelijk uitgesteld naar het tweede kwartaal of later.

OpenAI is van mening dat als het spraakmodel qua prestaties het tekstmodel kan benaderen, de reikwijdte van AI-gebruik verder zal worden uitgebreid, omdat de meeste mensen meer gewend zijn aan spraakcommunicatie met AI dan aan het invoeren van tekst. Het BiDi-model kan bijzonder waardevol zijn in scenario's voor klantenservice.

Als een klant bijvoorbeeld met de AI-klantenservice van een retailer praat en de klant tijdens het gesprek tijdelijk besluit het product te ruilen in plaats van terug te sturen, kan het BiDi-model de AI-klantenservice in theorie in staat stellen het gesprek soepel aan te passen zonder plotselinge onderbrekingen of verwarring.

Ook bekenden met de materie lieten zien dat het BiDi-model ook flexibeler is in het aanroepen van externe tools en applicaties.OpenAI verklaarde eerder dat het bedrijf van plan is het spraakmodel te verbeteren voor een toekomstig AI-apparaat dat voornamelijk via spraak communiceert, en overweegt een slimme luidspreker te ontwikkelen die e-mails kan checken of diensten kan boeken via spraakopdrachten.