Amazon lanceert NovaSonic, een nieuwe generatie generatieve AI-stemmodellen, die een grote doorbraak betekenen op het gebied van kunstmatige intelligentie.Dit innovatieve model kan spraakinvoer op natuurlijke wijze verwerken en een natuurlijke en vloeiende spraakuitvoer genereren. In termen van kernprestatie-indicatoren zoals snelheid, nauwkeurigheid van spraakherkenning en dialoogkwaliteit heeft het een niveau bereikt dat vergelijkbaar is met de geavanceerde spraakmodellen van technologiegiganten als OpenAI en Google.

NovaSonic levert diensten via het Amazon Bedrock-ontwikkelaarsplatform en maakt gebruik van een innovatieve API-interface voor tweerichtingsstreaming om krachtige ondersteuning te bieden voor de ontwikkeling van AI-applicaties op bedrijfsniveau.Amazon benadrukte specifiek dat dit model aanzienlijke voordelen biedt op het gebied van kosteneffectiviteit, en dat de prijs ongeveer 80% goedkoper is dan OpenAI's GPT-4o. Het kan de meest kosteneffectieve AI-spraakoplossing op de markt worden genoemd.

Vergeleken met concurrerende AI-spraakmodellen blinkt NovaSonic uit in het routeren van gebruikersverzoeken naar verschillende API's. Dankzij deze mogelijkheid weet NovaSonic wanneer het realtime informatie van internet moet verkrijgen, bedrijfseigen gegevensbronnen moet parseren of actie moet ondernemen in externe applicaties en de juiste tools moet gebruiken om de taak te voltooien.

Bij een tweerichtingsgesprek wacht NovaSonic op het ‘juiste moment’ om te spreken, waarbij rekening wordt gehouden met de pauzes en onderbrekingen van de spreker.Daarnaast kan NovaSonic ook tekstrecords genereren voor de spraak van gebruikers, en ontwikkelaars kunnen deze teksten voor verschillende toepassingsscenario's gebruiken.

Rohit Prasad, hoofdwetenschapper van de AGI-afdeling van Amazon, onthulde dat sommige technologieën van NovaSonic zijn gebruikt in de verbeterde digitale assistent Alexa+. De lancering van dit model is een belangrijke stap in de strategie van Amazon om kunstmatige algemene intelligentie (AGI) te bouwen. In de toekomst zal het ook AI-modellen lanceren die multimodaal begrip ondersteunen, met afbeeldingen, video's en andere gegevens over de perceptie van de fysieke wereld.