DeepL, een AI-bedrijf dat bekend staat om zijn tools voor tekstvertaling, heeft vandaag een productportfolio voor spraak-naar-spraakvertaling uitgebracht om de markt voor realtime spraakvertaling te betreden, dat een verscheidenheid aan scenario's omvat, zoals online vergaderingen, mobiele en webgesprekken en groepscommunicatie waarbij eerstelijnsmedewerkers betrokken zijn via op maat gemaakte applicaties. Tegelijkertijd lanceerde DeepL ook een API voor ontwikkelaars en ondernemingen ter ondersteuning van op maat gemaakte stemvertaaloplossingen voor callcenters en andere bedrijven op basis van zijn technologie.

DeepL-CEO Jarek Kutylowski zei in een interview dat na jarenlang focussen op tekstvertaling, spraak de "natuurlijke volgende stap" van het bedrijf was. Hij benadrukte dat DeepL een lange weg heeft afgelegd op het gebied van tekst- en documentvertaling, maar op het gebied van real-time spraakvertaling "ontbreekt er nog steeds een werkelijk uitstekend product", en daarom besloot het bedrijf mee te doen.

Kutlovsky wees erop dat de grootste moeilijkheid bij het bouwen van een real-time vertaalproduct het vinden van een evenwicht is tussen het verminderen van de latentie en het behouden van de nauwkeurigheid. De zogenaamde vertraging verwijst naar het tijdsverschil tussen het moment waarop de gebruiker spreekt en het moment waarop de vertaalde stem wordt afgespeeld. In conferentie- en dialoogscenario's geldt: hoe kleiner het verschil, hoe dichter de communicatie-ervaring van de gebruiker bij 'gelijktijdige dialoog' ligt.

In deze release lanceert DeepL plug-ins voor Zoom en Microsoft Teams, waardoor luisteraars in vergaderingen op afstand kunnen luisteren naar alle partijen die in hun moedertaal spreken, vertaalde stemmen in realtime kunnen horen of realtime vertaalde ondertitels op het scherm kunnen lezen. Het programma bevindt zich nog in de beginfase van testen en DeepL nodigt bedrijven uit om zich op een wachtlijst te plaatsen, zodat ze als eerste de functie kunnen uitproberen. Daarnaast levert het bedrijf ook conversatieproducten voor mobiele terminals en webpagina's, waarmee gebruikers persoonlijk of op afstand in meerdere talen kunnen communiceren.

Voor offline of online groepsscenario's met meerdere personen, zoals trainingen en seminars, stelt DeepL deelnemers in staat deel te nemen aan dezelfde sessie door de QR-code te scannen, en iedereen kan vertaalde inhoud in de overeenkomstige taal op zijn eigen apparaat ontvangen. DeepL zei dat zijn spraak-naar-spraak-technologie ook aangepaste woordenschat kan leren en aanpassen, zoals verticale branchetermen, bedrijfsnamen en persoonlijke namen, om het gebruik ervan in professionele scenario's te verbeteren.

Kutlovsky gelooft dat AI de vorm van de klantenservice-industrie de komende jaren zal hervormen. Een hoogwaardige vertaallaag kan bedrijven helpen nog steeds meertalige serviceondersteuning te bieden in een markt waar lokaal taaltalent ontbreekt en de wervingskosten hoog zijn. Met deze visie hoopt DeepL dat zijn spraaktechnologie niet alleen zal dienen voor conferentiescenario's, maar ook een van de basistaalinfrastructuren zal worden voor klantenservicecentra en mondiale ondernemingen.

Over de technische roadmap zei DeepL dat zijn huidige producten worden aangestuurd door een zelfontwikkelde complete ‘spraak-naar-spraak’-technologie, maar in dit stadium gebruikt het nog steeds het driestapsproces van ‘spraak naar tekst – tekstvertaling – tekst naar spraak’. Het bedrijf is van mening dat de langetermijnfocus op tekstvertaling het bedrijf een voorsprong geeft op het gebied van de algehele vertaalkwaliteit. In de toekomst is DeepL van plan een end-to-end spraakvertaalmodel te ontwikkelen dat tussenstappen in de tekst weglaat om verdere verbeteringen in latentie en natuurlijkheid te bereiken.

Op het gebied van spraak en vertaling ondervindt DeepL concurrentie van meerdere startups. Onder hen haalde Sanas vorig jaar 65 miljoen dollar op bij Quadrille Capital en Teleperformance. Het richt zich op technologie die het accent van sprekers in realtime aanpast, voornamelijk voor callcenteragenten. Camb.AI, met hoofdkantoor in Dubai, levert spraaksynthese- en vertaaldiensten voor media- en entertainmentbedrijven en helpt klanten bij het voltooien van nasynchronisatie en lokalisatie van grootschalige inhoud. Palabra, geïnvesteerd door het fonds Seven Seven Six, mede-oprichter van Reddit, Alexis Ohanian, bouwt een real-time spraakvertaalmachine die de nadruk legt op het behouden van de originele stemkenmerken van de spreker tijdens het vertaalproces, waardoor een directere concurrentierelatie ontstaat met de mogelijkheden die DeepL bouwt.

Nadat DeepL voet aan de grond heeft gekregen op de markt voor tekstvertalingen, probeert het zijn grenzen te verleggen via spraakproducten, waarbij de technologie wordt uitgebreid naar samenwerking op conferenties, klantenservice en eerstelijnsscenario's. Naarmate meer bedrijven AI proberen te gebruiken om de communicatiekosten in meerdere talen terug te dringen, wordt verwacht dat realtime spraakvertaling de focus zal worden van een nieuwe competitieronde, en DeepL versnelt de inzet ervan op dit spoor.