De meeste wijzigingen van OpenAI aan ChatGPT hebben betrekking op de mogelijkheden van de AI-bot: de vragen die hij kan beantwoorden, de informatie waartoe hij toegang heeft en verbeterde onderliggende modellen. Deze keer wordt echter de manier aangepast waarop u ChatGPT zelf gebruikt. Het bedrijf lanceert een nieuwe versie van zijn dienst waarmee je een AI-bot niet alleen kunt aanzetten door zinnen in een tekstvak te typen, maar ook door hardop te spreken of een foto te uploaden.

Volgens OpenAI zullen de nieuwe functies binnen de komende twee weken worden uitgerold naar gebruikers die voor ChatGPT betalen, en zullen andere gebruikers de nieuwe functies "kort daarna" ook krijgen.

Het voicechatgedeelte voelt heel vertrouwd aan: je klikt op een knop en spreekt je vraag uit, ChatGPT converteert deze naar tekst en voert deze in een groot taalmodel in, dat vervolgens het antwoord krijgt, omzet in spraak en het antwoord hardop uitspreekt. Het voelt alsof je tegen Alexa of Google Assistant praat, alleen hoopt OpenAI dat de antwoorden beter zullen zijn dankzij verbeteringen in de onderliggende technologie. De meeste virtuele assistenten lijken voor hun transformatie op LLM te vertrouwen, maar OpenAI loopt voorop.

OpenAI's uitstekende Whisper-model doet veel van het spraak-naar-tekst-werk, en het bedrijf lanceert een nieuw tekst-naar-spraak-model dat volgens het bedrijf "mensachtige audio kan genereren uit tekst en een paar seconden aan spraakvoorbeelden." Je kunt de stem van ChatGPT kiezen uit vijf opties, maar OpenAI lijkt te denken dat het model potentieel heeft voor veel meer dan dat. OpenAI werkt bijvoorbeeld samen met Spotify om podcasts naar andere talen te vertalen met behoud van de stem van de podcast. Er zijn veel interessante toepassingen voor gesynthetiseerde spraak, en OpenAI zou een belangrijk onderdeel van de industrie kunnen worden.

Maar het feit dat het slechts een paar seconden audio kost om een ​​capabele synthetische stem te bouwen, opent ook de deur naar een verscheidenheid aan problematische gebruiksscenario's. "Deze functies brengen ook nieuwe risico's met zich mee, zoals de mogelijkheid dat kwaadwillende actoren zich voordoen als publieke figuren of fraude plegen. Het is om deze reden dat OpenAI dit model niet breed gebruikt: het zal strenger worden gecontroleerd en beperkt tot specifieke gebruiksscenario's en partnerschappen", aldus het bedrijf in een blogpost waarin de nieuwe functies worden aangekondigd.

Zoeken naar afbeeldingen lijkt ondertussen een beetje op Google Lens. U maakt gewoon een foto van wat u interesseert en ChatGPT zal uitzoeken wat uw probleem is en dienovereenkomstig reageren. U kunt ook de tekenhulpmiddelen van de app gebruiken om uw vragen duidelijk uit te drukken, of om vragen uit te spreken of te typen op basis van afbeeldingen. Dit is waar het heen-en-weer-karakter van ChatGPT helpt: u kunt de bot vragen en tegelijkertijd uw antwoord verfijnen, in plaats van eerst te zoeken en dan opnieuw te zoeken nadat u het verkeerde antwoord heeft gekregen. (Dit lijkt erg op wat Google doet met multimodaal zoeken).

Het is duidelijk dat het zoeken naar afbeeldingen ook potentiële problemen kent. Een daarvan is wat er zou kunnen gebeuren als je een chatbot met een persoon vraagt: OpenAI zegt dat het opzettelijk het "vermogen van ChatGPT om mensen te analyseren en direct te verklaren" beperkt vanwege nauwkeurigheid en privacyproblemen. Dat betekent dat een van de meest sciencefictionvisies van kunstmatige intelligentie – het vermogen om naar een persoon te kijken en te zeggen: “Wie is dat?” – niet snel werkelijkheid zal worden. En misschien is dat maar goed ook.

Bijna een jaar nadat ChatGPT voor het eerst werd uitgebracht, lijkt het erop dat OpenAI nog steeds probeert uit te vinden hoe hij meer functies en mogelijkheden voor zijn bot kan bieden zonder nieuwe problemen en nadelen te introduceren. In deze versies heeft het bedrijf geprobeerd dit te bereiken door de functionaliteit van zijn nieuwe modellen bewust te beperken. Maar deze aanpak zal niet voor altijd werken. Naarmate steeds meer mensen gebruik maken van spraakbesturing en het zoeken naar afbeeldingen, en naarmate ChatGPT evolueert naar een werkelijk multimodale, nuttige virtuele assistent, zal het steeds moeilijker worden om de vangrails te behouden.