OpenAI heeft officieel de lancering aangekondigd van multimodale ChatGPT, die

Maandagavond, Beijing-tijd, bracht OpenAI, een bekende startup op het gebied van kunstmatige intelligentie, een rapport uit met de titel ‘ChatGPT kan nu zien, luisteren en spreken', waarin wordt aangekondigd dat deze functie in de komende twee weken naar betalende gebruikers zal worden gepusht. Op de GPT-4-persconferentie in maart van dit jaar zou de meest schokkende scène moeten zijn dat Greg Brockman, de president van OpenAI, een stuk kladpapier pakte en een schets maakte, een foto maakte en GPT-4 de code voor deze website in 10 seconden liet genereren.

(Bron: OpenAI)

ChatGPT heeft eerder een "code interpreter" -functie gelanceerd die afbeeldingen kan uploaden, en heeft enkele voorlopige mogelijkheden voor het verwerken van afbeeldingen en tekstfoto's. Maar het lijdt geen twijfel dat het hedendaagse ‘foto’s maken en vragen stellen’ dichter bij de gebruiksscenario’s van de meeste gebruikers van AI-assistenten ligt.

Maak een foto van de koelkast en vertel wat je vanavond moet eten

In volgorde van titel zijn er vandaag twee belangrijke functies bijgewerkt:Op afbeeldingen gebaseerde gesprekken en realtime spraakgesprekken.

Laten we het eerst hebben over de fotochatfunctie die veel aandacht heeft getrokken. Volgens OpenAI kunnen gebruikers dat nu doenMaak een foto van uw koelkast en laat ChatGPT recepten aanbevelen; tijdens het reizenMaak een foto van een monument en laat ChatGPT je vertellen wat er interessant is aan de plek. Je kunt natuurlijk ook een foto maken van een wiskundeprobleem en deze door ChatGPT laten beantwoorden.

In het officiële voorbeeld krijgt ChatGPT eenEen foto van de fiets en gevraagd hoe het is gewordenZitting verlaagd. Toen zei ChatGPT dat het afhangt van het model van je auto. Sommige auto's hebben snelspanstangen, en sommige zijn met bouten bevestigd en geven vervolgens gedetailleerde stappen.

Vervolgens deed de ambtenaar alsof hij het niet begreep en maakte een foto van de grendel.Hij omcirkelde het met het officiële tekengereedschap om de nadruk te leggen en vroeg vervolgens aan ChatGPT of het een snelontgrendelingshendel was. ChatGPT zeiDit is een bout, dus je moet een inbussleutel vinden.

Vervolgens nam de ambtenaar nog een foto van de gereedschapskist en vroeg ChatGPT welke sleutel het was. ChatGPT herkende de sleutel ook met succes en vroeg de gebruiker precies welke maat hij moest nemen.

ChatGPT kan praten!

Daarnaast omvat OpenAI ook functies en lanceringen voor spraakherkenning, transcriptie en audiogeneratieAI voicechat-functie, deze functie is alleen beschikbaar voor iOS- en Android-clients. Ambtenaren zeiden dat gebruikers deze functie kunnen gebruiken om verhaaltjes voor het slapengaan aan kinderen thuis te vertellen. Of als u thuis aan het eten bent en plotseling ruzie krijgt over een bepaald onderwerp, kunt u ChatGPT op het bureaublad zetten om de ruzie op te lossen.

Volgens OpenAI maakt deze functie gebruik van het open source spraakherkenningssysteem Whisper om wat de gebruiker zegt in tekst om te zetten. Het maakt ook gebruik van een nieuw tekst-naar-spraakmodel en werkt samen met professionele stemacteurs om gebruikers vijf stemmen te bieden waaruit ze kunnen kiezen.

Meer geavanceerde AI brengt ook nieuwe risico’s en beperkingen met zich mee

OpenAI zegt dat zijn nieuwe spraaktechnologie in staat is om realistische synthetische stemmen te creëren uit slechts een paar seconden echte spraak. Deze mogelijkheid opent de deur naar creativiteit, maar creëert ook nieuwe risico's, zoals de mogelijkheid dat criminelen zich voordoen als publieke figuren om fraude te plegen. De beslissing van OpenAI is dus om deze functie te lanceren via specifieke gebruiksscenario's zoals 'voicechat'.

Tegelijkertijd werkt OpenAI ook samen met meer instellingen. BijvoorbeeldHet streamingbedrijf Spotify test deze functie voor stemvertaling, waardoor podcast-hosts hun wereldwijde bereik kunnen vergroten door hun stem te gebruiken om podcast-audio naar andere talen te vertalen.

Beelden brengen ook nieuwe uitdagingen met zich mee, zoals hallucinatieproblemen en gebruikers die vertrouwen op modelinterpretatie van beelden in risicogebieden. Daarom voerde OpenAI, voordat het online ging, ook risicotests uit op gebieden als extremisme en wetenschappelijke capaciteiten.

Bovendien is de ervaring van beelddialogen voor de Chinese lezers die dit artikel lezen waarschijnlijk de moeite waard om naar uit te kijken, maar de stemdialoog moet misschien buiten beschouwing worden gelaten. OpenAI zei:Het model is goed in het transcriberen van Engelse tekst, maar presteert slecht in sommige andere talen, vooral in talen die niet-Romeinse alfabetten gebruiken, en niet-Engelse gebruikers wordt geadviseerd ChatGPT niet voor dergelijke doeleinden te gebruiken.