Maandagavond, Beijing-tijd, bracht OpenAI, een bekende startup op het gebied van kunstmatige intelligentie, een rapport uit met de titel ‘
(Bron: OpenAI)
ChatGPT heeft eerder een "code interpreter" -functie gelanceerd die afbeeldingen kan uploaden, en heeft enkele voorlopige mogelijkheden voor het verwerken van afbeeldingen en tekstfoto's. Maar het lijdt geen twijfel dat het hedendaagse ‘foto’s maken en vragen stellen’ dichter bij de gebruiksscenario’s van de meeste gebruikers van AI-assistenten ligt.
In volgorde van titel zijn er vandaag twee belangrijke functies bijgewerkt:
Laten we het eerst hebben over de fotochatfunctie die veel aandacht heeft getrokken. Volgens OpenAI kunnen gebruikers dat nu doen
In het officiële voorbeeld krijgt ChatGPT een
Vervolgens deed de ambtenaar alsof hij het niet begreep en maakte een foto van de grendel.
Vervolgens nam de ambtenaar nog een foto van de gereedschapskist en vroeg ChatGPT welke sleutel het was. ChatGPT herkende de sleutel ook met succes en vroeg de gebruiker precies welke maat hij moest nemen.
Daarnaast omvat OpenAI ook functies en lanceringen voor spraakherkenning, transcriptie en audiogeneratie
Volgens OpenAI maakt deze functie gebruik van het open source spraakherkenningssysteem Whisper om wat de gebruiker zegt in tekst om te zetten. Het maakt ook gebruik van een nieuw tekst-naar-spraakmodel en werkt samen met professionele stemacteurs om gebruikers vijf stemmen te bieden waaruit ze kunnen kiezen.
OpenAI zegt dat zijn nieuwe spraaktechnologie in staat is om realistische synthetische stemmen te creëren uit slechts een paar seconden echte spraak. Deze mogelijkheid opent de deur naar creativiteit, maar creëert ook nieuwe risico's, zoals de mogelijkheid dat criminelen zich voordoen als publieke figuren om fraude te plegen. De beslissing van OpenAI is dus om deze functie te lanceren via specifieke gebruiksscenario's zoals 'voicechat'.
Tegelijkertijd werkt OpenAI ook samen met meer instellingen. Bijvoorbeeld
Beelden brengen ook nieuwe uitdagingen met zich mee, zoals hallucinatieproblemen en gebruikers die vertrouwen op modelinterpretatie van beelden in risicogebieden. Daarom voerde OpenAI, voordat het online ging, ook risicotests uit op gebieden als extremisme en wetenschappelijke capaciteiten.
Bovendien is de ervaring van beelddialogen voor de Chinese lezers die dit artikel lezen waarschijnlijk de moeite waard om naar uit te kijken, maar de stemdialoog moet misschien buiten beschouwing worden gelaten. OpenAI zei: