OpenAI brengt derde versie uit van DALL-E kunstmatige intelligentie vision model

OpenAI heeft de derde versie uitgebracht van zijn generatieve kunstmatige intelligentie-beeldende kunstplatform DALL-E, waarmee gebruikers nu aanwijzingen kunnen maken met behulp van ChatGPT en meer beveiligingsopties bevat. DALL-E zet tekstprompts om in afbeeldingen. Maar zelfs de DALL-E2 maakt fouten, waarbij hij vaak specifieke bewoordingen over het hoofd ziet. Onderzoekers van OpenAI zeggen dat de nieuwste versie de context beter begrijpt.

Een nieuwe functie van DALL-E3 is integratie met ChatGPT. Door ChatGPT te gebruiken hoeven gebruikers niet zelf gedetailleerde aanwijzingen te schrijven om DALL-E3 te begeleiden; ze vragen ChatGPT eenvoudigweg om met een prompt te komen, en de chatbot schrijft een paragraaf (DALL-E is beter in het gebruik van langere zinnen) die DALL-E3 moet volgen. Andere gebruikers kunnen ook hun eigen tips gebruiken als ze speciale ideeën hebben voor DALL-E.

DALL-E werd voor het eerst uitgebracht in januari 2021, vóór StabilityAI en Midjourney's andere tekst-naar-beeld generatieve AI-kunstplatforms. Tegen de tijd dat DALL-E2 in 2022 wordt gelanceerd, heeft OpenAI een wachtlijst geopend om te bepalen wie het platform kan gebruiken, te midden van kritiek dat DALL-E realistisch expliciete beelden kan genereren en vooringenomenheid kan vertonen in de foto's die het genereert. Afgelopen september schrapte het bedrijf de wachtlijst en stelde de DALL-E2 open voor het publiek.

De nieuwe versie van DALL-E zal in oktober als eerste worden vrijgegeven voor ChatGPTPlus- en ChatGPTEnterprise-gebruikers, gevolgd door onderzoekslaboratoria en hun API-services in de herfst. OpenAI is van plan de release van DALL-E3 te spreiden, maar heeft niet beloofd wanneer een gratis openbare versie zal worden uitgebracht.

OpenAI beweert dat het uitgebreid werk heeft verricht aan DALL-E3, met de nadruk op het creëren van krachtige beveiligingsmaatregelen om de creatie van obscene of mogelijk haatzaaiende beelden te voorkomen. OpenAI zegt dat het samenwerkt met externe redteamers – een groep die opzettelijk probeert een systeem in gevaar te brengen om de veiligheid ervan te testen – en vertrouwt op invoerclassificatoren, een methode die taalmodellen leert bepaalde woorden te negeren om expliciete of brute force-prompts te vermijden. De DALL-E3 kan ook niet het beeld van een publieke figuur reproduceren, op voorwaarde dat de naam expliciet in de prompt wordt vermeld.

Sandhini Agarwal, een beleidsonderzoeker bij het bedrijf, zei dat ze “veel vertrouwen” had in de veiligheidsmaatregelen van het bedrijf, maar verduidelijkte dat het model voortdurend verbetert en niet perfect is. Een vertegenwoordiger van OpenAI zei in een e-mail dat DALL-E3 is getraind om geen beelden te genereren in de stijl van levende kunstenaars. In tegenstelling tot DALL-E2 kan DALL-E2 de kunststijl van bepaalde artiesten imiteren wanneer daarom wordt gevraagd.

Mogelijk om potentiële rechtszaken te voorkomen, zal OpenAI kunstenaars ook de mogelijkheid bieden om hun kunstwerken uit te sluiten van toekomstige versies van het tekst-naar-beeld AI-model. Makers kunnen afbeeldingen indienen waarvan zij het auteursrecht bezitten en de verwijdering ervan aanvragen door een formulier op de site in te vullen. Op deze manier kunnen toekomstige versies van DALL-E resultaten blokkeren die lijken op het imago en de stijl van de kunstenaar. De kunstenaars klaagden DALL-E-concurrenten StabilityAI en Midjourney aan, evenals kunstwebsite DeviantArt, en beschuldigden hen ervan hun auteursrechtelijk beschermde werken te gebruiken om tekst-beeldmodellen te trainen.