Nachtschade 'vergiftigt' afbeeldingen om AI-training te stoppen en artiesten

Een van de vele zorgen over generatieve AI is hun vermogen om afbeeldingen te genereren met afbeeldingen die van internet zijn geplukt zonder toestemming van de oorspronkelijke maker. Maar een nieuwe tool kan dit probleem oplossen door de gegevens die worden gebruikt om het model te trainen te ‘vergiftigen’.

MIT Technology Review belicht een nieuwe tool genaamd Nightshade, gemaakt door onderzoekers van de Universiteit van Chicago. Het werkt door zeer kleine wijzigingen aan te brengen in afbeeldingspixels die onzichtbaar zijn voor het blote oog voordat ze worden geüpload. Dit vergiftigt de trainingsgegevens die worden gebruikt door tools als DALL-E, StableDiffusion en Midjourney, waardoor het model op onvoorspelbare manieren crasht.

Enkele voorbeelden van hoe generatieve AI beelden van door nachtschade vergiftigde mensen verkeerd kan interpreteren, zijn onder meer het veranderen van honden in katten, auto's in koeien, hoeden in taarten en handtassen in broodroosters. Het is ook geweldig om verschillende kunststijlen aan te geven: kubisme wordt anime, tekenfilms worden impressionisme, conceptuele kunst wordt abstractie.

Een recent artikel gepubliceerd door onderzoekers op arXiv beschrijft Nightshade als een hint-specifieke vergiftigingsaanval. In plaats van miljoenen afbeeldingen te vergiftigen, kan Nightshade stabiele diffusiesignalen vernietigen met ongeveer 50 monsters, zoals weergegeven in de onderstaande afbeelding.

De onderzoekers schreven dat de tool niet alleen specifieke prompttermen als ‘hond’ zou kunnen vergiftigen, maar ook gerelateerde concepten als ‘puppy’, ‘hond’ en ‘husky’ zou kunnen ‘infiltreren’. Het heeft zelfs invloed op indirect gerelateerde afbeeldingen; Het vergiftigen van 'Fantasy Art' zal bijvoorbeeld de aanwijzingen voor 'een draak', 'een kasteel uit Lord of the Rings' en 'een schilderij van Michael Whelan' in iets anders veranderen.

Ben Zhao, een professor aan de Universiteit van Chicago die leiding gaf aan het team dat Nightshade creëerde, zei dat hij hoopt dat de tool een afschrikmiddel zal zijn voor AI-bedrijven die de auteursrechten en intellectuele eigendomsrechten van kunstenaars niet respecteren. Hij erkende het potentieel voor kwaadwillig gebruik, maar om echte schade aan te richten aan grotere, krachtigere modellen zouden aanvallers duizenden afbeeldingen moeten vergiftigen omdat deze systemen zijn getraind op miljarden datamonsters.

Trainers van generatieve AI-modellen kunnen ook verdedigingsmiddelen tegen deze praktijk gebruiken, zoals het filteren van gegevens met veel verlies, frequentieanalyse en andere detectie-/verwijderingsmethoden, maar Ben Zhao zei dat deze niet erg robuust zijn.

Sommige grote AI-bedrijven geven kunstenaars de mogelijkheid om hun werk niet te laten gebruiken in datasets voor AI-trainingen, maar dit kan een moeizaam proces zijn en heeft geen betrekking op werk dat mogelijk is geschrapt. Velen zijn van mening dat kunstenaars zich moeten kunnen aanmelden in plaats van dat ze zich moeten afmelden.