Wikipedia-editors hanteren een 'snel verwijdering'-beleid voor spamartikelen gegenereerd door kunstmatige intelligentie

Wikipedia-redacteuren hebben zojuist een nieuw beleid geïntroduceerd om hen te helpen omgaan met de toestroom van door AI gegenereerde artikelen die de online encyclopedie overspoelen. Het nieuwe beleid geeft beheerders de mogelijkheid om snel door AI gegenereerde artikelen te verwijderen die aan bepaalde criteria voldoen. Dit is niet alleen cruciaal voor Wikipedia, maar het biedt het platform ook een belangrijk voorbeeld van hoe om te gaan met de groeiende chaos veroorzaakt door kunstmatige intelligentie.

Wikipedia wordt onderhouden door een samenwerkende mondiale gemeenschap van vrijwillige bijdragers en redacteuren, en een deel van wat het tot een betrouwbare informatiebron maakt, is dat deze gemeenschap veel tijd besteedt aan het bespreken, beraadslagen en debatteren over alles wat er op het platform gebeurt, of het nu gaat om wijzigingen in individuele artikelen of het beleid dat deze wijzigingen regelt. Het is normaal om een volledig Wikipedia-artikel te verwijderen, maar het belangrijkste verwijderingsproces omvat meestal een discussieperiode van een week, waarin Wikipedia-gebruikers een consensus proberen te bereiken over het al dan niet verwijderen van het artikel.

Om algemene problemen aan te pakken die duidelijk in strijd zijn met het beleid van Wikipedia, kent Wikipedia echter ook een proces voor 'snelle verwijdering', waarbij iemand een artikel markeert, een beheerder controleert of het aan bepaalde voorwaarden voldoet en het artikel vervolgens zonder discussie verwijdert.

Vermeldingen die geheel bestaan uit hallucinerend gebrabbel, betekenisloze tekst of wat Wikipedia 'onzin' noemt, kunnen bijvoorbeeld worden gemarkeerd voor snelle verwijdering. Hetzelfde geldt voor inzendingen die slechts advertenties zijn en geen encyclopedische waarde hebben. Als iemand een artikel markeert voor verwijdering omdat het 'waarschijnlijk niet opmerkelijk' is, is dat een meer subjectieve beoordeling die een volledige discussie vereist.

Momenteel vallen artikelen die zijn gemarkeerd als AI-gegenereerd door Wikipedia-redacteuren meestal in de laatste categorie, omdat redacteuren niet helemaal zeker weten of ze door AI zijn gegenereerd. Ilyas Lebleu is een van de oprichters van het Wikipedia AI Cleanup Project en een redacteur die kritische taal heeft bijgedragen aan het onlangs aangenomen beleid inzake door AI gegenereerde artikelen en snelle verwijdering. Dit, zo vertelde hij me, is de reden waarom eerdere voorstellen om de door AI gegenereerde artikelen van Wikipedia te reguleren het moeilijk hebben gehad.

“Hoewel het gemakkelijk is om te zien dat iets door AI is gegenereerd (bijvoorbeeld woordkeuze, streepjes, lijsten met opsommingstekens met vetgedrukte titels, enz.), zijn de signalen vaak niet zo duidelijk, en we willen niet per ongeluk inhoud verwijderen alleen maar omdat het klinkt als AI,” vertelde LeBrew me in een e-mail. "Over het geheel genomen wordt de opkomst van gemakkelijk gegenereerde AI-inhoud beschreven als een 'existentiële bedreiging' voor Wikipedia: aangezien onze processen gericht zijn op (vaak langdurige) discussies en het opbouwen van consensus, is het vermogen om snel grote hoeveelheden valse inhoud te genereren problematisch als we geen manier hebben om deze snel te verwijderen. Natuurlijk is AI-inhoud niet uniek en zijn mensen prima in staat slechte inhoud te schrijven, maar zeker niet met dezelfde snelheid. Onze tools zijn ontworpen voor een heel andere schaal."

De door de Wikipedianen voorgestelde oplossing is het mogelijk maken van snelle verwijdering van artikelen die duidelijk door kunstmatige intelligentie zijn gegenereerd en die grofweg aan twee voorwaarden voldoen. Ten eerste bevat het artikel inhoud “ontworpen om met gebruikers te communiceren.” Dit verwijst naar de taal in het artikel die duidelijk een groot taalmodel (LLM) is dat reageert op gebruikersprompts, zoals 'Dit is uw Wikipedia-artikel over...', 'Vanaf mijn laatste trainingsupdate...' en 'Als een groot taalmodel'. Dit geeft duidelijk aan dat het artikel is gegenereerd door een groot taalmodel, een aanpak die we eerder ook hebben gebruikt om door AI gegenereerde berichten op sociale media en wetenschappelijke artikelen te identificeren.

Lebleu vertelde me dat ze deze situaties "vaak" hebben gezien, en wat nog belangrijker is, zei hij, ze geven aan dat gebruikers de artikelen die ze hebben ingediend niet eens hebben gelezen.

"Als gebruikers deze basiszaken niet controleren, kunnen we er gerust van uitgaan dat ze niets hebben gecontroleerd wat ze hebben gekopieerd en geplakt, en dat is net zo nutteloos als witte ruis", zeiden ze.

Een andere voorwaarde die ervoor zorgt dat door AI gegenereerde artikelen snel worden verwijderd, is als de verwijzingen duidelijk onjuist zijn, wat een andere fout is die grote taalmodellen (LLM's) vaak maken. Dit kan het opnemen van externe links naar boeken, artikelen of wetenschappelijke artikelen omvatten die niet bestaan en niet kunnen worden geparseerd, of links naar volledig niet-gerelateerde inhoud. Het nieuwe beleid van Wikipedia geeft één voorbeeld: "Een artikel over een keversoort wordt geciteerd in een computerwetenschappelijk artikel."

Lebleu zei dat snelle verwijdering een ‘noodmaatregel’ is die de meest voor de hand liggende problemen aanpakt, en dat AI-problemen zullen blijven bestaan omdat steeds meer door AI gegenereerde inhoud niet voldoet aan de nieuwe voorwaarden voor snelle verwijdering. Ze merkten ook op dat AI een nuttig hulpmiddel zou kunnen zijn dat in de toekomst een positieve invloed op Wikipedia zou kunnen hebben.

“De huidige situatie is echter heel anders, en speculatie over waar de technologie de komende jaren naartoe zal gaan, kan ons gemakkelijk afleiden van het oplossen van de huidige problemen”, zeiden ze. "Een belangrijke pijler van Wikipedia is dat we geen vaste regels hebben, en dat alle beslissingen die we vandaag nemen over een paar jaar opnieuw bekeken kunnen worden naarmate de technologie evolueert."

LeBrew zei dat het nieuwe beleid Wikipedia uiteindelijk in een betere positie zal brengen dan voorheen, maar het is niet perfect.

Het goede nieuws (naast de snelle verwijdering) is dat we officieel een verklaring hebben afgegeven met betrekking tot artikelen die zijn gegenereerd door grote taalmodellen. Dit is een twistpunt in de gemeenschap: hoewel de overgrote meerderheid tegen AI-inhoud is, is de vraag hoe ermee om te gaan precies een twistpunt geweest, en vroege pogingen om een breed beleid te ontwikkelen mislukten. Hier hebben we, op basis van eerdere vooruitgang op het gebied van AI-afbeeldingen, concepten en discussiecommentaren, een specifiekere standaard besproken, maar wel een die expliciet stelt dat ongemodereerde inhoud in grote taalmodellen spiritueel onverenigbaar is met Wikipedia.

Gerelateerde artikelen:

Wikipedia schort de pilot voor het samenvatten van AI op na protest van de redactie