Het Reddit-forum blokkeert het internetarchief van het crawlen van pagina's omdat AI-bedrijven indirect data

Het bekende internetforum Reddit onthulde onlangs dat het bedrijf ontdekte dat een kunstmatige-intelligentiebedrijf gegevens van Reddit had geschraapt via de website Wayback Machine van het Internet Archive, wat in strijd was met de gebruiksvoorwaarden van Reddit.

Reddit heeft eerder de meeste crawlers van zoekmachines en kunstmatige intelligentie-crawlers geblokkeerd voor het crawlen van gegevens. Als u gegevens wilt crawlen voor training van kunstmatige-intelligentiemodellen, moet u een commerciële licentie bij Reddit ondertekenen en een vergoeding betalen voordat u gaat crawlen.

Google betaalt bijvoorbeeld tot $60 miljoen per jaar aan het Reddit-forum voor gegevenstoegang. Google kan enorme Reddit-berichten en andere gegevens crawlen voor modeltraining. Dit is nog steeds een waardevolle deal voor Google.

Hoewel het internetarchief lang met Reddit heeft samengewerkt om berichten te indexeren en deze in de tijdmachine van de site te plaatsen, zodat ze in de toekomst kunnen worden bekeken, begonnen kunstmatige-intelligentiebedrijven die de kosten niet willen betalen hun crawlers naar het internetarchief te sturen, waarbij ze het internetarchief als medium gebruikten om Reddit te crawlen.

Nadat Reddit deze situatie had ontdekt, besloot hij onmiddellijk het crawlen en indexeren van de meeste pagina's door het internetarchief te blokkeren. De tijdmachinefunctie van de website kan niet langer pagina's met berichtdetails, opmerkingen en persoonlijke informatie crawlen. Integendeel, de tijdmachine van de website kan de Reddit-startpagina of populaire berichtnavigatie slechts beperkt crawlen, dat wil zeggen dat hij alleen inhoud zoals titels kan crawlen.

De CEO van Reddit zei dat hij het dataschrapen van het Internetarchief vanaf vandaag zou blokkeren en had vooraf contact opgenomen met het Internetarchief om hen dit te laten weten voordat de beperkingen van kracht werden. Het internetarchief zei dat het momenteel actief met Reddit over de kwestie communiceert.

Reddit heeft eerder ook Claude-ontwikkelaar Anthropic aangeklaagd. Reddit beschuldigde Anthropic ervan inhoud zonder toestemming te crawlen. Zelfs als Reddit zou verklaren dat het zijn crawler zou blokkeren voor het crawlen van gegevens, zou Anthropic doorgaan met het crawlen van inhoud en de gebruiksvoorwaarden van Reddit schenden.