Volgens nieuws vrijgegeven door WIRED zijn veel websites in de Verenigde Staten begonnen de snapshot-functie van de Wayback Machine van het internetarchief te blokkeren, dat wil zeggen dat de Wayback Machine niet langer de pagina's van deze nieuwswebsites mag vastleggen en archiveren. De reden is dat AI-crawlers gegevens vastleggen en gebruiken om modellen te trainen.

De huidige hausse aan kunstmatige intelligentie heeft ervoor gezorgd dat een groot aantal websiteverkeer aanzienlijk is afgenomen, en AI-bedrijven vinden manieren om beperkingen te omzeilen en website-inhoud illegaal te crawlen, en uiteindelijk de vastgelegde gegevens te gebruiken voor AI-gespreksrobots of voor het trainen van daaropvolgende kunstmatige intelligentie-modellen.

Bij websites houdt dit gedrag in dat inhoud zonder toestemming wordt gecrawld en gebruikt, waardoor het websiteverkeer afneemt. Daarom hebben veel websites expliciet verboden dat zoekcrawlers op het gebied van kunstmatige intelligentie websitegegevens in robots.txt crawlen.

Zowel het internetarchief als zijn gebruikers werden per ongeluk gedood:

Om hun legitieme rechten en belangen te beschermen, hebben veel bekende nieuwsmedia, waaronder USA Today, de New York Times, enz., de tijdmachine van de website van Internet Archive geblokkeerd. Deze nieuwswebsites sluiten de ia_archiverbot-crawler uit, de crawler die door het internetarchief wordt gebruikt.

Naast nieuwsmedia verbieden online forums zoals Reddit ook dat het internetarchief inhoud doorzoekt. Reddit heeft licentieovereenkomsten getekend met Google en OpenAI om deze bedrijven in staat te stellen gegevens te crawlen en te gebruiken om modellen voor kunstmatige intelligentie te trainen. In ieder geval voor Reddit: als het internetarchief gegevens mag crawlen en AI-bedrijven vervolgens de gegevens van het internetarchief crawlen, kan het bedrijf mogelijk niet meer gegevens blijven verkopen.

Het probleem is dat veel inhoud niet permanent bestaat. Het belang van de websitetijdmachine is dat u wijzigingen in de inhoud van webpagina's kunt bekijken en door de inhoud kunt blijven bladeren via momentopnamen wanneer de webpagina wordt verwijderd. Dit is voor veel gebruikers erg belangrijk.

Daarom is het onder de AI-rage dat de nieuwsmedia die het internetarchief blokkeren van het crawlen van gegevens feitelijk een doodslag zijn van het internetarchief en de gebruikers: om AI-bedrijven te blokkeren en vervolgens gebruikers te blokkeren die normaal gesproken gerelateerde functies gebruiken.

USA Today zei dat dit niet gericht was op het internetarchief:

Een woordvoerder van USA Today zei dat het blokkeren van inhoud die door het internetarchief wordt gecrawld, niet specifiek gericht is op het internetarchief. Het is het normale plan van het bedrijf om alle webcrawlers grotendeels te blokkeren.

De directeur commerciële zaken en licenties van The Guardian zei dat het bedrijf communiceert met het internetarchief om het mogelijke misbruik van kunstmatige-intelligentiebedrijven te bespreken om inhoud te crawlen voor bewaardoeleinden (maar er is nog geen duidelijk resultaat).

Afgaande op deze situatie zullen steeds meer media in de toekomst het internetarchief blokkeren om te voorkomen dat hun inhoud door AI-bedrijven via het internetarchief wordt gecrawld. Uiteindelijk zijn deze AI-bedrijven de hoofdoorzaak nog steeds.

Het is niet ongebruikelijk dat deze AI-bedrijven inhoud zonder toestemming crawlen en inhoud met hoge frequentie crawlen. Uiteindelijk kan dit het landschap van het open internet veranderen, waardoor meer websites kunnen overschakelen van openbare toegang naar geregistreerde inlogtoegang of zelfs betaalde toegang.