Meta werd onlangs geconfronteerd met een rechtszaak wegens inbreuk op het auteursrecht vanwege de juridische risico's van het gebruik van duizenden illegale boeken om modellen voor kunstmatige intelligentie te trainen.Er wordt gemeld dat Meta de "Books3"-dataset van een groot aantal illegale boeken heeft gebruikt om zijn LLAM1- en LLAM2-modellen te trainen. Hoewel Meta toegaf dat zij de dataset van Books3 gebruikte, weigerde zij een passende compensatie aan de auteurs te betalen.
Books3 is een tekstdataset met 195.000 boeken met een totale capaciteit van bijna 37 GB. Het is in 2020 gemaakt door AI-onderzoeker Shawn Presser om een betere gegevensbron te bieden voor het verbeteren van machine learning-algoritmen.
Meta gebruikt het ook om zijn eigen LLAM-model te trainen. Books3 bevat echter een groot aantal auteursrechtelijk beschermde werken die afkomstig zijn van de illegale website Bibliotik, waardoor de acties van Meta juridisch gevaar lopen.
Verschillende technologiebedrijven hebben dit jaar soortgelijke klachten gekregen, waarbij ze werden beschuldigd van inbreuk op de auteursrechten van artiesten, auteurs en andere makers van inhoud bij het bouwen van generatieve AI-modellen.
Bovendien kunnen nieuwe tijdelijke EU-regels inzake kunstmatige intelligentie bedrijven dwingen de datasets openbaar te maken die worden gebruikt om modellen te trainen, waardoor ze mogelijk aan grotere juridische risico's worden blootgesteld.