Harvard University en Google zullen 1 miljoen boeken vrijgeven in het publieke domein als trainingsdatasets voor kunstmatige intelligentie

Trainingsgegevens voor kunstmatige intelligentie zijn duur en het meest geschikt voor technologiebedrijven met diepe zakken. Dat is de reden waarom Harvard University van plan is een openbare dataset van ongeveer 1 miljoen boeken uit het publieke domein vrij te geven in een verscheidenheid aan genres, talen en auteurs, waaronder Dickens, Dante en Shakespeare, die vanwege hun leeftijd niet langer door het auteursrecht worden beschermd.

De nieuwe dataset is nog niet vrijgegeven en het is onduidelijk wanneer en hoe deze zal worden vrijgegeven. De boeken die het bevat zijn afkomstig van Google Boeken, het langetermijnboekscanproject van Google, dus Google zal betrokken zijn bij het vrijgeven van 'de brede toepassingen van deze schat aan boeken'.

Harvard University gaf in maart voor het eerst een voorproefje van het Institutional Data Initiative (IDI) en schetste haar plannen om een ‘vertrouwd kanaal voor juridische gegevens over kunstmatige intelligentie’ te creëren. Er was echter weinig nieuws over het programma tot de officiële lancering vandaag, waarbij IDI financiële steun kreeg van Microsoft en OpenAI.

Greg Leppert, uitvoerend directeur van IDI, zei dat de dataset bedoeld is om “het speelveld gelijk te maken” door zo’n enorme dataset open te stellen voor iedereen die grote taalmodellen (LLM’s) wil trainen, van onderzoekslaboratoria tot AI-startups.