Harvardas ir „Google“ išleis 1 milijoną viešojo domeno knygų kaip AI mokymo duomenų rinkinį

Harvardas ir „Google“ išleis 1 milijoną viešojo domeno knygų kaip


AI mokymo duomenys turi didelę kainą, kuri geriausiai tinka daug turinčioms technologijų įmonėms. Štai kodėl Harvardo universitetas planuoja išleisti duomenų rinkinį, apimantį maždaug 1 milijoną viešųjų knygų, apimančių žanrus, kalbas ir autorius, įskaitant Dickensą, Dante'ą ir Shakespeare'ą, kurie dėl savo amžiaus nebėra saugomi autorių teisių.

Naujasis duomenų rinkinys dar nepasiekiamas ir neaišku, kada ir kaip jis bus išleistas. Tačiau jame yra knygų, paimtų iš ilgalaikio „Google“ knygų nuskaitymo projekto „Google Books“, todėl „Google“ dalyvaus išleidžiant „šią lobį toli ir plačiai“.

Harvardas pirmą kartą erzino Institucinių duomenų iniciatyvą (IDI) dar kovo mėnesį, išdėstydamas savo planus sukurti „patikimą AI teisinių duomenų kanalą“. Tačiau iki oficialaus pristatymo šiandien, kai patvirtinta, kad IDI apima finansinę „Microsoft“ ir „OpenAI“ paramą, apie tai nebuvo daug girdėti.

IDI vykdomasis direktorius Gregas Leppertas teigia, kad duomenų rinkinys sukurtas siekiant „išlyginti žaidimo sąlygas“, atveriant tokį didžiulį duomenų rinkinį visiems – nuo ​​tyrimų laboratorijų iki AI pradedančiųjų įmonių – norintiems išmokyti savo didelius kalbų modelius (LLM).



Source link

Draugai: - Marketingo agentūra - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Miesto naujienos - Šeimos gydytojai - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai - Teniso treniruotės - Pranešimai spaudai -