Pēc Anthropic 1,5 miljardu dolāru autortiesību norēķiniem AI nozare samierinās ar savu apmācības datu problēmu. Ir pat 40 citas neizlemtās lietas kas meklē zaudējumus par nelicencētiem datiem – ieskaitot tādu, kas ved Midjourniju tiesā Supermena attēlu izveidošanaApvidū
Bez kaut kādas licencēšanas sistēmas AI uzņēmumi varētu saskarties ar autortiesību tiesas prāvu lavīnu, kas Daži uztraukties pastāvīgi atmetīs nozari.
Tagad tehnologu un tīmekļa izdevēju grupa ir laidusi klajā sistēmu, kas ļautu datu licencēt masīvā mērogā – nodrošinot, ka AI uzņēmumi tos uzņems. Saukts par Real Simple Licensing (RSL), sistēmu jau atbalsta tādi galvenie tīmekļa izdevēji kā Reddit, Quora un Yahoo. Tagad jautājums ir, ja ar šo impulsu pietiks, lai panāktu galvenās AI laboratorijas uz sarunu galda.
Saskaņā ar RSL līdzdibinātāju Eckart Walther, kurš arī kopīgi izveidoja RSS standartu, mērķis bija izveidot apmācības datu licencēšanas sistēmu, kas varētu mērogot visā internetā. “Mums ir jābūt ar mašīnlasāmiem licencēšanas līgumiem par internetu,” Valters sacīja TechCrunch. “Tas tiešām ir tas, ko RSL atrisina.”
Gadiem ilgi tādas grupas kā Datu kopu pakalpojumu sniedzēju alianse ir centusies uz skaidrāku savākšanas praksi, taču RSL ir pirmais mēģinājums veikt tehnisko un juridisko infrastruktūru, kas varētu likt tai darboties praksē. Tehniskajā pusē, RSL protokols Izklaidē īpašus licencēšanas terminus, ko izdevējs var iestatīt savam saturam, neatkarīgi no tā, vai tas nozīmē, ka AI uzņēmumiem ir nepieciešama pielāgota licence vai jāņem vērā radošās kopienas noteikumi. Tīmekļa vietnēs piedalās termini kā daļa no sava “robots.txt” faila iepriekš sagatavotā formātā, padarot to vienkāršu, lai identificētu, kuri dati ietilpst, saskaņā ar kuru noteikumiem.
No juridiskās puses RSL komanda ir izveidojusi kolektīvu licencēšanas organizāciju, RSL kolektīvskas var vienoties par noteikumiem un savākt autoratlīdzību, līdzīgi kā mūziķu vai MPLC filmām. Tāpat kā mūzikā un filmās, mērķis ir sniegt licences devējiem vienotu kontaktpunktu par autoratlīdzības samaksu un sniegt tiesnešus, kā noteikt noteikumus ar desmitiem potenciālo licencētāju vienlaikus.
Vairāki tīmekļa izdevēji jau ir pievienojušies kolektīvam, ieskaitot Yahoo, Reddit, Medium, O’Reilly Media, Ziff Davis (Mashable un CNET īpašnieks), interneta zīmoli (WebMD īpašnieks), People Inc. un The Daily Beast. Citi, piemēram, ātri, Quora un Adweek, atbalsta standartu, nepievienojoties kolektīvam.
TechCrunch pasākums
Sanfrancisko
|
2025. gada 27.-29. Oktobris
Proti, RSL kolektīvā ir daži izdevēji, kuriem jau ir licencēšanas darījumi – īpaši Reddit, kas saņem Tiek lēsts, ka 60 miljoni ASV dolāru gadā no Google par apmācības datu izmantošanu. Nekas neliedz uzņēmumiem samazināt savus darījumus RSL sistēmā, tāpat kā Taylor Swift var noteikt īpašus licencēšanas nosacījumus, vienlaikus ar ASCAP caur honorāru savācot. Bet izdevējiem, kas ir pārāk mazi, lai izdarītu savus darījumus, RSL kolektīvie noteikumi, visticamāk, būs vienīgā iespēja.
Bet, lai gan tas ir pietiekami viegli, lai noteiktu, kad dziesma ir atskaņota, AI modeļi rada unikālas problēmas, kad ir jāizdomā, kad honorāriem ir paredzēts noteiktam apmācības datiem. Problēma ir vienkāršāka tādam produktam kā Google AI meklēšanas kopsavilkumi, kas reālā laikā veido datus no tīmekļa un uztur stingru katra fakta piedēvēšanu.
Bet, ja apmācība nav reģistrēta, kad tā notiek, var būt gandrīz neiespējami apstiprināt, ka konkrētais dokuments ir ielikts LLM. Tas ir īpaši izaicinoši, ja izdevēji lūdz maksāt par sevi, nevis saņemt segu maksu-iespēju, ko piedāvā viena no akciju RSL licencēm.
Tomēr RSL veidotāji uzskata, ka AI uzņēmumi spēs pārvaldīt grūtības. “Daži no viņu jau noslēgtajiem licencēšanas līgumiem ir pieprasījuši, lai viņi varētu par to ziņot, tāpēc tas ir iespējams,” saka Dougs Līds, RSL līdzdibinātājs un bijušais IAC Publishing izpilddirektors. “Tam nav jābūt perfektam. Tam vienkārši jābūt pietiekami labam, lai cilvēki samaksātu.”
Lielāks jautājums ir, vai AI uzņēmumi izmantos sistēmu. Kā redzami tādi uzņēmumi kā Scaleai un Mercor, Frontier Labs nav problēmu maksāt par datiem, taču tīmeklis tradicionāli tiek uzskatīts par lētu, zemas kvalitātes datu avotu. Izmantojot tādas datu kopas kā jau pieejamais parastais pārmeklēšana, tas var būt izaicinājums iegūt honorārus no kaut kā, lai laboratorijas būtu pieradušas iegūt bez maksas. Un kā Nesenais Dustup Starp CloudFlare un apjukuma šoviem nav vienkārši pateikt atšķirību starp tīmekļa skrāpēšanu un ar mašīnu pastiprinātu pārlūkošanu.
Kad es uzdodu jautājumu Līdsai, viņš norādīja uz nesenajiem AI vadītāju komentāriem, aicinot uz tādu sistēmu kā RSL – īpaši no Sundar Pichai pagājušā gada Dealbook samitāApvidū Neatkarīgi no tā, vai zvani uz licencēšanas sistēmu ir nopietni vai nē, RSL komanda plāno tos turēt pie tā. “Viņi visiem ir teikuši ārēji, kaut kas līdzīgs tam ir jābūt,” man teica Līds. “Mums ir nepieciešams protokols. Mums ir nepieciešama sistēma.”
Tagad viņi to var iegūt.