Home Tehnoloģija Widespread Crawl tiek apsūdzēts par maksas sienas satura padevi AI uzņēmumiem

Widespread Crawl tiek apsūdzēts par maksas sienas satura padevi AI uzņēmumiem

19
0

Ja esat kādreiz domājis, kā AI uzņēmumi, piemēram, Google, Anthropic, OpenAI un Meta, iegūst apmācību datus no tādiem maksas izdevējiem kā New York Instances, Vaduvai Washington Publishiespējams, beidzot saņemsim atbildi.

In detalizēta izmeklēšana The Atlantijas okeānsreportieris Alekss Reisners atklāj, ka vairāki lieli mākslīgā intelekta uzņēmumi ir klusi sadarbojušies ar Widespread Crawl Basis — bezpeļņas organizāciju, kas skrāpē tīmekli, lai pētniecības nolūkos izveidotu milzīgu publisko interneta arhīvu. Saskaņā ar ziņojumu Widespread Crawl, kuras datu bāze aptver vairākus petabaitus, ir efektīvi atvērusi aizmugures durvis, kas ļauj AI uzņēmumiem apmācīt savus modeļus par maksas saturu no lielākajām ziņu vietām. In emuāra ieraksts Šodien publicētais Widespread Crawl stingri noliedz apsūdzības.

The fonda vietne apgalvo, ka tā dati tiek vākti no brīvi pieejamām tīmekļa lapām. Wager tā izpilddirektors Ričards Skrenta pastāstīja Atlantijas okeāns viņš uzskata, ka AI modeļiem vajadzētu būt iespējai piekļūt visam internetā. “Arī roboti ir cilvēki,” sacīja Skrenta Atlantijas okeāns.

SKATĪT ARĪ:

Kalifornijā iedegas AI drošība, datu aizsardzība, Netflix klusums

AI tērzēšanas roboti, piemēram, ChatGPT un Google Gemini, ir izraisījuši krīzi žurnālistikas nozarē. AI tērzēšanas roboti iegūst informāciju no izdevējiem un kopīgo šo informāciju tieši ar lasītājiem, novēršot klikšķus un apmeklētājus no šiem izdevējiem. Šo fenomenu sauca par satiksmes apokalipse un AI armagedons. (Informācijas atklāšana: Ziff Davis, Mashable mātes uzņēmums, aprīlī iesniedza prasību pret OpenAI, apgalvojot, ka tas ir pārkāpis Ziff Davis autortiesības apmācībā un AI sistēmu darbībā.)

Kā norādīts Atlantijas okeāns ziņojumā daži ziņu izdevēji ir uzzinājuši par Widespread Crawl aktivitātēm, un daži ir bloķējuši fonda skrāpi, pievienojot norādījumu savas vietnes kodam. Tomēr tas aizsargā tikai turpmāko saturu, nevis visu, kas jau ir nokasīts.

Mashable gaismas ātrums

Vairāki izdevēji ir pieprasījuši Widespread Crawl noņemt viņu saturu no saviem arhīviem. Fonds ir paziņojis, ka tas ievēro prasības, kaut arī lēni, pateicoties milzīgajam datu apjomam, jo ​​viena organizācija kopīgo vairākus e-pasta ziņojumus no Widespread Crawl ar Atlantijas okeāns ka noņemšanas course of bija “50 procenti, 70 procenti un pēc tam 80 procenti pabeigti.” Tomēr Reisners atklāja, ka neviens no šiem noņemšanas pieprasījumiem, šķiet, nav izpildīts un ka Widespread Crawl arhīvi nav mainīti kopš 2016. gada.

Skrenta stāstīja Atlantijas okeāns ka arhīvu glabāšanai izmantotais faila formāts ir “paredzēts nemainīgs”, kas nozīmē, ka saturu nevar izdzēst pēc tā pievienošanas. Tomēr Reisners ziņo, ka vietnes publiskās meklēšanas rīks, kas ir vienīgais netehniskais veids, kā pārlūkot Widespread Crawl arhīvus, atgriež maldinošus rezultātus noteiktos domēnos, maskējot nokasītā un saglabātā satura apjomu.

Mashable vērsās pie Widespread Crawl, un komandas loceklis mums norādīja uz publisku emuāra ziņu no Skrentas. Tajā Skrenta noliedza apgalvojumus, ka organizācija maldinājusi izdevējus, norādot, ka tās tīmekļa rāpuļprogramma neapiet maksas sienas. Viņš arī uzsvēra, ka Widespread Crawl ir finansiāli neatkarīga un “neveic AI netīro darbu”.

Atlantijas okeāns izsaka vairākus nepatiesus un maldinošus apgalvojumus par Widespread Crawl Basis, tostarp apsūdzību, ka mūsu organizācija ir “melojusi izdevējiem” par mūsu darbībām,” teikts emuāra ierakstā. Turklāt tajā teikts: “Mūsu tīmekļa rāpuļprogramma, kas pazīstama kā CCBot, apkopo datus no publiski pieejamas tīmekļa lapas. Mēs neejam “aiz maksas sienām”, nepiesakāmies nevienā vietnē un neizmantojam nekādas metodes, kas paredzētas, lai izvairītos no piekļuves ierobežojumiem.

Tomēr, kā ziņo Reisners, Widespread Crawl iepriekš ir saņēmusi ziedojumus no OpenAI, Anthropic un citiem uz AI vērstiem uzņēmumiem. Tajā arī norādīts NVIDIA kā “līdzstrādnieks”. tīmekļa vietne. Reisners raksta, ka ne tikai vāc neapstrādātu tekstu, wager arī palīdz apkopot un izplatīt AI apmācības datu kopas — pat mitināt tās plašākai lietošanai.

Jebkurā gadījumā cīņa par to, kā AI nozare izmanto ar autortiesībām aizsargātus materiālus, nebūt nav beigusies. Piemēram, OpenAI joprojām ir vairāku lielāko izdevēju, tostarp izdevēju, tiesas prāvu centrā New York Instances un Mashable mātesuzņēmums Ziff Davis.

Tēmas
Mākslīgais intelekts

avots