Home Tehnoloģija Kā faktiski darbojas tīmekļa skrāpēšana – un kāpēc AI maina visu

Kā faktiski darbojas tīmekļa skrāpēšana – un kāpēc AI maina visu

15
0

Getty/Panithan Pholpanichrassameee

ZDNET galvenie pārņemšana

  • Net nokasīšanas pilnvaru cenu noteikšana, search engine optimisation, drošības, AI un pētniecības nozares.
  • AI nokasīšana apdraud vietnes izdzīvošanu, apejot satiksmes atgriešanos.
  • Uzņēmumi cīnās ar licencēšanu, algas sienām un kāpurķēžu blokiem.

Iegūstiet padziļinātu ZDNet Tech pārklājumu: Pievienojiet mūs kā vēlamo Google avotu Hroma un hroma pārlūkprogrammās.


Rūpnieciskās tīmekļa nokasīšanas pasaulē ir daži galvenie spēlētāji. Ak, jūs nezinājāt, ka ir rūpnieciskas tīmekļa nokasīšanas pasaule? Vai esmu ieguvis jums stāstu.

Sāksim ar tīmekļa nokasīšanas definēšanu. Tīmekļa nokasīšana ir prakse iegūt datus no tiešraidēm tīmekļa lapām – lapas, kuras publiski redz, apmeklējot vietni.

Arī: Apnicis ar AI nokasīšanu jūsu saturu? Šis atvērtā koda robotprogrammatūras bloķētājs var palīdzēt – lūk, kā

Tas atšķiras no datu iegūšanas, izmantojot programmatisku API (lietojumprogrammu programmēšanas interfeiss) zvanus, kurus ir pieejams tīmekļa lapas nodrošinātājs, vai no datu bāzes, vai cita lejupielādējama informācija.

Tīmekļa nokasīšana ir iegūti dati, kurus tīmekļa lapas īpašnieks nav oficiāli darījis pieejamu datu analīzei, un dažos gadījumos aktīvi nevēlas padarīt pieejamu ārējai datu analīzei.

Tīmekļa nokasīšanas piemērs

Apskatīsim piemēru. Pieņemsim, ka jūs esat pārdevējs ar 200 individuāliem produktiem, kurus jūs pārdodat tiešsaistē.

Jūsu produkti ir diezgan jutīgi pret cenu, proti, ja konkurents sāk pārdot līdzīgu produktu par zemāku cenu, jums jāspēj reaģēt un pazemināt arī cenu. Jums diezgan ātri jāspēj reaģēt uz tirgus spēkiem, tāpēc uzdevums daudziem darbiniekiem pastāvīgi atsvaidzināt simtiem tīmekļa lapu un atzīmēt rezultātus izklājlapā vienkārši nedarīs.

Jums ir nepieciešams automatizēts course of.

Arī: Apjukums saka, ka CloudFlare apsūdzības par “Stealth” AI nokasīšanu balstās uz mulsinošām kļūdām

Pieņemsim, ka jūsu, kā arī konkurenta produkti tiek pārdoti populārās tiešsaistes tirdzniecības vietās, piemēram, Amazon un Walmart. Abi šie tālākpārdevēji sniedz izsekošanas datus par jūsu produktiem, taču viņi ar jums nedalīsies ar jūsu konkurentu datiem.

Tomēr jums ir nepieciešami šie dati. Risinājums ir tīmekļa nokasīšana, izmantojot automatizētu procesu, lai apmeklētu tīmekļa lapas, kurās ir jūsu konkurentu produkti, un iegūt pašreizējo cenu informāciju no lapas pamatā esošās HTML struktūras. Pēc tam šos datus var ievadīt jūsu iekšējās datu bāzēs, un jūsu iekšējās sistēmas var attiecīgi atjaunināt jūsu cenas.

Šis skenēšanas cikls var notikt katru dienu vai pāris reizes nedēļā, saglabājot jūsu produktus konkurētspējīgu cenu un klientiem laimīgus.

Citas tīmekļa nokasīšanas lietojumprogrammas

Rūpnieciskā tīmekļa nokasīšana, kurā uzņēmumi nokasa tīmekli, tiek veikta dažādu iemeslu dēļ. Mēs tikko redzējām lietojumprogrammu, kurā uzņēmums izmanto tīmekļa nokasīšanu, lai iegūtu konkurences informāciju, kas virza biznesa ieskatu un informētu lēmumu pieņemšanu.

Papildus dinamiskai cenu noteikšanai uzņēmumi, iespējams, vēlēsies skaidri apskatīt pieejamo inventāru un pat jaunus konkurentu produktu sarakstus. Viņi varētu arī vēlēties sekot līdzi labākajiem produktiem, pārskatiem un daudz ko citu.

Daži uzņēmumi izmanto tīmekļa nokasīšanu, lai sniegtu datus kā pakalpojumu, neatkarīgi no tā, vai tie ir nekustamā īpašuma tirgus dati, pārdošanas potenciālie pircēji vai citi dati, kas citiem uzņēmumiem ir noderīgi.

Ja kādreiz esat izmantojis search engine optimisation uzraudzības rīku vai atslēgvārdu ranžēšanas rīku, jūs, iespējams, esat bijis tīmekļa izkrāpšanas datu patērētājs kā pakalpojums. Uzņēmumiem, kas nodrošina šos pakalpojumus, ir jāiz skenē tiešās vietnes (piemēram, Google) un jāsamazina informācija, kas pēc tam tiek klasificēta un apstrādāta, lai nodrošinātu atjauninātu search engine optimisation analītiku.

Arī: Kā atbrīvoties no AI pārskatiem Google meklēšanā: 4 vienkārši veidi

Tīmekļa nokasīšanai ir arī drošības un intelektuālā īpašuma aizsardzības lietojumprogrammas. Tiem, kuriem ir vērtīgi zīmoli, ir attaisnojums, skenējot tiešraides vietņu tīmekļa lapas (kā arī citas vietņu klases) par jūsu zīmolu nepiemērotu vai nelikumīgu izmantošanu.

Līdz ASV Tirdzniecības departaments Saka viltošana ir “lielākais noziedzīgais uzņēmums pasaulē”, liekot aplēses par pirātām un viltotām precēm gandrīz nesaprotamās USD 1,7 līdz 4,5 USD triljons gadā.

Diemžēl valdība nevar apturēt šo izturēšanos, kas atsevišķiem zīmolu īpašniekiem atstāj savu aizsardzību. Svarīga tīmekļa nokasīšanas izmantošana šajā kontekstā ir viltotu produktu piedāvājuma identificēšana un pēc tam ierosināt procesu, lai šie viltotie produkti tiktu noņemti no tirgus.

Citi tīmekļa nokasīšanas lietojumi ietver draudu izlūkošanu, pikšķerēšanas aizsardzību, lidojumu un viesnīcu cenu noteikšanu, datu apkopošanu par tirgus izpētes tendencēm un pat datiem, ko izmanto AI apmācībai un akadēmiskiem pētījumiem.

Divas nokasīšanas monētas puses: meklēšana un AI

GetTyImages-1334264837-1

Getty/Weiquan Lin

Tīmekļa nokasīšana nav jauna. Patiesībā tas ir gandrīz tikpat vecs kā tīmeklis. Padomājiet par meklētājprogrammām. Lai jūs varētu kaut ko ierakstīt Google un atgūt tīmekļa lapu sarakstu, kurā ietilpst meklētā tēma, meklētājprogrammai jau ir jābūt ar spidei, nokasītām un indeksētām vietnēm, uz kurām jūs norāda.

Uz brīdi parunāsim par helmintiem (zarnu tārpiem). Tā ir smaga pāreja, wager es apsolu, ka tā ir būtiska.

Kad mans suns ēd poopu, mums ir jādod viņam zāļu atdalīšana, lai viņš nesaslimtu. Wager kā Helēna Helmbija izrāde žurnālā BMC imunoloģijā, labvēlīgas parazītiskās tārpu sugas, piemēram, Trichuris trichiura vai Necator Americanus var palīdzēt ārstēt autoimūnas traucējumus, piemēram, Krona slimību un čūlaino kolītu.

Meklētājprogrammas būtībā ir izdevīgi parazīti, kas dzīvo no atsevišķu vietņu pakalpojumu sniedzēju darba. Viņi ir izdevīgi, jo, kaut arī viņi nokasa tīmekli, viņi sūta trafiku atpakaļ uz vietnēm, kuras viņi nokasās. Visa search engine optimisation pasaule kļuva par lietu, jo trafika Google meklēšana nosūta vietnēm.

Arī: AI robotprogrammatūras nokasīt jūsu datus? Šis bezmaksas rīks dod šiem nepatīkamajiem rāpuļprogrammām

Wager tad tur ir ai. AI ir daudz līdzīgs parazītiskajam jūras nēģiem (Petromyzon Marinus), Agnatha (būtībā bez žurkas zivis). Jūras nēģi var izaugt līdz četrām pēdām gari. Viņi piestiprinās pie citām lielām zivīm ar sūkšanas muti, nokasa caurumu saimnieka ādā un barojas ar asinīm un ķermeņa šķidrumiem. Šīs radības izpostītas Lielo ezeru zvejniecības 20. gadsimta sākumā. Vēlākās metodes, ieskaitot indi, barjeras un slazdošanu, ir ievērojami samazinājusi problēmu.

AI nokasīšana ir parazītiska uzvedība, kas ir postoša vietņu trafiks. AIS piesaista informāciju (piemēram, no šī raksta) un pēc tam tā vietā, lai nosūtītu lasītājus uz vietni, kur autors uzrakstīja skaņdarbu, vienkārši iepazīstiniet ar šo informāciju, pirms kāds apmeklē vietni. Es daudz rakstīju par šo parādību un dažas aizsardzības, kuras sāk izmantot tajā, kā AI uzņēmumi slepeni vāc apmācības datus no tīmekļa (un kāpēc tas ir svarīgi). Tas ļaus jums paātrināt šo jautājumu dziļāk.

Gan Search, gan AI izmanto absolūti milzīgas nokasīšanas un zirnekļa operāciju rezultātus, wager viens sniedz priekšrocības Scrapees, wager otra peļņa no citu darba, vienlaikus iznīcinot viņu motivāciju turpināt darīt darbu.

(Informācijas atklāšana: Zdnet mātesuzņēmums Zifs Deiviss iesniedza 2025. gada aprīļa tiesas procesu pret Openai, apgalvojot, ka tas pārkāpj Ziff Davis autortiesības apmācībā un darbībā tās AI sistēmās.)

Tīmekļa nokasīšanas izaicinājumi

Tīmekļa nokasīšana rūpnieciskā līmenī prasa liela mēroga datu iegūšanas centienus. Tas parasti ietver automatizēta robotprogrammatūras izmantošanu, kas iegūst tīmekļa lapas analīzei un veidošanai. Diemžēl vismaz no tīmekļa skrāpju viedokļa vairums tīmekļa serveru atklāj un bloķē atkārtotas lapu piekļuves pat publiski saskaras ar lapām.

Ja e-komercijas uzņēmumam no mūsu gadījumu izpētes ir jāatjaunina cenu noteikšana 200 produktiem, tam, iespējams, būs jāizveido daži tūkstoši tīmekļa lapu izguves pieprasījumu. Šo izguves sējumu, iespējams, bloķētu jebkurš tīmekļa serveris, kurš saņem šos pieprasījumus.

Tas ļauj individuāliem uzņēmumiem diezgan grūti veikt savu tīmekļa nokasīšanu iekšēji. Tā vietā neliels uzņēmumu kadrs ir izveidojis, lai piedāvātu tīmekļa nokasīšanu kā pakalpojumu. Viņu pamatā ir spēja sadalīt tīmekļa nokasīšanas pieprasījumus starp tūkstošiem atsevišķu datoru, izmantojot tos kā datu iegūšanas tuvinājumus.

Kaut arī daži skrāpji izmanto uz datu centru balstītus starpniekserverus, prakse bieži tiek uzvarēta vietnes līmenī, jo visi šie nokasīšanas pieprasījumi nāk no viena IP adreses klastera vai ģeogrāfiskās atrašanās vietas. Tā vietā zelta standarta prakse ir izmantot atsevišķus dzīvojamos datorus visā mērķtiecīgā ģeogrāfijā (bieži mājas ASV).

Arī: Kā Chatgpt faktiski darbojas (un kāpēc tas ir bijis tik ļoti mainīgs)

Pēc tam nokasīšanas pieprasījumi tiek sadalīti starp mājas datoriem. Katrs dators iegūst tīmekļa lapu. Tad visi šie datori atdod šīs iegūtās lapas atpakaļ serveros pie Schema kā pakalpojumu sniedzēja, kurš pēc tam pārvalda datus klientiem.

Tas noved pie vēl viena acīmredzama izaicinājuma. Kā tieši jūs saņemat tūkstošiem līdz simtiem tūkstošu mājas datoru, lai strādātu kopā, lai veiktu tīmekļa nokasīšanu? Un kā jūs to darāt likumīgi un ētiski ar mājas datoru īpašnieku piekrišanu?

Pirmkārt, tas ne vienmēr tiek darīts likumīgi vai ētiski. Ļaunprātīgajai programmatūrai ir liela loma robotu izplatīšanā tūkstošiem vai pat miljoniem galalietotāju datoru, kurus pēc tam var “kontrolēt” veikt meklēšanas un nokasīšanas aktivitātes mērogā.

Tomēr ir daži uzņēmumi, kas likumīgi un ētiski skrāpē tīmeklī, vienlaikus apstrādājot datus lielā apjomā. Šie uzņēmumi maksā nelielu stipendiju gala lietotājiem, kuri brīvprātīgi atsakās no dažiem apstrādes jaudas cikliem un dažiem baitiem joslas platuma skrāpju klientu programmām, kuri nodrošina rezultātus atpakaļ uz centrālajām krātuvēm. Mēs savā rakstā pamanījām vienu šādu ētisko skrāpi, šis starpniekservera pakalpojumu sniedzējs, kuru es pārbaudīju, ir vislabākais tīmekļa skrāpēšanai – un tas nav iproyal vai marsproxies.

Kur mēs ejam no šejienes?

Kaut arī nokasīšana, iespējams, vienmēr būs datu iegūšanas prakses sastāvdaļa, daži uzņēmumi ir izvēlējušies padarīt savus datus pieejamus oficiāli un par maksu. Piemēram, Reddit dod Openai piekļuvi savai milzīgajai Fanbois bibliotēkai, kas kliedz vējā par šo vai šo tēmu.

Tā vietā, lai nokasītu Reddit bez apstiprinājuma, Openai varēs izmantot API (lietojumprogrammu programmēšanas interfeiss), lai efektīvāk iegūtu datus.

Protams, tas, vai mēs vēlamies, lai mūsu AIS balstītu savas zināšanas uz datiem no Reddit, ir pilnīgi vēl viena lieta.

Arī: Reddit bloķē interneta arhīvu no pārmeklēt savus datus – lūk, kāpēc

Reddit, protams, nav viens. Daudzi uzņēmumi ir sākuši savus datus licencēt AIS. Lai gan tas nesamazina nokasīšanu vai satiksmes eroziju, tas nodrošina kaut ko alternatīvu ieņēmumu plūsmu iepriekšējiem nokasīšanas aktivitātes upuriem.

Tas nav jautājums, kas aiziet promenade. Otru citu pieeju, lai aizstāvētos pret ļaunprātīgu nokasīšanu, ir ieviesusi Edge Trafika monitora CloudFlare. Apmēram 20% interneta trafika plūst caur tā serveriem. CloudFlare bloķē AI tīmekļa rāpuļprogrammas pēc noklusējuma (ja vien viņi nesaņem samaksu, ‘natch).

Galvenais ir tas, ka tīmekļa nokasīšana ir saistīta ar naudu. Neatkarīgi no tā, vai nauda tiek tērēta, apejot ierobežojumus, lai veiktu kāda cita darbu, vai arī nauda tiek tērēta, lai bloķētu šo darbību, vai nauda tiek tērēta, lai saņemtu atļauju iegūt šos datus un tādējādi samazināt īpašuma kopējo vērtību, tas viss attiecas uz naudu. Daudz un daudz naudas.

Tie no mums, kas strādā, lai izveidotu šo robotu patērēto saturu, ir tikai aizturēti.

Kā jūs jūtaties par pieaugošo AI uzņēmumu tīmekļa nokasīšanas izmantošanu, salīdzinot ar meklētājprogrammām? Vai jūs domājat, ka licencēšanas darījumi, piemēram, Reddit’s, ir taisnīgs risinājums, vai arī tie tikai leģitimizē vietņu trafika zaudēšanu? Vai tīmekļa nokasīšana vajadzētu stingrāk regulēt, vai arī tā ir nenovēršama mūsdienu interneta sastāvdaļa? Paziņojiet mums komentāros zemāk.


Jūs varat sekot maniem ikdienas projekta atjauninājumiem sociālajos medijos. Noteikti abonējiet mans iknedēļas atjaunināšanas biļetensun sekojiet man Twitter/X plkst @DavidgeWirtzFb plkst Facebook.com/davidgewirtzInstagram plkst Instagram.com/davidgewirtzuz blūzky plkst @Davidgewirtz.comun vietnē youtube plkst Youtube.com/davidgewirtztvApvidū



avots