Home Tehnoloģija Labākie AI aģenti ir šausmīgi ārštata darbinieki – pagaidām

Labākie AI aģenti ir šausmīgi ārštata darbinieki – pagaidām

25
0

Mininyx Doodle/iStock/Getty Photographs Plus

Sekojiet ZDNET: Pievienojiet mūs kā vēlamo avotu Google tīklā.


ZDNET galvenās atziņas

  • Saskaņā ar jaunu pētījumu labākajiem AI aģentiem neizdodas ārštata darbā.
  • Pētījumā tika novērtēti Gemini 2.5 Professional, GPT-5 un citi līdzekļi.
  • Gandrīz puse ASV darbaspēka 2025. gadā strādāja ārštata darbā.

Ja esat ārštata darbinieks un esat bijis stresā par iespēju zaudēt darbu mākslīgā intelekta dēļ, varat būt mierīgs — vismaz pagaidām.

Saskaņā ar jaunu pētījums ko veica Scale AI un AI drošības centrs, visprogresīvākie AI aģenti pašlaik spēj automatizēt tikai mazāk nekā 3% no uzdevumiem, kas tiek prasīti vidējam neatkarīgam darbuzņēmējam, “nespējot pabeigt lielāko daļu projektu tādā līmenī, kas tiktu pieņemts kā pasūtījuma darbs reālistiskā ārštata vidē”, raksta autori.

Arī: Vai vēlaties labākas ChatGPT atbildes? Izmēģiniet šo pārsteidzošo triku, saka pētnieki

Attālā darba indekss

Pētījums, kas ceturtdien tika publicēts pirmsdrukas serverī arXiv un vēl nav pārskatīts, nosaka AI sistēmu testēšanas etalonu, ko tas sauc par attālā darba indeksu (RLI).

Šis kritērijs kalpo kā kvalitatīvs ietvars, lai novērtētu AI sistēmu spēju veikt ekonomiski vērtīgu darbu laikā, kad daži tehnoloģiju līderi ir izteikuši plašus apgalvojumus par AI graujošo ietekmi uz darba tirgu. Piemēram, Anthropic izpilddirektors Dario Amodejs maijā sacīja, ka šī tehnoloģija nākamo piecu gadu laikā varētu aizstāt līdz pat pusei visu balto apkaklīšu darbavietu.

Kā norāda nosaukums, RLI ir īpaši izstrādāts, lai novērtētu AI potenciālu automatizēt attālinātu, ārštata darbu. Ikviens, kurš kādreiz ir strādājis kā ārštata darbinieks, var apliecināt, šis ir darba veids, kas prasa augstu pašpietiekamības un organizācijas līmeni, kā arī citas prasmes. Tas ir kļuvis arī diezgan populārs: nesen aptauja atklāja, ka tikai nedaudzi no 73 miljoniem amerikāņu 2025. gadā strādāja ārštata darbu, kas veido gandrīz 43% no kopējais ASV darbaspēks no augusta.

AI un ekonomiski vērtīgs darbaspēks

Jaunajā pētījumā tika novērtēta sešu nozarē vadošo AI aģentu darbība, tostarp Google Gemini 2.5 Professional, OpenAI GPT-5 un Anthropic’s Sonnet 4.5.

Aģentus, kas atšķirībā no ierobežotākiem tērzēšanas robotiem spēj mijiedarboties ar digitālajiem rīkiem (piemēram, tīmekļa pārlūkprogrammu) un veikt sarežģītus, daudzpakāpju uzdevumus, tehnoloģiju izstrādātāji plaši pozicionē kā būtisku evolūcijas soli ceļā uz mākslīgā vispārējā intelekta (AGI) attīstību.

Turklāt: AI, visticamāk, mainīs jūsu darbu, nevis to aizstās, atklāj Certainly

AGI ir neprecīzi definēts termins: eksperti diskutē par to, ko nozīmētu, ja datoram būtu patiesa “vispārējā inteliģence” un vai šāds varoņdarbs vispār ir iespējams. Tomēr viena no visizplatītākajām AGI definīcijām, kas tiek izplatīta tehnoloģiju aprindās, ir sistēma, kas var pielīdzināt vai pārspēt cilvēkus, veicot jebkuru ekonomiski vērtīgu uzdevumu.

Ja mēs šo definīciju ņemam par sākumpunktu, jaunais RLI pētījums liecina, ka mēs, visticamāk, esam tālu no patiesas AGI veidošanas. Pēc autoru domām, katrs no sešiem pētījumā pārbaudītajiem modeļiem “nespēj autonomi izpildīt attālinātā darba dažādās prasības”.

Modeļi tika novērtēti 23 ārštata darba kategorijās, tostarp grafiskais dizains, produktu dizains, datorizētais dizains (CAD) un spēļu izstrāde. Šīs kategorijas un ar tām saistītās prasmju prasības noteica pētnieki, izmantojot ārštata platformas, piemēram, Upwork, “nosakot ekonomiskās vērtības etalonu un aptverot reālo attālo darba tirgu daudzveidību un sarežģītību”.

Arī: labākie bezmaksas AI kursi un sertifikāti prasmju uzlabošanai 2025. gadā — un es tos visus esmu izmēģinājis

Modeļiem tika iesniegts projekta īss apraksts, kā arī visi nepieciešamie faili, lai pabeigtu galīgos nodevumus, kurus pēc tam pētnieki manuāli novērtēja, salīdzinot ar tā paša projekta nodevumiem, ko izveidoja ārštata darbinieki. Mērķis, pēc pētnieku domām, bija noskaidrot, “vai AI nodevums pabeidz projektu vismaz tikpat labi kā cilvēka zelta standarts, jo īpaši, vai saprātīgs klients pieņemtu nodevumu kā pasūtīto darbu.”

Pēc tam aģenti tika salīdzināti, izmantojot Elo metriku. Manuss ieguva visaugstāko punktu skaitu ar automatizācijas līmeni 2,5%, kam seko Grok 4 un Claude Sonnet 2,5, kuriem abiem bija 2,1%.

screen-shot-2025-11-04-at-11-37-58-am.png

Attālā darba indekss: attālinātā darba AI automatizācijas mērīšana

ZDNET ekrānuzņēmums

Līdzņemamā

Populāri stāsti par mākslīgā intelekta automatizāciju var likt cilvēka darbam justies viendimensionālākam, nekā tas ir patiesībā. AI nozarei cenšoties izstrādāt sistēmas, kas spēj līdzināties cilvēka smadzenēm vai pārspēt tās, mēs arvien vairāk novērtējam smadzeņu ievērojamo elastību, dinamismu un sarežģītību.

Dažus darbus vairāk var automatizēt nekā citus, taču lielākajai daļai ir nepieciešama tehnisko un starppersonu prasmju apvienošana, un tāpēc tie ir sarežģītāki, nekā to spēj veikt mūsdienu AI sistēmas.

Tāpat: saskaņā ar Microsoft datiem šīm darbavietām ir vislielākais AI pārņemšanas dangers

Pat mūsdienu vismodernākās AI sistēmas, kas ir paredzētas kā vispārējas nozīmes aģenti, spēj veikt tikai šauru uzdevumu apakškopu, kas nepieciešamas lielākajai daļai cilvēku. Kā savā ziņojumā rakstīja jaunā RLI pētījuma autori, nozares vadošo aģentu nespēja automatizēt mazāk nekā 3% no vidusmēra ārštata darbiniekam nepieciešamajiem uzdevumiem atklāj “smagu plaisu”, kas atdala mākslīgā intelekta solījumu un faktiskās, pierādāmās iespējas. Tas jo īpaši attiecas uz to, ka RLI neaptver daudzus vairuma ārštata darbinieku ikdienas darba dzīves aspektus, piemēram, saziņu un sarunas ar klientiem.

Un atkal šīs ir pirmās dienas. Aģentu iespējas strauji paplašinās, un lielākie tehnoloģiju izstrādātāji iegulda miljardus jaunu, progresīvāku modeļu apmācībā. Iespējams, ka pēc pieciem vai desmit gadiem uzņēmumi pieņems darbā mākslīgā intelekta ārštata darbiniekus. Taču pagaidām darbuzņēmējiem, šķiet, nav nekāda reāla iemesla baidīties no AI darba pļāvēja.

Saņemiet rīta populārākos stāstus savā iesūtnē katru dienu, izmantojot mūsu Tehnisko atjauninājumu biļetens.



avots