AI aģenti ir šausmīgi ārštata darbinieki

29 oktobris 2025

Pat labākais mākslīgā intelekta aģenti ir diezgan bezcerīgi tiešsaistes ārštata darbā, liecina eksperiments, kas apstrīd ideju par AI masveida biroja darbinieku aizstāšanu.

Attālā darba indekss, jauns etalons, ko izstrādājuši pētnieki datu anotācijas uzņēmumā Scale AI un bezpeļņas AI drošības centrā (CAIS), mēra AI modeļu spēju automatizēt ekonomiski vērtīgu darbu.

Pētnieki sniedza vairākiem vadošajiem mākslīgā intelekta aģentiem virkni simulētu ārštata darbu un atklāja, ka pat labākie varēja veikt mazāk nekā 3 procentus no darba, nopelnot 1810 USD no iespējamā 143 991 USD. Pētnieki aplūkoja vairākus rīkus un atklāja, ka vispiemērotākais ir Manus no tāda paša nosaukuma ķīniešu starta, kam sekoja Groks no xAI, Klods no Anthropic, ChatGPT no OpenAI un Gemini no Google.

“Es ceru, ka tas sniegs daudz precīzākus iespaidus par to, kas notiek ar AI iespējām,” saka Dens Hendriks, CAIS direktors. Viņš piebilst, ka, lai gan daži aģenti pēdējā gada laikā ir ievērojami uzlabojušies, tas nenozīmē, ka tas turpināsies tādā pašā tempā.

Iespaidīgie AI sasniegumi ir izraisījuši spekulācijas par to, ka mākslīgais intelekts drīz pārsniegs cilvēka intelektu un aizvietos milzīgu skaitu darbinieku. Martā Anthropic izpilddirektors Dario Amodei ierosināja, ka 90 procenti kodēšanas darbojas būtu automatizēti dažu mēnešu laikā.

Iepriekšējie AI viļņi ir iedvesmojuši nepareizas prognozes par darba pārvietošanu, piemēram, attiecībā uz nenovēršama radiologu nomaiņa ar AI algoritmiem.

Pētnieki radīja virkni ārštata uzdevumu, izmantojot pārbaudītus Upwork darbiniekus. Uzdevumi aptver virkni darbu, tostarp grafisko dizainu, video rediģēšanu, spēļu izstrādi un administratīvus darbus, piemēram, datu nokasīšanu. Viņi apvienoja katra darba aprakstu ar darba veikšanai nepieciešamo failu direktoriju un cilvēka izstrādāta pabeigta projekta piemēru.

Hendriks saka, ka, lai gan AI modeļi pēdējos gados ir kļuvuši labāki kodēšanas, matemātikas un loģiskās domāšanas jomā, tiem joprojām ir grūti izmantot dažādus rīkus un veikt sarežģītus uzdevumus, kas ietver vairākas darbības. “Viņiem nav ilgtermiņa atmiņas, un viņi nevar nepārtraukti mācīties no pieredzes. Viņi nevar apgūt prasmes darbā kā cilvēki,” viņš saka.

Analīze piedāvā pretstatu ekonomikas darba kritērijam, ko septembrī piedāvāja OpenAI IKPvalkura mērķis ir novērtēt ekonomiski vērtīgu darbu. Saskaņā ar GDPval AI modeļi, piemēram, GPT-5, tuvojas cilvēka spējām 220 uzdevumos dažādos biroja darbos. OpenAI komentārus nesniedza.

avots

AI aģenti ir šausmīgi ārštata darbinieki

LEAVE A REPLY Cancel reply

jaunākais ieraksts

Arsenāls pret Braitonu tiešraide: kā bez maksas skatīties Carabao Cup futbolu...

Pēc pašnāvībām, tiesas prāvām un Džefrija Epšteina tērzēšanas robota Character.AI aizliedz...

Liverpool vs. Crystal Palace tiešraides straume: kā bez maksas skatīties Carabao...

Reģistrējieties PlayStation Plus Proper Meow, lai novembrī varētu spēlēt Stray

Neo vēlas iekļūt Robotics Slop laikmetā

Swansea Metropolis pret Man Metropolis tiešraide: kā bez maksas skatīties Carabao...

Amazon Echo Studio pret Echo Dot Max: kuru jums vajadzētu iegādāties?

Microsoft Azure darbības pārtraukums parāda mākoņa neveiksmju skarbo realitāti

Zinātnieki atrod 6 miljonus gadu vecu gaisu, kas iesprostots Zemes vecākajā...

Vai vēlaties ilgāku iPhone akumulatora darbības laiku? Deaktivizējiet šos 3 iestatījumus