Home Tehnoloģija AI aģenti ir šausmīgi ārštata darbinieki

AI aģenti ir šausmīgi ārštata darbinieki

10
0

Pat labākais mākslīgā intelekta aģenti ir diezgan bezcerīgi tiešsaistes ārštata darbā, liecina eksperiments, kas apstrīd ideju par AI masveida biroja darbinieku aizstāšanu.

Attālā darba indekss, jauns etalons, ko izstrādājuši pētnieki datu anotācijas uzņēmumā Scale AI un bezpeļņas AI drošības centrā (CAIS), mēra AI modeļu spēju automatizēt ekonomiski vērtīgu darbu.

Pētnieki sniedza vairākiem vadošajiem mākslīgā intelekta aģentiem virkni simulētu ārštata darbu un atklāja, ka pat labākie varēja veikt mazāk nekā 3 procentus no darba, nopelnot 1810 USD no iespējamā 143 991 USD. Pētnieki aplūkoja vairākus rīkus un atklāja, ka vispiemērotākais ir Manus no tāda paša nosaukuma ķīniešu starta, kam sekoja Groks no xAI, Klods no Anthropic, ChatGPT no OpenAI un Gemini no Google.

“Es ceru, ka tas sniegs daudz precīzākus iespaidus par to, kas notiek ar AI iespējām,” saka Dens Hendriks, CAIS direktors. Viņš piebilst, ka, lai gan daži aģenti pēdējā gada laikā ir ievērojami uzlabojušies, tas nenozīmē, ka tas turpināsies tādā pašā tempā.

Iespaidīgie AI sasniegumi ir izraisījuši spekulācijas par to, ka mākslīgais intelekts drīz pārsniegs cilvēka intelektu un aizvietos milzīgu skaitu darbinieku. Martā Anthropic izpilddirektors Dario Amodei ierosināja, ka 90 procenti kodēšanas darbojas būtu automatizēti dažu mēnešu laikā.

Iepriekšējie AI viļņi ir iedvesmojuši nepareizas prognozes par darba pārvietošanu, piemēram, attiecībā uz nenovēršama radiologu nomaiņa ar AI algoritmiem.

Pētnieki radīja virkni ārštata uzdevumu, izmantojot pārbaudītus Upwork darbiniekus. Uzdevumi aptver virkni darbu, tostarp grafisko dizainu, video rediģēšanu, spēļu izstrādi un administratīvus darbus, piemēram, datu nokasīšanu. Viņi apvienoja katra darba aprakstu ar darba veikšanai nepieciešamo failu direktoriju un cilvēka izstrādāta pabeigta projekta piemēru.

Hendriks saka, ka, lai gan AI modeļi pēdējos gados ir kļuvuši labāki kodēšanas, matemātikas un loģiskās domāšanas jomā, tiem joprojām ir grūti izmantot dažādus rīkus un veikt sarežģītus uzdevumus, kas ietver vairākas darbības. “Viņiem nav ilgtermiņa atmiņas, un viņi nevar nepārtraukti mācīties no pieredzes. Viņi nevar apgūt prasmes darbā kā cilvēki,” viņš saka.

Analīze piedāvā pretstatu ekonomikas darba kritērijam, ko septembrī piedāvāja OpenAI IKPvalkura mērķis ir novērtēt ekonomiski vērtīgu darbu. Saskaņā ar GDPval AI modeļi, piemēram, GPT-5, tuvojas cilvēka spējām 220 uzdevumos dažādos biroja darbos. OpenAI komentārus nesniedza.

avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here