Home Tehnoloģija Studija apsūdz LM arēnu par palīdzības sniegšanu AI Labs spēlē savu etalonu

Tehnoloģija

Studija apsūdz LM arēnu par palīdzības sniegšanu AI Labs spēlē savu etalonu

1 maijs 2025

Jauns papīrs Sākot no AI Lab Cohere, Stenforda, MIT un AI2 apsūdz LM Area, kas ir populārā sabiedriskā mēroga AI Benchmark Chatbot arēna, organizācija, kas palīdz izvēlēties AI uzņēmumu grupai labāku līderu saraksta punktu skaitu uz konkurentu rēķina.

Pēc autoru domām, LM Area ļāva dažiem nozares vadošiem AI uzņēmumiem, piemēram, Meta, Openai, Google un Amazon, privāti pārbaudīt vairākus AI modeļu variantus, pēc tam nepublicēt zemāko izpildītāju rādītājus. Tas šiem uzņēmumiem ļāva vieglāk sasniegt platformas līderu sarakstu, lai gan iespēja netika dota katrai firmai, saka autori.

“Tikai nedaudzi [companies] tika teikts, ka šī privātā pārbaude ir pieejama un privātās pārbaudes apjoms, ko daži [companies] Saņemts ir tikai tik daudz vairāk nekā citi, ”intervijā TechCrunch sacīja Cohere AI Analysis un pētījuma līdzautore Sara Hooker.

Chatbot arēna, kas izveidots 2023. gadā kā akadēmisks pētniecības projekts no UC Berkeley, ir kļuvusi par AI uzņēmumu etalonu. Tas darbojas, ievietojot atbildes no diviem dažādiem AI modeļiem, kas atrodas blakus “kaujā”, un lūdz lietotājiem izvēlēties labāko. Nav nekas neparasts, ka ar arēnā sacenšas ar pseidonīmu, kas arēnā sacenšas.

Balsojumi laika gaitā veicina modeļa punktu skaitu – un līdz ar to tās izvietojums Chatbot arēnas līderu sarakstā. Lai gan daudzi komerciālie aktieri piedalās Chatbot arēnā, LM arēna jau sen apgalvo, ka tās etalons ir objektīvs un godīgs.

Tomēr tas nav tas, ko raksta autori saka, ka viņi ir atklājuši.

Viens AI uzņēmums Meta no janvāra līdz martam spēja privāti pārbaudīt 27 modeļu variantus Chatbot arēnā, kas pirms tam, kad tika parādīts tehnoloģiju giganta LLAMA 4 izlaidums, apgalvo autori. Palaišanas laikā Meta tikai publiski atklāja viena modeļa punktu skaitu – modeli, kas notika, lai sarindotos netālu no Chatbot arēnas līderu saraksta.

TechCrunch pasākums

Bērklijs, Kalifornija
|
5. jūnijs

Rezervējiet tūlīt

No pētījuma izvilkta diagramma. (Kredīts: Singh et al.)

E-pastā TechCrunch LM arēnas līdzdibinātājs un UC Berkeley profesors Ion Stoica sacīja, ka pētījums ir pilns ar “neprecizitātēm” un “apšaubāmu analīzi”.

“Mēs esam apņēmušies veikt godīgus, uz sabiedrību balstītus novērtējumus un aicinām visus modeļu pakalpojumu sniedzējus iesniegt vairāk modeļu testēšanai un uzlabot viņu sniegumu pēc cilvēku izvēles,” sacīja LM Area paziņojumā, kas sniegts TechCrunch. “Ja modeļa nodrošinātājs izvēlas iesniegt vairāk testu nekā cits modeļa nodrošinātājs, tas nenozīmē, ka otrā modeļa nodrošinātājs tiek izturēts negodīgi.”

Armands Joulins, galvenais pētnieks Google Deepmind, atzīmēja arī a Ievietojiet uz x ka daži no pētījuma numuriem bija neprecīzi, apgalvojot, ka Google nosūtīja tikai vienu Gemma 3 AI modeli uz LM arēnu pirmsizlaides pārbaudei. Hooker reaģēja uz Džoulinu uz X, apsolot, ka autori izdarīs labojumu.

Domājams, labvēlīgās laboratorijas

Raksta autori sāka veikt savus pētījumus 2024. gada novembrī pēc tam, kad uzzināja, ka dažiem AI uzņēmumiem, iespējams, tiek dota preferenciāla piekļuve Chatbot arēnai. Kopumā viņi izmērīja vairāk nekā 2,8 miljonus tērzēšanas arēnas cīņu piecu mēnešu posmā.

Autori saka, ka viņi ir atraduši pierādījumus tam, ka LM arēna ļāva noteiktiem AI uzņēmumiem, ieskaitot Meta, Openai un Google, savākt vairāk datu no Chatbot Area, to modeļiem parādoties lielākā skaitā “Battles”. Šis paaugstinātais paraugu ņemšanas līmenis šiem uzņēmumiem deva negodīgas priekšrocības, apgalvo autori.

Papildu datu izmantošana no LM arēnas varētu uzlabot modeļa veiktspēju vietnē Area Laborious, vēl viena etalona LM arēna, par kuru tiek saglabāta 112%. Tomēr LM arēna teica a Ievietojiet uz x Šī arēnas cietā veiktspēja tieši nav tieši korelēta ar Chatbot arēnas sniegumu.

Hokers sacīja, ka nav skaidrs, cik daži AI uzņēmumi, iespējams, ir saņēmuši prioritāru piekļuvi, guess gan tas, ka LM arēnā ir pienākums palielināt savu caurspīdīgumu neatkarīgi no tā.

A Ievietojiet uz xLM Arēna sacīja, ka vairāki no dokumentā esošajiem apgalvojumiem neatspoguļo realitāti. Organizācija norādīja uz a emuāra ieraksts Tā publicēja iepriekš šonedēļ, norādot, ka modeļi no Main laboratorijām parādās vairāk Chatbot arēnas cīņās, nekā liecina pētījums.

Viens svarīgs pētījuma ierobežojums ir tas, ka tas paļāvās uz “pašidentifikāciju”, lai noteiktu, kuri AI modeļi bija privātas pārbaudes Chatbot arēnā. Autori vairākas reizes pamudināja AI modeļus par savu izcelsmes uzņēmumu un paļāvās uz modeļu atbildēm, lai tos klasificētu – metodi, kas nav droša.

Tomēr Hokers sacīja, ka tad, kad autori sazinājās ar LM arēnu, lai dalītos savos sākotnējos atklājumos, organizācija tos neapstrīdēja.

TechCrunch sazinājās ar Meta, Google, Openai un Amazon – kas visi tika pieminēti pētījumā – komentāriem. Neviens nekavējoties neatbildēja.

LM arēna karstā ūdenī

Rakstā autori aicina LM arēnu īstenot vairākas izmaiņas, kuru mērķis ir padarīt Chatbot arēna vairāk “godīgāku”. Piemēram, autori saka, ka LM arēna varētu noteikt skaidru un caurspīdīgu ierobežojumu privāto testu skaitam, ko var veikt AI laboratorijas, un publiski atklāt rezultātus no šiem testiem.

A Ievietojiet uz x, LM Area noraidīja šos ieteikumus, apgalvojot, ka tā ir publicējusi informāciju par pirmsizlaides pārbaudi Kopš 2024. gada martaApvidū Etalmonizēšanas organizācija arī sacīja, ka tai nav jēgas parādīt rādītājus par pirmsizlaides modeļiem, kas nav publiski pieejami ”, jo AI kopiena nevar pārbaudīt modeļus paši.

Pētnieki arī saka, ka LM arēna varētu pielāgot Chatbot arēnas paraugu ņemšanas ātrumu, lai nodrošinātu, ka visi arēnā esošie modeļi parādās vienādos kaujas skaitā. LM arēna ir publiski uztvērusi šo ieteikumu un norādīja, ka tā izveidos jaunu paraugu ņemšanas algoritmu.

Papīrs nāk nedēļas pēc tam, kad Meta tika pieķerts spēļu etalonos Chatbot arēnā ap iepriekšminēto LLAMA 4 modeļu palaišanu. Meta optimizēja vienu no “sarunvalodas” LLAMA 4 modeļiem, kas palīdzēja panākt iespaidīgu rezultātu Chatbot Area līderu sarakstā. Guess uzņēmums nekad neizlaida optimizētu modeli – un vaniļas versija beidzās ar daudz sliktāku darbību Chatbot Area.

Tajā laikā LM arēna sacīja, ka Meta vajadzēja būt caurspīdīgākai pieeja etalonuzdevumu veidošanai.

Šā mēneša sākumā LM arēna paziņoja, ka tā ir Uzņēmuma uzsākšanaar plāniem piesaistīt kapitālu no investoriem. Pētījums palielina privātās etalona organizācijas pārbaudi – un vai viņiem var uzticēties, lai novērtētu AI modeļus, bez korporatīvas ietekmes uz procesu.

avots

Studija apsūdz LM arēnu par palīdzības sniegšanu AI Labs spēlē savu etalonu

Domājams, labvēlīgās laboratorijas

LM arēna karstā ūdenī

LEAVE A REPLY Cancel reply

jaunākais ieraksts

Mēs sazinamies ar Ķīnu par tarifu sarunām: Pekinas štata plašsaziņas līdzekļi

“Marlow Homicide Membership” izmeklē jaunu noslēpumu ar pirmās sezonas 2. attēlu...

Es pārbaudīju vīrusu miega austiņas, kuras veidojuši bijušie inženieri, un tie...

Goberts dominē kā feisty Minesota Timberwolves beidzas La Lakers sezona

Kamala Hariss nāk nažus pret Trumpu pirmajā runā kopš aiziešanas no...

‘Tas ir mugurkaula krāns’ Will ‘iet uz 11’, šūpojoties ar zelta...

Šie ir labākie kameras tālruņi 2025. gadā, kurus mēs pārbaudījām

Gavins Makkenna, Tigers slaucīt viesuļvētras, nopelnīt vietu WHL finālā

Šis startēšana pārvērš miskasti par dizaineru objektiem – kas ir parādīti...

Meg Ryan 19,5 miljonu ASV dolāru iekšpusē Montecito savrupmāja: fotogrāfijas