Vai vēlaties gudrāku ieskatu iesūtnē? Reģistrējieties mūsu iknedēļas biļeteniem, lai iegūtu tikai to, kas ir svarīgi uzņēmuma AI, datu un drošības vadītājiem. Abonēt tūlīt
Etalona testēšanas modeļi ir kļuvuši būtiski uzņēmumiem, ļaujot tiem izvēlēties veiktspējas veidu, kas rezonē ar viņu vajadzībām. Guess ne visi etaloni ir veidoti vienādi, un daudzi testa modeļi ir balstīti uz statiskām datu kopām vai testēšanas vidi.
Pētnieki no iekļaušanas AI, kas ir saistīts ar Alibaba Skudru grupaierosināja jaunu modeļa līderu sarakstu un etalonu, kas vairāk koncentrējas uz modeļa sniegumu reālās dzīves scenārijos. Viņi apgalvo, ka LLMS ir nepieciešams līderu saraksts, kurā ņemts vērā, kā cilvēki tos izmanto un cik daudz cilvēku dod priekšroku savām atbildēm, salīdzinot ar statisko zināšanu iespējām modeļiem.
A papīrpapīrsPētnieki izklāstīja pamatu iekļaušanas arēnai, kas rindā modeļus, pamatojoties uz lietotāju vēlmēm.
“Lai risinātu šīs nepilnības, mēs ierosinām iekļaušanas arēnu-dzīvu līderu sarakstu, kas tilts reālās pasaules AI darbināmas lietojumprogrammas ar vismodernākajām LLM un MLLMS. Atšķirībā no kopīgām platformām, mūsu sistēma nejauši izraisa modeļa cīņas vairāku pagriezienu cilvēku-AI dialogos reālās pasaules lietotnēs,” teikts rakstā.
AI mērogošana sasniedz savas robežas
Strāvas robežas, pieaugošās marķiera izmaksas un secinājumu kavēšanās ir uzņēmuma AI pārveidošana. Pievienojieties mūsu ekskluzīvajam salonam, lai atklātu, kā ir labākās komandas:
- Enerģijas pārvēršana par stratēģisku priekšrocību
- Arhitektējot efektīvus secinājumus par reālu caurlaidspējas pieaugumu
- Konkurences IA atbloķēšana ar ilgtspējīgām AI sistēmām
Nostipriniet savu vietu, lai paliktu priekšā:
Iekļaušanas arēna izceļas starp citiem modeļa līderu sarakstiem, piemēram, MMLU un Openllm, pateicoties tās reālās dzīves aspektam un unikālajai modeļu ranžēšanas metodei. Tajā tiek izmantota Bredlija-terry modelēšanas metode, līdzīga tai, kuru izmanto Chatbot Enviornment.
Iekļaušanas arēna darbojas, integrējot etalonu AI lietojumprogrammās, lai apkopotu datu kopas un veiktu cilvēku vērtējumus. Pētnieki atzīst, ka “sākotnēji integrēto AI darbināmo lietojumprogrammu skaits ir ierobežots, taču mūsu mērķis ir izveidot atvērtu aliansi, lai paplašinātu ekosistēmu”.
Tagad vairums cilvēku ir pazīstami ar līderu sarakstiem un etaloniem, kas norāda uz katra jaunā LLM sniegumu, ko publiskojuši uzņēmumi, piemēram, OpenaiVerdzība Google vai AntropisksApvidū VentureBeat nav svešs šiem līderu sarakstiem, jo daži modeļi, piemēram, Xai GROK 3, parādiet viņu varenību, papildinot Chatbot Enviornment līderu sarakstu. Iekļaušanas AI pētnieki apgalvo, ka viņu jaunais līderu saraksts “nodrošina novērtējumus, kas atspoguļo praktiskus lietošanas scenārijus”, tāpēc uzņēmumiem ir labāka informācija par modeļiem, kurus viņi plāno izvēlēties.
Izmantojot Bredlija-terry metodi
Iekļaušanas arēna smeļas iedvesmu no Chatbot Enviornment, izmantojot Bredlija-terija metodi, savukārt Chatbot Enviornment vienlaikus izmanto ELO ranžēšanas metodi.
Lielākā daļa līderu sarakstu paļaujas uz ELO metodi, lai noteiktu klasifikāciju un sniegumu. Elo atsaucas uz ELO vērtējumu šahā, kas nosaka spēlētāju relatīvo prasmi. Gan ELO, gan Bredlijs-Terijs ir varbūtības ietvari, taču pētnieki sacīja, ka Bredlijs-terry rada stabilākus vērtējumus.
“Bradley-terry modelis nodrošina stabilu sistēmu, lai secinātu latentās spējas no pāra salīdzināšanas rezultātiem,” teikts rakstā. “Tomēr praktiskos scenārijos, jo īpaši ar lielu un pieaugošu modeļu skaitu, izsmeļošu pāru salīdzinājumu izredzes kļūst skaitļošanas ziņā pārmērīgas un resurss.
Lai rangu padarītu efektīvāku, saskaroties ar lielu skaitu LLM, iekļaušanas arēnā ir vēl divas sastāvdaļas: izvietojuma sakritības mehānisms un tuvuma paraugu ņemšana. Izvietojuma sakritības mehānisms novērtē sākotnējo jauno modeļu ranžēšanu, kas reģistrēti līderu sarakstā. Pēc tam tuvuma paraugu ņemšana ierobežo šos salīdzinājumus ar modeļiem tajā pašā trasta reģionā.
Kā tas darbojas
Tātad, kā tas darbojas?
Iekļaušanas arēnas ietvars integrējas ar AI darbināmām lietojumprogrammām. Pašlaik iekļaušanas arēnā ir pieejamas divas lietotnes: rakstzīmju tērzēšanas lietotne Joyland un Izglītības komunikācijas lietotne T-Field. Kad cilvēki izmanto lietotnes, uzvednes tiek nosūtītas uz vairākām LLM aizkulisēm, lai saņemtu atbildes. Pēc tam lietotāji izvēlas, kura atbilde viņiem patīk vislabāk, lai gan viņi nezina, kurš modelis radīja atbildi.
Sistēma apsver lietotāja izvēles, lai salīdzināšanai ģenerētu modeļu pārus. Pēc tam Bredlija-terry algoritmu izmanto, lai aprēķinātu katra modeļa punktu skaitu, kas pēc tam noved pie galīgā līderu saraksta.
Iekļaušana AI ierobežoja savu eksperimentu ar datiem līdz 2025. gada jūlijam, kas satur 501 003 salīdzinājumus pāru.
Saskaņā ar sākotnējiem eksperimentiem ar iekļaušanas arēnu, visizpildītākais modelis ir Antropic’s Claude 3.7 Sonnet, DeepSeek V3-0324, Claude 3.5 Sonnet, DeepSeek V3 un Qwen MAX-0125.
Protams, tie bija dati no divām lietotnēm ar vairāk nekā 46 611 aktīviem lietotājiem, saskaņā ar rakstu. Pētnieki sacīja, ka viņi var izveidot stabilāku un precīzāku līderu sarakstu ar vairāk datu.
Vairāk līderu saraksti, vairāk izvēles
Arvien pieaugošais modeļu skaits, kas tiek izlaisti, liek uzņēmumiem izaicinošāk izvēlēties, kuras LLM sākt novērtēt. Lokseraparāti un etaloni virza tehniskos lēmumu pieņēmējus modeļiem, kas varētu nodrošināt vislabāko sniegumu viņu vajadzībām. Protams, organizācijām jāveic iekšēji novērtējumi, lai nodrošinātu, ka LLM ir efektīva to lietojumprogrammai.
Tas arī sniedz priekšstatu par plašāku LLM ainavu, uzsverot, kuri modeļi kļūst konkurētspējīgi, salīdzinot ar saviem vienaudžiem. Nesenie etaloni, piemēram, apbalvojums 2 no Allena institūts aEs cenšos pielāgot modeļus ar reālās dzīves lietošanas gadījumiem uzņēmumiem.
avots