Pat Pokémon nav drošs no strīdiem par AI etalonuzdevumiem.
Pagājušajā nedēļā, a Ievietojiet uz x Dodoties vīrusu vīriešiem, apgalvojot, ka Google jaunākais Dvīņu modelis sākotnējā Pokémon videospēļu triloģijā pārspēja Anthropic vadošo Claude modeli. Tiek ziņots, ka Dvīņi bija sasnieguši Lavandas pilsētu izstrādātāja raustīšanās straumē; Klods bija iestrēdzis Moon Moon no februāra beigām.
Dvīņi burtiski apsteidz Claude ATM Pokemon pēc Lavandas pilsētas sasniegšanas
119 Reside skati tikai btw, neticami nepietiekami novērtēta straume pic.twitter.com/8avsovai4x
– Jush (@Jush21e8) 2025. gada 10. aprīlis
Wager tas, ko amats nepieminēja, ir tas, ka Dvīņiem bija priekšrocība.
Kā lietotāji uz Reddit Norādot, izstrādātājs, kurš uztur Gemini Stream, izveidoja pielāgotu minimumu, kas palīdz modelim noteikt “flīzes” spēlē, piemēram, grieztu koki. Tas samazina nepieciešamību pēc Dvīņiem analizēt ekrānuzņēmumus, pirms tas pieņem spēles lēmumus.
Tagad Pokémon labākajā gadījumā ir daļēji nopietns AI etalons-tikai daži apgalvo, ka tas ir ļoti informatīvs modeļa spēju pārbaude. Wager tas ir Instruktīvs piemērs tam, kā atšķirīgas etalona ieviešana var ietekmēt rezultātus.
Piemēram, antropisks ziņots Divi rezultāti par neseno Anthropic 3.7 soneta modeli par SWEH-bench verificēto etalonu, kas ir paredzēts, lai novērtētu modeļa kodēšanas spējas. Claude 3.7 Sonnet sasniedza 62,3% precizitāti SWE-bench verificētajam, wager 70,3% ar “pielāgotajām sastatnēm”, ko attīstīja antropija.
Pavisam nesen Meta precīzi noregulēja viena no tā jaunākajiem modeļiem Llama 4 Maverick versiju, lai labi darbotos noteiktā etalonā LM arēnā. Modeļa vaniļas versija vienā un tajā pašā novērtējumā ir ievērojami sliktāka.
Ņemot vērā to, ka AI etaloni-iekļauti Pokémon-ir nepilnīgi pasākumi, ar kuriem sākt, paražas un nestandarta ieviešana draud vēl vairāk dubultot ūdeņus. Tas ir, nešķiet iespējams, ka modeļi būs vieglāk salīdzināt, kad tie ir atbrīvoti.