Home Tehnoloģija Openai O3 AI modeļa rādītāji ir zemāki par etalonu, nekā sākotnēji netieši...

Openai O3 AI modeļa rādītāji ir zemāki par etalonu, nekā sākotnēji netieši norādīts uzņēmums

10
0

Neatbilstība starp pirmās un trešās puses etalona rezultātiem Openai O3 AI modelim ir Jautājumu radīšana par uzņēmuma caurspīdīgumu un modeļa pārbaudes prakse.

Kad Openai decembrī atklāja O3, uzņēmums apgalvoja, ka modelis varētu atbildēt nedaudz vairāk par ceturto jautājumu par Frontiermath – izaicinošu matemātikas problēmu kopumu. Šis rezultāts atvairīja konkurenci-nākamajam labākajam modelim izdevās pareizi atbildēt tikai aptuveni 2% no Frontiermath problēmām.

“Mūsdienās visiem piedāvājumiem ir mazāk nekā 2% [on FrontierMath]”Marks Čens, Openai galvenais pētījumu vadītājs, teica tiešraides laikāApvidū “Mēs redzam [internally]ar O3 agresīviem testa laika aprēķināšanas iestatījumiem, mēs varam iegūt vairāk nekā 25%. ”

Kā izrādās, šis skaitlis, iespējams, bija augšējā robeža, ko panāk ar O3 versiju ar vairāk skaitļošanas aiz tā nekā pagājušajā nedēļā publicētajā Openai.

Epoch AI, Pētniecības institūts aiz Formiermath, piektdien publiskoja savu neatkarīgo etalona testu rezultātus. Epočs atklāja, ka O3 vērtējums ir aptuveni 10%, kas ir krietni zem Openai augstākā pretendētākā punktu skaita.

Tas nenozīmē, ka Openai meloja, per se. Decembrī publicētie etalona rezultāti parāda zemāku rezultātu, kas atbilst rezultātam, kas novērots. Epočs arī atzīmēja, ka tā testēšanas iestatīšana, iespējams, atšķiras no Openai’s, un tas, ka tā novērtēšanai izmantoja atjauninātu Frontiermath atbrīvošanu.

“Atšķirība starp mūsu rezultātiem un Openai varētu būt saistīta ar Openai, novērtējot ar jaudīgāku iekšējo sastatni, izmantojot vairāk testa laika [computing]vai tāpēc, ka šie rezultāti tika palaisti citā Frontiermath apakškopā (180 problēmas Frontiermath-2024-11-26 pret 290 problēmām Frontiermath-2025-02-28-privātā) ”. rakstīts Laikmets.

Saskaņā ar ziņu X No ARC balvas fonda, organizācija, kas pārbaudīja O3 pirmsizlaides versiju, publiskais O3 modelis “ir atšķirīgs modelis […] noregulēts tērzēšanas/produktu lietošanai, ”apstiprinot laikmeta ziņojumu.

“Visi izlaistie O3 aprēķināšanas līmeņi ir mazāki nekā versija [benchmarked]Rakstīja ARC balva. Vispārīgi runājot, var gaidīt, ka lielākos aprēķināšanas līmeņos var sasniegt labākus etalona rādītājus.

Pašas Openai Wenda Zhou, tehniskā personāla locekle, teica tiešraidē pagājušajā nedēļā ka ražošanas O3 ir “vairāk optimizēts reālās pasaules lietošanas gadījumiem” un ātrums pret O3 versiju decembrī. Tā rezultātā tam var būt etalons “atšķirības”, viņš piebilda.

Vai[W]E ir izdarījuši [optimizations] Lai izveidotu [model] Rentablāks [and] Kopumā noderīgāks, ”sacīja Zhou.“ Mēs joprojām ceram, ka – mēs joprojām to domājam – tas ir daudz labāks modelis […] Jums nebūs jāgaida tik ilgi, kad jūs lūdzat atbildi, kas ir īsta lieta ar šiem [types of] Modeļi. ”

Piešķirts, ka fakts, ka O3 publiskajai atbrīvošanai, nepārsniedz Openai testēšanu, ir mazliet paraments, jo uzņēmuma O3-Mini-Excessive un O4-Mini modeļi nākamajās nedēļās pārspēj O3 O3, un Openai nākamajās nedēļās plāno debitēt jaudīgāku O3 variantu O3-Professional.

Tomēr tas ir vēl viens atgādinājums, ka AI etalonus vislabāk netiek ņemti pēc nominālvērtības – it īpaši, ja avots ir uzņēmums ar pakalpojumiem, ko pārdot.

Etalīni “strīdi” kļūst par izplatītu notikumu AI nozarē, jo pārdevēji sacenšas, lai iemūžinātu virsrakstus un prātus ar jauniem modeļiem.

Janvārī laikraksts tika kritizēts par gaidīšanu, lai atklātu finansējumu no Openai, līdz uzņēmums paziņoja O3. Daudzi akadēmiķi, kuri piedalījās Frontiermath, netika informēti par Openai iesaistīšanos, kamēr tā netika publiskota.

Pavisam nesen Elona Muska Xai tika apsūdzēts par maldinošu etalonu diagrammu publicēšanu savam jaunākajam AI modelim Grok 3. Tikai šomēnes Meta atzina, ka ir norādīti etalona punkti modeļa versijai, kas atšķīrās no tā, kas izstrādātājiem bija pieejams pieejamiem.

Atjaunināts plkst. 16:21 Pacific: Pagājušajā nedēļā no tiešraides no tiešraidēm no tiešraides no tiešraidēm pievienoti komentāri no Wenda Zhou.



avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here