Home Tehnoloģija Openai O3 AI modeļa rādītāji ir zemāki par etalonu, nekā sākotnēji netieši...

Tehnoloģija

Openai O3 AI modeļa rādītāji ir zemāki par etalonu, nekā sākotnēji netieši norādīts uzņēmums

21 aprīlis 2025

Neatbilstība starp pirmās un trešās puses etalona rezultātiem Openai O3 AI modelim ir Jautājumu radīšana par uzņēmuma caurspīdīgumu un modeļa pārbaudes prakse.

Kad Openai decembrī atklāja O3, uzņēmums apgalvoja, ka modelis varētu atbildēt nedaudz vairāk par ceturto jautājumu par Frontiermath – izaicinošu matemātikas problēmu kopumu. Šis rezultāts atvairīja konkurenci-nākamajam labākajam modelim izdevās pareizi atbildēt tikai aptuveni 2% no Frontiermath problēmām.

“Mūsdienās visiem piedāvājumiem ir mazāk nekā 2% [on FrontierMath]”Marks Čens, Openai galvenais pētījumu vadītājs, teica tiešraides laikāApvidū “Mēs redzam [internally]ar O3 agresīviem testa laika aprēķināšanas iestatījumiem, mēs varam iegūt vairāk nekā 25%. ”

Kā izrādās, šis skaitlis, iespējams, bija augšējā robeža, ko panāk ar O3 versiju ar vairāk skaitļošanas aiz tā nekā pagājušajā nedēļā publicētajā Openai.

Epoch AI, Pētniecības institūts aiz Formiermath, piektdien publiskoja savu neatkarīgo etalona testu rezultātus. Epočs atklāja, ka O3 vērtējums ir aptuveni 10%, kas ir krietni zem Openai augstākā pretendētākā punktu skaita.

Openai ir izlaidis O3, viņu ļoti gaidīto spriešanas modeli, kā arī O4-Mini, mazāku un lētāku modeli, kas izdodas O3-Mini.

Mēs novērtējām jaunos modeļus mūsu matemātikas un zinātnes etalonu komplektā. Rezultāti pavedienā! pic.twitter.com/5gbtzkey1b

– Epoch AI (@epochairesearch) 2025. gada 18. aprīlis

Tas nenozīmē, ka Openai meloja, per se. Decembrī publicētie etalona rezultāti parāda zemāku rezultātu, kas atbilst rezultātam, kas novērots. Epočs arī atzīmēja, ka tā testēšanas iestatīšana, iespējams, atšķiras no Openai’s, un tas, ka tā novērtēšanai izmantoja atjauninātu Frontiermath atbrīvošanu.

“Atšķirība starp mūsu rezultātiem un Openai varētu būt saistīta ar Openai, novērtējot ar jaudīgāku iekšējo sastatni, izmantojot vairāk testa laika [computing]vai tāpēc, ka šie rezultāti tika palaisti citā Frontiermath apakškopā (180 problēmas Frontiermath-2024-11-26 pret 290 problēmām Frontiermath-2025-02-28-privātā) ”. rakstīts Laikmets.

Saskaņā ar ziņu X No ARC balvas fonda, organizācija, kas pārbaudīja O3 pirmsizlaides versiju, publiskais O3 modelis “ir atšķirīgs modelis […] noregulēts tērzēšanas/produktu lietošanai, ”apstiprinot laikmeta ziņojumu.

“Visi izlaistie O3 aprēķināšanas līmeņi ir mazāki nekā versija [benchmarked]Rakstīja ARC balva. Vispārīgi runājot, var gaidīt, ka lielākos aprēķināšanas līmeņos var sasniegt labākus etalona rādītājus.

Pārskats, kas atbrīvots no O3 ARC-AGI-1, prasīs dienu vai divas. Tā kā šodienas izlaišana ir materiāli atšķirīga sistēma, mēs atkārtoti marķējam savus iepriekšējos rezultātus kā “priekšskatījumu”:

O3-preview (zems): 75,7%, 200 USD/uzdevums
O3-prewiew (augsts): 87,5%, USD 34,4k/uzdevums

Iepriekš tiek izmantota O1 Professional cenu noteikšana …

– Maiks Kovs (@mikeknoop) 2025. gada 16. aprīlis

Pašas Openai Wenda Zhou, tehniskā personāla locekle, teica tiešraidē pagājušajā nedēļā ka ražošanas O3 ir “vairāk optimizēts reālās pasaules lietošanas gadījumiem” un ātrums pret O3 versiju decembrī. Tā rezultātā tam var būt etalons “atšķirības”, viņš piebilda.

Vai[W]E ir izdarījuši [optimizations] Lai izveidotu [model] Rentablāks [and] Kopumā noderīgāks, ”sacīja Zhou.“ Mēs joprojām ceram, ka – mēs joprojām to domājam – tas ir daudz labāks modelis […] Jums nebūs jāgaida tik ilgi, kad jūs lūdzat atbildi, kas ir īsta lieta ar šiem [types of] Modeļi. ”

Piešķirts, ka fakts, ka O3 publiskajai atbrīvošanai, nepārsniedz Openai testēšanu, ir mazliet paraments, jo uzņēmuma O3-Mini-Excessive un O4-Mini modeļi nākamajās nedēļās pārspēj O3 O3, un Openai nākamajās nedēļās plāno debitēt jaudīgāku O3 variantu O3-Professional.

Tomēr tas ir vēl viens atgādinājums, ka AI etalonus vislabāk netiek ņemti pēc nominālvērtības – it īpaši, ja avots ir uzņēmums ar pakalpojumiem, ko pārdot.

Etalīni “strīdi” kļūst par izplatītu notikumu AI nozarē, jo pārdevēji sacenšas, lai iemūžinātu virsrakstus un prātus ar jauniem modeļiem.

Janvārī laikraksts tika kritizēts par gaidīšanu, lai atklātu finansējumu no Openai, līdz uzņēmums paziņoja O3. Daudzi akadēmiķi, kuri piedalījās Frontiermath, netika informēti par Openai iesaistīšanos, kamēr tā netika publiskota.

Pavisam nesen Elona Muska Xai tika apsūdzēts par maldinošu etalonu diagrammu publicēšanu savam jaunākajam AI modelim Grok 3. Tikai šomēnes Meta atzina, ka ir norādīti etalona punkti modeļa versijai, kas atšķīrās no tā, kas izstrādātājiem bija pieejams pieejamiem.

Atjaunināts plkst. 16:21 Pacific: Pagājušajā nedēļā no tiešraides no tiešraidēm no tiešraides no tiešraidēm pievienoti komentāri no Wenda Zhou.

avots

Openai O3 AI modeļa rādītāji ir zemāki par etalonu, nekā sākotnēji netieši norādīts uzņēmums

LEAVE A REPLY Cancel reply

jaunākais ieraksts

Lokedi uzvar Bostonas maratonu rekordīsā laikā, kad Korir pievienojas brālim kā...

Delta lidmašīna aizdegās Orlando lidostā, pasažieri evakuē slaidos

‘Andor’ 2. sezonas pārskats: labākais ‘Zvaigžņu karu’ stāsts, kas vēl sevi...

Vašingtonas Universitātes studenti iekļūst “RK domāšanā” un sacenšas uz pasaules skatuves

Vai “konklāvs” straumē? Kur skatīties filmu

Irānas salocītie klintis atklāj seno tektonisko spēku pie Āzijas-Europa robežas

GM saka, ka Jets izvēlēsies iespējas Gardneram, Vilsonam, Džonsonam

Trump vēlas Eiropas lielāko atomelektrostaciju – WSJ

Nepo mazulis ar diviem ļoti slaveniem Holivudas A -Lister vecākiem svin...

Jauna Apple Intelligence reklāma izceļ “tīrīšanas” funkciju fotoattēlu lietotnē