Home Tehnoloģija Ārpus loka AGI: Gaia un īsta izlūkošanas etalona meklēšana

Ārpus loka AGI: Gaia un īsta izlūkošanas etalona meklēšana

12
0

Pievienojieties mūsu ikdienas un nedēļas biļeteniem, lai iegūtu jaunākos atjauninājumus un ekskluzīvu saturu par nozares vadošo AI pārklājumu. Uzziniet vairāk


Intelekts ir izplatīts, tomēr tā mērīšana šķiet subjektīva. Labākajā gadījumā mēs tuvinām tā mērījumu, izmantojot testus un etalonus. Padomājiet par koledžas iestājeksāmeniem: Katru gadu neskaitāmi studenti pierakstās, iegaumē testa-prep trikus un dažreiz dodieties promenade ar perfektiem rādītājiem. Vai viens skaitlis, teiksim, 100%, nozīmē tiem, kuriem tas ieguva, ir vienāds intelekts – vai ka viņi kaut kā ir maksimāli izmantojuši savu inteliģenci? Protams, nē. Etaloni ir tuvinājumi, nevis precīzi mērījumi par kāda cilvēka vai kaut ko – patiesām iespējām.

Ģeneratīvā AI kopiena jau sen ir paļāvusies uz tādiem etaloniem Mmlu (Masīva daudzuzdevumu valodas izpratne) Lai novērtētu modeļa iespējas, izmantojot jautājumus ar atbilžu variantiem visās akadēmiskajās disciplīnās. Šis formāts nodrošina tiešus salīdzinājumus, wager nespēj patiesi uztvert inteliģentas iespējas.

Piemēram, gan Claude 3.5 Sonnet, gan GPT-4.5 šajā etalonā sasniedz līdzīgus rezultātus. Uz papīra tas liek domāt par līdzvērtīgas iespējas. Tomēr cilvēki, kas strādā ar šiem modeļiem, zina, ka viņu reālās darbības sniegumā ir būtiskas atšķirības.

Ko nozīmē izmērīt “inteliģenci” AI?

Uz jaunā papēžiem Arc-agi Etalona izlaidums-tests, kas paredzēts, lai virzītu modeļus uz vispārīgu spriešanu un radošu problēmu risināšanu-notiek atjaunotas debates par to, ko nozīmē izmērīt “intelektu” AI. Kaut arī ne visi vēl ir pārbaudījuši ARC-AGI etalonu, nozare to atzinīgi vērtē un citus centienus attīstīt testēšanas ietvarus. Katram etalonam ir savs nopelns, un ARC-AGI ir daudzsološs solis šajā plašākā sarunā.

Vēl viena ievērojama nesenā AI novērtēšanas attīstība ir ‘Cilvēces pēdējais eksāmens“Visaptverošs etalons, kas satur 3000 recenzētus, daudzpakāpju jautājumus dažādās disciplīnās. Kaut arī šis assessments ir vērienīgs mēģinājums apstrīdēt AI sistēmas ekspertu līmeņa spriešanā, agrīnie rezultāti liecina par straujo progresu-tā kā Openai, kā ziņots, mēnesī pēc tā atbrīvošanas sasniedz 26,6% punktu. Tomēr, tāpat kā citi tradicionālie etaloni, tas galvenokārt novērtē zināšanas un argumentāciju izolēti, nepārbaudot praktiskās, instrumentu izmantojamās iespējas, kas arvien svarīgākas ir reālās pasaules AI lietojumprogrammās.

Vienā piemērā vairāki mūsdienīgi modeļi neizdodas pareizi saskaitīt “R” skaitu vārdu zemenī. Citā viņi nepareizi identificē 3,8 kā mazāku par 3.1111. Šāda veida neveiksmes-uzdevumos, kurus pat mazs bērns vai pamata kalkulators varētu atrisināt-atklāj neatbilstību starp etalonu virzītu progresu un reālās pasaules izturību, atgādinot mums, ka intelekts ir saistīts ne tikai ar eksāmenu nokārtošanu, wager arī uz ticamu ikdienas loģiku navigāciju.

Jaunais AI spēju mērīšanas standarts

Tā kā modeļi ir progresējuši, šie tradicionālie etaloni ir parādījuši savus ierobežojumus-GPT-4 ar rīkiem tikai aptuveni 15% no sarežģītākiem, reālās pasaules uzdevumiem Gaia etalonsneskatoties uz iespaidīgajiem rādītājiem atbilžu variantos.

Šī atšķirība starp etalona veiktspēju un praktiskajām spējām ir kļuvusi arvien problemātiskāka, jo AI sistēmas pāriet no pētniecības vides uz biznesa lietojumiem. Tradicionālie etaloni testa zināšanu atsaukšana, wager garām izšķirošajiem intelekta aspektiem: spēja apkopot informāciju, izpildīt kodu, analizēt datus un sintezēt risinājumus vairākās jomās.

Gaia ir nepieciešamā maiņa AI novērtēšanas metodoloģijā. Izveidots, sadarbojoties Meta-Honest, Meta-Genai, Huggingface un Autogpt komandām, etalonā ir iekļauti 466 rūpīgi izstrādāti jautājumi trīs grūtības līmenī. Šie jautājumi pārbauda tīmekļa pārlūkošanu, daudzmodālu izpratni, koda izpildi, failu apstrādi un sarežģītu spriešanu-iespējas, kas ir būtiskas reālās pasaules AI lietojumprogrammām.

1. līmeņa jautājumi prasa apmēram 5 soļus un vienu instrumentu, lai cilvēki varētu atrisināt. 2. līmeņa jautājumi pieprasa no 5 līdz 10 soļiem un vairākiem rīkiem, savukārt 3. līmeņa jautājumi var prasīt līdz 50 diskrētām darbībām un jebkuru instrumentu skaitu. Šī struktūra atspoguļo biznesa problēmu faktisko sarežģītību, kur risinājumi reti rodas no vienas darbības vai rīka.

Prioritizējot elastību salīdzinājumā ar sarežģītību, AI modelis sasniedza 75percentprecizitāti Gaia-pārspējot nozares gigantu Microsoft magnētisko-1 (38%) un Google Langfun aģentu (49%). Viņu panākumi izriet no specializētu modeļu kombinācijas izmantošanas audiovizuālai izpratnei un argumentācijai, kā galveno modeli ir Antropic Sonnet 3.5.

Šī AI novērtējuma attīstība atspoguļo plašāku nozares maiņu: mēs pārejam no atsevišķām SaaS lietojumprogrammām uz AI aģentiem, kas var orķestrēt vairākus rīkus un darbplūsmas. Tā kā uzņēmumi arvien vairāk paļaujas uz AI sistēmām, lai apstrādātu sarežģītus, daudzpakāpju uzdevumus, etaloni, piemēram, Gaia, nodrošina nozīmīgāku spēju mērījumu nekā tradicionālie atbilžu variantu testi.

AI novērtēšanas nākotne slēpjas nevis izolētos zināšanu testos, wager gan visaptverošos problēmu risināšanas spēju novērtējumos. Gaia nosaka jaunu standartu AI spēju mērīšanai-tādu, kas labāk atspoguļo reālās pasaules AI izvietošanas izaicinājumus un iespējas.

Šri Ambati ir dibinātājs un izpilddirektors H2O.aiApvidū


avots