Jūs zināt visus šos ziņojumus par mākslīgā intelekta modeļiem ejot garām bāram vai Ph.D. līmeņa intelekta sasniegšana? Šķiet, ka mums vajadzētu sākt atgūt šos grādus. A jauns pētījums, ko veica Oksfordas interneta institūta pētnieki liecina, ka lielākā daļa populāro salīdzinošās novērtēšanas rīku, ko izmanto AI veiktspējas pārbaudei, bieži vien ir neuzticami un maldinoši.
Pētnieki aplūkoja 445 dažādus etalontestus, ko izmantoja nozare un citi akadēmiskie tērpi, lai pārbaudītu visu, sākot no spriešanas spējas uz kodēšanas uzdevumu izpilde. Eksperti pārskatīja katru salīdzinošās novērtēšanas pieeju un atklāja norādes, ka šo pārbaužu rezultāti var nebūt tik precīzi, kā norādīts, daļēji tāpēc, ka etalons mēģina pārbaudīt neskaidras definīcijas un nav atklātas statistikas metodes, kas ļautu viegli salīdzināt dažādus modeļus.
Liela problēma, ka pētnieki atrasts ir tas, ka “daudzi etaloni nav derīgi to paredzēto mērķu mērījumi.” Tas nozīmē, ka, lai gan etalons var apgalvot, ka mēra noteiktas prasmes, tas var identificēt šo prasmi tādā veidā, kas faktiski neaptver modeļa iespējas.
Piemēram, pētnieki norāda uz Grade Faculty Math 8K (GSM8K) salīdzinošās novērtēšanas testu, kas mēra modeļa veiktspēju klases skolas līmeņa uz vārdiem balstītās matemātikas problēmās, kas izstrādātas, lai modeli virzītu uz “daudzpakāpju matemātisko spriešanu”. GSM8K ir reklamēts kā “noderīgu, lai pārbaudītu lielo valodu modeļu neformālās spriešanas spējas”.
Taču pētnieki apgalvo, ka exams ne vienmēr parāda, vai modelis iesaistās argumentācijā. “Kad pirmklasniekam pajautājat, ar ko divi plus pieci ir vienāds pastāstīja NBC News.
Pētījumā pētnieki norādīja, ka GSM8K rādītāji laika gaitā ir palielinājušies, kas var norādīt uz modeļiem, kas uzlabo šāda veida argumentāciju un veiktspēju. Wager tas var arī norādīt uz piesārņojumu, kas notiek, kad etalonpārbaudes jautājumi tiek iekļauti modeļa datu kopā vai modelis sāk “iegaumēt” atbildes vai informāciju, nevis argumentēt savu ceļu uz risinājumu. Kad pētnieki pārbaudīja tādu pašu veiktspēju ar jaunu etalonjautājumu kopu, viņi pamanīja, ka modeļi piedzīvoja “ievērojamus veiktspējas kritumus”.
Lai gan šis pētījums ir viens no lielākajiem AI salīdzināšanas pārskatiem, tas nav pirmais, kas liek domāt, ka šī mērīšanas sistēma var nebūt viss, par ko tā tiek pārdota. Pagājušajā gadā, pētnieki Stenfordā analizēja vairākus populārus AI modeļu etalontestus un atklāja “lielas kvalitātes atšķirības starp tiem, tostarp tām, uz kurām plaši paļaujas izstrādātāji un politikas veidotāji”, un atzīmēja, ka lielākā daļa etalonu “ir augstākā kvalitāte projektēšanas stadijā un zemākā kvalitāte ieviešanas posmā.”
Ja nekas cits, pētījums ir labs atgādinājums, ka šie veiktspējas rādītāji, lai gan bieži vien ir labi iecerēti un paredzēti, lai nodrošinātu precīzu modeļa analīzi, var pārvērsties tikai par mārketingu, kas runā uzņēmumu labā.












