Home Tehnoloģija Jauns AI kodēšanas izaicinājums tikko publicēja savus pirmos rezultātus – un tie...

Jauns AI kodēšanas izaicinājums tikko publicēja savus pirmos rezultātus – un tie nav glīti

2
0

 

Jauns AI kodēšanas izaicinājums ir atklājis savu pirmo uzvarētāju un iestatījis jaunu joslu AI darbināmiem programmatūras inženieriem.

Trešdien plkst. 17:00 PST, bezpeļņas Laude institūts paziņoja par pirmo K balvas ieguvēju-vairāku apaļu AI kodēšanas izaicinājumu, kuru uzsāka Databricks un apjukuma līdzdibinātājs Andijs Konvinskis. Uzvarētājs bija Brazīlijas uzvednes inženieris, vārdā Eduardo Rocha De Andrade, kurš par balvu saņems 50 000 USD. Bet pārsteidzošāks nekā uzvara bija viņa galarezultāts: viņš uzvarēja ar pareizām atbildēm uz tikai 7,5% no testa jautājumiem.

“Mēs priecājamies, ka mēs izveidojām etalonu, kas patiesībā ir grūts,” sacīja Konvinskis. “Etalīniem vajadzētu būt grūtiem, ja viņiem būs nozīme,” viņš turpināja, piebilstot: “Rezultāti būtu atšķirīgi, ja lielās laboratorijas būtu ienākuši ar saviem lielākajiem modeļiem. Bet tas ir tāds punkts. K balva darbojas bezsaistē ar ierobežotu skaitļošanu, tāpēc tas dod priekšroku mazākiem un atvērtiem modeļiem. Es to mīlu. Tā izlīdzina konkurences apstākļus.”

Konvinskis ir apņēmies pirmajam atvērtā koda modelim, kas testā var iegūt vairāk nekā 90%.

Līdzīgi kā labi zināmā SWECH sistēmā, K balvu testi ir modeļi pret GitHub karodziņiem kā pārbaudi, cik labi modeļi var tikt galā ar reālās pasaules programmēšanas problēmām. Bet, lai gan SWECH ir balstīts uz fiksētu problēmu kopumu, pret kuru modeļi var trenēties, K balva ir veidota kā “Swe-bench bez piesārņojuma versija”, izmantojot noteikto ieejas sistēmu, lai aizsargātu pret jebkuru etalonu specifisku apmācību. Pirmajai kārtai modeļi bija jāveic līdz 12. martam. Pēc tam K balvu organizatori uzcēla testu, izmantojot tikai GitHub izdošanas jautājumus, kas apzīmēti pēc šī datuma.

7,5% augstākais rezultāts ir izteikts pretstatā pašam SWECH, kas šobrīd parāda 75% augstāko punktu skaitu, kas ir vieglāk “pārbaudīts” testā un 34% no tā grūtākā “pilnā” testa. Konvinskis joprojām nav pārliecināts, vai atšķirības ir saistītas ar piesārņojumu pret SWEH-Bench vai tikai izaicinājumu vākt jaunus jautājumus no Github, taču viņš sagaida, ka K balvas projekts drīz atbildēs uz jautājumu.

“Tā kā mums ir vairāk lietas, mums būs labāka jēga,” viņš teica TechCrunch, “tāpēc, ka mēs sagaidām, ka cilvēki pielāgosies dinamikai, kas par to konkurē ik pēc dažiem mēnešiem.”

TechCrunch pasākums

Sanfrancisko
|
2025. gada 27.-29. Oktobris

Tā varētu šķist nepāra vieta, kur atpūsties, ņemot vērā jau publiski pieejamo plašo AI kodēšanas rīku klāstu – bet, tā kā etalonus kļūst pārāk viegli, daudzi kritiķi uzskata tādus projektus kā K balva kā nepieciešamais solis virzienā uz risināšanu AI pieaugošā novērtēšanas problēmaApvidū

“Es esmu diezgan bullish par jaunu testu veidošanu esošajiem etaloniem,” saka Prinstonas pētnieks Sayash Kapoor, kurš izvirzīja līdzīgu ideju Nesenā rakstāApvidū “Bez šādiem eksperimentiem mēs faktiski nevaram pateikt, vai jautājums ir piesārņojums, vai pat tikai mērķēt uz SWE-bench līderu sarakstu ar cilvēku cilpā.”

Konvinski tas nav tikai labāks etalons, bet arī atklāts izaicinājums pārējai nozarei. “Ja jūs klausāties hype, tas ir tāpat kā mums vajadzētu redzēt AI ārstus un AI advokātus un AI programmatūras inženierus, un tā vienkārši nav taisnība,” viņš saka. “Ja mēs pat nevaram iegūt vairāk kā 10% no bezpārbaudes, tā ir realitātes pārbaude man.”

avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here