Home Tehnoloģija Amazon’s Swe-Polybench tikko atklāja netīro noslēpumu par jūsu AI kodēšanas palīgu

Amazon’s Swe-Polybench tikko atklāja netīro noslēpumu par jūsu AI kodēšanas palīgu

7
0

Pievienojieties mūsu ikdienas un nedēļas biļeteniem, lai iegūtu jaunākos atjauninājumus un ekskluzīvu saturu par nozares vadošo AI pārklājumu. Uzziniet vairāk


Amazon tīmekļa pakalpojumi Šodien ieviests Swe-Polybenchvisaptverošs daudzvalodu etalons, kas paredzēts, lai novērtētu AI kodēšanas palīgus dažādos programmēšanas valodu klāstā un reālās pasaules scenārijos. Līdz etalons Risina ievērojamus ierobežojumus esošajos novērtēšanas ietvaros un piedāvā pētniekiem un izstrādātājiem jaunus veidus, kā novērtēt, cik efektīvi AI aģenti pārvietojas ar sarežģītām kodu bāzēm.

“Tagad viņiem ir etalons, kuru viņi var novērtēt, lai novērtētu, vai kodēšanas līdzekļi spēj atrisināt sarežģītus programmēšanas uzdevumus,” sacīja ANOOP DEORASGeneratīvo AI lietojumprogrammu lietišķo zinātņu direktors un izstrādātāju pieredze AWS, intervijā VentureBeat. “Reālā pasaule piedāvā jums sarežģītākus uzdevumus. Lai labotu kļūdu vai veiktu funkciju veidošanu, jums ir jāpieskaras vairākiem failiem, nevis vienam failam.”

Izlaidums notiek, jo popularitāte ir eksplodējusi ar AI darbināmiem kodēšanas rīkiem, jo ​​lielākie tehnoloģiju uzņēmumi tos integrē attīstības vidē un patstāvīgos produktos. Kaut arī šie rīki parāda iespaidīgas iespējas, to veiktspējas novērtēšana joprojām ir izaicinoša – īpaši dažādās programmēšanas valodās un atšķirīgā uzdevumu sarežģītībā.

Swe-Polybench Satur vairāk nekā 2000 veidotu kodēšanas izaicinājumu, kas iegūti no reāliem GitHub jautājumiem, kas aptver četras valodas: Java (165 uzdevumi), JavaScript (1 017 uzdevumi), Typecript (729 uzdevumi) un Python (199 uzdevumi). Etalons ietver arī stratificētu 500 jautājumu (SWE-POLYBENCH500) apakškopu, kas paredzēta ātrākai eksperimentēšanai.

“Trūka uzdevumu daudzveidība un programmēšanas valodu daudzveidība,” par esošajiem etaloniem skaidroja Deoras. “Mūsdienās Swe-bench ir tikai viena programmēšanas valoda Python, un ir viens uzdevums: kļūdu labojumi. Polybench, pretstatā SWECH, mēs esam paplašinājuši šo etalonu, iekļaujot trīs papildu valodas.”

Jaunais etalons tieši pievēršas ierobežojumiem Swencskas ir kļuvis par kodu aģentu novērtēšanas standartu DE Facto ar vairāk nekā 50 līderu saraksta iesniegumiem. Neskatoties uz novatorisko lomu, SWECH koncentrējas tikai uz Python krātuvēm, galvenokārt ir kļūdu fiksējoši uzdevumi un ir ievērojami sagrozīts pret vienu kodu bāzi-Django repozitorija veido vairāk nekā 45% no visiem uzdevumiem.

“Ar nodomu mēs nolēmām mazliet pāriet JavaScript un TypeScript attēlojumu, jo mums ir Swe-Bench, kuram jau ir Python uzdevumi,” atzīmēja Deoras. “Tā vietā, lai pārstāvētu Python, mēs pārliecinājāmies, ka papildus Java mums ir pietiekami daudz pārstāvju JavaScript un TypeScript.”

Kāpēc vienkārša caurlaide/neveiksmes metrika nestāstiet visu stāstu par AI kodēšanas veiktspēju

Galvenais jauninājums Swe-Polybench ir tā ieviešana sarežģītākam novērtēšanas metrikai ārpus tradicionālās “caurlaides ātruma”, kas vienkārši mēra, vai ģenerēts plāksteris veiksmīgi atrisina kodēšanas problēmu.

“Šo kodēšanas līdzekļu novērtēšana galvenokārt tika veikta caur metriku, ko sauc par caurlaides ātrumu,” sacīja Deoras. “Īsāk sakot, caurlaides ātrums būtībā ir tikai daļa no uzdevumiem, kas veiksmīgi darbojas pēc aģentu ražotajiem plāksteriem, guess šis skaitlis ir ļoti augsts, apkopota statistika. Tas jums nepasaka niecīgu drūmu detaļu, un jo īpaši tas nestāstīs, kā aģents ir nonācis līdz šīs izšķirtspējai.”

Jaunajā metrikā ietilpst faila līmeņa lokalizācija, kurā tiek novērtēta aģenta spēja noteikt, kuri faili ir nepieciešami modifikācijas krātuvē, un betona sintakse koka (CST) mezgla līmeņa izguve, kas novērtē, cik precīzi aģents var precīzi noteikt specifiskas koda struktūras, kas prasa izmaiņas.

“Papildus caurlaides ātrumam mums ir precizitāte un atsaukšana. Un, lai sasniegtu precizitāti un atsauktu metriku, mēs meklējam programmas analīzes rīku, ko sauc par betona sintakse koku,” skaidroja Deoras. “Tas jums saka, kā tiek komponēta jūsu pamatfaila struktūra, lai jūs varētu apskatīt, kas ir klases mezgls, un šajā klasē, kādi ir funkcijas mezgli un mainīgie.”

Kā python paliek dominējošais, kamēr sarežģīti uzdevumi atklāj AI ierobežojumus

Amazon novērtējums par vairākiem atvērtā koda kodēšanas līdzekļiem uz Swe-Polybench atklāja vairākus modeļus. Python joprojām ir visspēcīgākā valoda visiem pārbaudītajiem aģentiem, iespējams, tā izplatība apmācības datos un esošajos etalonos. Veiktspējas pasliktināšanās, palielinoties uzdevumu sarežģītībai, it īpaši, ja ir nepieciešamas izmaiņas trīs vai vairāk failos.

Dažādi aģenti uzrāda dažādas stiprās puses dažādās uzdevumu kategorijās. Kaut arī veiktspēja, kas saistīta ar kļūdu fiksēšanas uzdevumiem, ir salīdzinoši konsekventa, apstrādājot funkciju pieprasījumus un koda reakciju, starp aģentiem ir lielāka atšķirība.

Etalons arī atklāja, ka problēmu paziņojumu informativitāte ievērojami ietekmē panākumu līmeni, kas liek domāt, ka skaidriem izdošanas aprakstiem joprojām ir izšķiroša nozīme efektīvā AI palīdzībā.

Ko Swe-Polybench nozīmē uzņēmuma izstrādātājiem, kas strādā vairākās valodās

Swe-Polybench ierodas kritiskā situācijā AI kodēšanas palīgu izstrādē. Tā kā šie rīki pāriet no eksperimentālas uz ražošanas vidi, ir pastiprinājusies nepieciešamība pēc stingriem, daudzveidīgiem un reprezentatīviem etaloniem.

“Laika gaitā ir attīstījušās ne tikai LLMS iespējas, guess tajā pašā laikā uzdevumi ir kļuvuši arvien sarežģītāki,” novēroja Deoras. “Izstrādātājiem ir nepieciešams sinhroni atrisināt arvien sarežģītākus uzdevumus, izmantojot šos aģentus.”

Etalona paplašinātās valodas atbalsts padara to īpaši vērtīgu uzņēmuma vidē, kur ir izplatīta poliglotu attīstība. Java, JavaScript, Typecript un Python konsekventi ierindojas starp populārākajām programmēšanas valodām uzņēmuma iestatījumos, padarot Swe-Polybench pārklājumu ļoti būtisku reālās pasaules attīstības scenārijos.

Amazon ir izveidojis visu Swe-Polybench ietvaru publiski pieejamsApvidū Datu kopa ir pieejama Apskaužot sejuun novērtēšanas instalācija ir pieejama GithubApvidū Veltīts līdere ir izveidots, lai izsekotu dažādu kodēšanas līdzekļu veiktspējai uz etalona.

“Mēs pagarinājām SWE-bench datu iegūšanas cauruļvadu, lai atbalstītu šīs trīs papildu valodas,” sacīja Deoras. “Cerība ir tāda, ka mēs nākotnē varēsim ekstrapolēt šo procesu un pārsniegt četras valodas, pārsniedzot trīs uzdevumus, par kuriem es runāju, lai šis etalons kļūtu vēl visaptverošāks.”

Tā kā AI kodēšanas asistents tirgus sakarst ar katra lielā tehnoloģiju uzņēmuma piedāvājumiem, Swe-Polybench nodrošina būtisku realitātes pārbaudi par viņu faktiskajām iespējām. Etalona dizains atzīst, ka reālās pasaules programmatūras izstrāde prasa vairāk nekā vienkāršus kļūdu labojumus Python-tas prasa strādāt dažādās valodās, izprast sarežģītas kodu bāzes un risināt dažādus inženiertehniskos izaicinājumus.

Uzņēmējdarbības lēmumu pieņēmējiem, kas novērtē AI kodēšanas rīkus, Swe-Polybench piedāvā kaut ko nenovērtējamu: veidu, kā atdalīt mārketinga hipe no īstām tehniskām iespējām. Galu galā patiesais AI kodēšanas palīga assessments nav tas, cik labi tas darbojas vienkāršotās demonstrācijas laikā, guess gan par to, vai tas var rīkoties ar netīro, daudzvalodu sarežģītību faktiskajiem programmatūras projektiem-laipnie izstrādātāji katru dienu cīkstē.


avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here