Home Tehnoloģija Terminal-Bench 2.0 tiek palaists kopā ar Harbor — jaunu sistēmu aģentu testēšanai konteineros

Terminal-Bench 2.0 tiek palaists kopā ar Harbor — jaunu sistēmu aģentu testēšanai konteineros

48
0

Terminal-Bench, etalona komplekta, kas paredzēts autonomu AI aģentu veiktspējas novērtēšanai reālos uz termināļiem balstītos uzdevumos, izstrādātāji ir izlaiduši versija 2.0 līdzās Ostajauna sistēma AI aģentu testēšanai, uzlabošanai un optimizēšanai konteinerizētās vidēs.

Divkāršās versijas mērķis ir novērst ilgstošus sāpju punktus, pārbaudot un optimizējot AI aģentus, jo īpaši tos, kas izstrādāti, lai darbotos autonomi reālistiskā izstrādātāju vidē.

Ar sarežģītāku un stingrāk pārbaudītu uzdevumu kopu Terminal-Bench 2.0 aizstāj versiju 1.0 kā standartu, lai novērtētu robežas modeļa iespējas.

Harbor, pievienotā izpildlaika ietvars, ļauj izstrādātājiem un pētniekiem mērogot novērtējumus tūkstošiem mākoņu konteineru un integrējas gan ar atvērtā koda, gan patentētiem aģentiem un apmācību cauruļvadiem.

“Osta ir komplekts, ko mēs vēlamies, lai mēs būtu bijuši, veidojot Terminal-Bench," rakstīja līdzradītājs Alekss Šovs par X. "Tas ir paredzēts aģentu, modeļu un etalonu izstrādātājiem un pētniekiem, kuri vēlas novērtēt un uzlabot aģentus un modeļus."

Augstāka josla, tīrāki dati

Terminal-Bench 1.0 strauji tika pieņemts pēc tā iznākšana 2025. gada maijākļūstot par noklusējuma etalonu aģentu veiktspējas novērtēšanai visās ar AI darbināmo aģentu jomā, kas darbojas izstrādātāju stila termināļu vidēs. Šie aģenti mijiedarbojas ar sistēmām, izmantojot komandrindu, atdarinot to, kā izstrādātāji strādā grafiskā lietotāja interfeisa aizkulisēs.

Tomēr tā plašā darbības joma bija saistīta ar neatbilstībām. Vairākus uzdevumus kopiena identificēja kā slikti norādītus vai nestabilus ārējo pakalpojumu izmaiņu dēļ.

Versijā 2.0 šīs problēmas tiek risinātas tieši. Atjauninātajā komplektā ir iekļauti 89 uzdevumi, no kuriem katrs ir pakļauts vairāku stundu manuālai un LLM atbalstītai validācijai. Uzsvars tiek likts uz uzdevumu padarīšanu atrisināmu, reālistisku un skaidri definētu, paaugstinot sarežģītības griestus, vienlaikus uzlabojot uzticamību un reproducējamību.

Ievērojams piemērs ir download-youtube uzdevums, kas tika noņemts vai pārveidots 2.0, jo tas ir atkarīgs no nestabilām trešās puses API.

“Astute Terminal-Bench fani var pamanīt, ka SOTA veiktspēja ir salīdzināma ar TB1.0, neskatoties uz mūsu apgalvojumu, ka TB2.0 ir grūtāks,” Shaw atzīmēja uz X. “Mēs uzskatām, ka tas ir tāpēc, ka jaunajā etalonā uzdevumu kvalitāte ir ievērojami augstāka.”

Harbor: vienota izlaišana mērogā

Līdztekus etalona atjauninājumam komanda sāka darbu Ostajauna sistēma aģentu darbināšanai un novērtēšanai mākonī izvietotos konteineros.

Harbour atbalsta liela mēroga izlaišanas infrastruktūru ar saderību ar tādiem galvenajiem pakalpojumu sniedzējiem kā Deitona un Modāls.

Paredzēts vispārināšanai starp aģentu arhitektūrām, Harbour atbalsta:

  • Jebkura konteinerā uzstādāma aģenta novērtēšana

  • Mērogojami uzraudzīti precīzās regulēšanas (SFT) un pastiprināšanas mācīšanās (RL) cauruļvadi

  • Pielāgota etalona izveide un izvietošana

  • Pilnīga integrācija ar Terminal-Bench 2.

Jaunā etalona izveides laikā Harbour tika iekšēji izmantots, lai palaistu desmitiem tūkstošu izlaišanas. Tagad tas ir publiski pieejams, izmantojot harborframework.comar dokumentāciju aģentu testēšanai un iesniegšanai publiskajā līderu sarakstā.

Pirmie rezultāti: GPT-5 ir veiksmīgs uzdevums

Sākotnējie rezultāti no Terminal-Bench 2.0 līderu saraksta liecina, ka OpenAI Codex CLI (komandrindas interfeiss), GPT-5 darbināms variants, ir vadībā ar 49,6% panākumu līmeni — augstākais starp visiem līdz šim pārbaudītajiem aģentiem.

Blakus ir citi GPT-5 varianti un Claude Sonnet 4.5 bāzes aģenti.

5 populārākie aģentu rezultāti (Terminal-Bench 2.0):

  1. Codex CLI (GPT-5) — 49,6%

  2. Codex CLI (GPT-5-Codex) — 44,3%

  3. OpenHands (GPT-5) — 43,8%

  4. Terminus 2 (GPT-5-Codex) — 43,4%

  5. Terminus 2 (Claude Sonet 4.5) — 42,8%

Ciešā klasterizācija starp labākajiem modeļiem norāda uz aktīvu konkurenci starp platformām, un neviens aģents neatrisina vairāk nekā pusi uzdevumu.

Iesniegšana un izmantošana

Lai pārbaudītu vai iesniegtu aģentu, lietotāji instalē Harbor un palaiž etalonu, izmantojot vienkāršas CLI komandas. Lai iesniegtu pieteikumus līderu sarakstā, ir jāveic pieci etalona palaijumi, un rezultātus var nosūtīt izstrādātājiem pa e-pastu kopā ar darbu katalogiem apstiprināšanai.

ostas ieskrējiens -d termināls-bench@2.0 -m "" -a "" –n-attempts 5 –jobs-dir

Terminal-Bench 2.0 jau tiek integrēts pētniecības darbplūsmās, kas vērstas uz aģentu spriešanu, koda ģenerēšanu un rīku izmantošanu. Saskaņā ar līdzradītāja Maiku Merrilu, pēcdoktorantūras pētnieku Stenfordā, tiek izstrādāta detalizēta priekšdruka, kas aptver verifikācijas procesu un projektēšanas metodoloģiju, kas ir aiz etalona.

Mērķis pēc standartizācijas

Terminal-Bench 2.0 un Harbor apvienotā izlaišana iezīmē soli konsekventākas un mērogojamākas aģentu novērtēšanas infrastruktūras virzienā. Tā kā LLM aģenti izplatās izstrādātāju un darbības vidēs, ir pieaugusi nepieciešamība pēc kontrolētas, reproducējamas testēšanas.

Šie rīki piedāvā potenciālu pamatu vienotai novērtēšanas kopai — atbalsta modeļu uzlabošanu, vides simulāciju un etalonu standartizāciju visā AI ekosistēmā.

avots