Home Tehnoloģija Pat labākos AI aģentus kavē šis protokols – ko var izdarīt

Pat labākos AI aģentus kavē šis protokols – ko var izdarīt

7
0

Yuuji/e+, izmantojot Getty Photos

Sekojiet zdnet: Pievienojiet mūs kā vēlamo avotu Google.


ZDNET galvenie pārņemšana

  • Pat labākos AI modeļus ir izaicinājums veikt uzdevumus, izmantojot MCP.
  • Jaunie etaloni parāda, ka modeļi cīnās, kad uzdevumi kļūst sarežģītāki.
  • Nepieciešama vairāk AI modeļu apmācības, kas raksturīga MCP lietošanai.

Jaunā mākslīgā intelekta starpprogrammatūras kategorija, kas pazīstama kā modeļa konteksta protokols, ir paredzēta, lai padarītu ģeneratīvas AI programmas, piemēram, tērzēšanas robotus, jaudīgāki, ļaujot tiem savienoties ar dažādiem resursiem, ieskaitot iesaiņotu programmatūru, piemēram, datu bāzes.

Vairāki pētījumi tomēr atklāj, ka pat labākie AI modeļi cīnās par modeļa konteksta protokola izmantošanu. Populārākajiem AI modeļiem, piemēram, Google’s Gemini 5, ir nepieciešami daudzi, daudzi mijiedarbības kārtas ar ārējām programmām, kas noved pie ilgstošas ​​AI modeļu veiktspējas kavēšanās.

Arī: Kas ir modeļa konteksta protokols? Topošais standarta tilts AI un dati, paskaidrots

“Pat vismodernākie modeļi cīnās ar dažādām iespējām,” raksta Zhenting Wang un komanda Consulting Agency Accenture, MIT-IBM Watson AI laboratorijā un Kalifornijas universitātē Berkeley augusta darbā, kas ieviesa MCP-Bench, kas ir 250 uzdevumu komplekts AI aģentiem, kas nodarbina MCP.

“Veiktspēja parasti samazinās, kad uzdevumi Pāreja no viena servera uz vairāku serveru jomām,” pagājušajā mēnesī raksta Zikang Guo un komanda Ķīnas Zinātnes un tehnoloģijas universitātē, kad viņi pārbaudīja vairākus AI modeļus savā etalona testā-MCP-Agentbench.

Pat labākajiem modeļiem šodien, ieskaitot Openai GPT-5, ir “neveiksmju gadījumi”, kas rodas no “atkārtotas vai izpētes mijiedarbības, kas nespēj būt jēgpilnam progresam”, raksta vadošais autors Zijians Vu un Singapūras Nacionālās universitātes komanda un sadarbojas iestādes rakstā, kurā pagājušajā mēnesī paziņoja par viņu etalonu, Makparmarku.

Kur AI modelis var noiet greizi ar MCP

MCP ir sava veida starpprogrammatūra, lai AI pārvērstu klienta-servera mijiedarbībā. To pagājušajā gadā ieviesa Gen AI Startup Anthropic (lielo valodu modeļu un tērzēšanas robotu Claude saimes veidotāji) kā drošu nozares standarta veidu, kā savienot LLM un AI aģentus ar ārējiem programmatūras resursiem, piemēram, datu bāzēm un klientu attiecību pārvaldības programmatūru.

Kā skaidro ZDNET Stīvens Vaughan-Nichols, piemēram, starpprogrammatūra, piemēram, MCP, var samazināt savienojumu skaitu, kas AI programmai ir jāuzsāk, lai izveidotu savienojumu ar vairākiem ārējiem resursiem.

Arī: Chatgpt tagad var izveidot savienojumu ar MCP serveriem – lūk, kā un ko skatīties

Tomēr standarta iegūšana nenozīmē, ka AI modelis, kura funkcionalitāte ietver lielu nejaušības devu (“varbūtība” tehniskā ziņā), uzticīgi ieviesīs MCP.

AI modelim, kas pievienots MCP, ir jāveido izvade, kas sasniedz vairākas lietas, piemēram, formulējot plānu atbildēt uz vaicājumu, izvēloties, kuri ārējie resursi piekļūt, kādā secībā sazināties ar MCP serveriem, kas noved pie ārējām lietojumprogrammām, un pēc tam strukturējot vairākus informācijas pieprasījumus, lai iegūtu galīgo izvadi, lai atbildētu uz QUORY.

Dažādie pētījumi rāda, ka, lai arī tādi augstākā līmeņa modeļi kā Gemini 5 un GPT-5 var darīt labāk nekā mazāk iespaidīgas programmas, visiem modeļiem joprojām ir ierobežota spēja pārvaldīt visus šos izaicinājumus. Jautājumi visos modeļos ietver pārmērīga skaita darbību veikšanu informācijas iegūšanai, pat ja valodas modeļa pieejas plāns bija pareizs.

Ko mums saka etaloni

U-Berkeley-2025-MCP-bench-darba plūsma

UC Berkeley, Accenture, IBM

Visi etalona testi izmanto līdzīgu pieeju: viņi apkopo izaicinošu vaicājumu grupu par informāciju un MCP serveru kolekciju, kurai AI modeļi var piekļūt, un informācijas resursiem, kuriem šie MCP serveri piešķir piekļuvi.

Resursi šajos testos bieži ir publiski pieejami resursi, piemēram, Google meklēšana, Wikipedia vai kāda cita plaši pieejama informācijas krātuve.

U-Berkeley-2025-MCP-bench-example-uzdevums

UC Berkeley, Accenture, IBM

Vanga un komandas Accenture darba problēma bija tiešsaistes informācijas iegūšana, lai plānotu nedēļas nogales pārgājiena braucienu. Uzvedne sākās ar “es mēģinu plānot nedēļu ilgu pārgājienu un kempinga cilpu, kas sākas un beidzas Denverā, un es ceru, ka jūs patiešām varat pavadīt laiku ar mani par detaļām”, un pēc tam turpinājāt norādīt vairākas prasības, piemēram, to, kurus parkus apmeklēt, apmeklētāju stundas, lietus iespējas utt. Utt.

Pieprasījums bija jānosūta uz vairākiem MCP servera iespējotiem informācijas pakalpojumiem, ieskaitot Google Maps un ASV Nacionālā parka vietnes, kā arī uz konkrētiem rīkiem, piemēram, “FindParks, GetParkDetails, GetAlerts, Getvisitorcenters, GetCampground, Getevents”.

Arī: Anthropic tagad ļauj izstrādātājiem izmantot Claude kodu ar jebkuru attālo MCP serveri

Visi etaloni ir domāti, lai attīstītu AI modeļu mērīšanu no vienkāršiem funkciju izsaukšanas izaicinājumiem. Etalīni pieprasa AI modeļiem, lai sasniegtu vairākas prasības, ieskaitot dabiskās valodas uzvednes pārvēršanu meklēšanas pieprasījumos, kas ievēro shēmu-komunikāciju secību MCP, kas norādīts JSON kodā, uz kura ir izveidots MCP.

Cieņa shēma ir tikai zemākais sasniegumu līmenis. Augstākā līmenī “aģentiem ir jāidentificē pareizie instrumenti no lielām, neviendabīgām instrumentu telpām, saskaroties ar neviennozīmīgiem vai nepietiekami noteiktajiem uzdevumu aprakstiem,” raksta Vangs un komanda. “Tam nepieciešami semantisko variantu, kas tiek liegti, tiek galā ar nekonsekvencēm, un izvairīšanos no slazdiem, ko rada virspusēji ticami, guess neatbilstoši rīki.”

Etalīni parasti mēra, cik daudz dažādu resursu izmantos programma un cik “pagriezienu” ir nepieciešami efektivitātes rādītājs, ar kuru AI modelis izmanto šos resursus.

Arī: Vai AI ir tā vērts jūsu biznesam? 5 ekspertu padomi, lai palīdzētu pierādīt IA

Kā Wang un komanda to raksturo, MCP-Bench “mēra strukturālo saskaņotību, atkarības izpratni, paralēlisma efektivitāti un refleksīvu adaptāciju. Uzdevumi ietver ne tikai lineāras darbplūsmas, guess arī sarežģītas sastāvu, kas prasa vienlaicīgu mijiedarbību vairākos serveros ar vairākiem mērķiem.” Modeļi to visu uzskata par lielāku vai mazāku spēju iesaistīties tā sauktajā “ilgstošā horizonta plānošanā”.

Ja AI modelim ir jāveic arvien vairāk pagriezienu, lai iegūtu nepieciešamo informāciju no MCP servera, tas var liecināt, ka tā nespēj pareizi plānot, kā izmantot pieejamos resursus.

Visos šos etalonus izmanto vairākus lielas valodas modeļus, lai salīdzinātu, kā pašreizējā piedāvājuma ainava darbojas relatīvi.

U-Berkeley-2025-MCP-bench-scores

UC Berkeley, Accenture, IBM

Labā ziņa ir tā, ka visi trīs šeit minētie pētījumi ziņoja, ka lielāki, jaudīgāki AI modeļi ir ieguvuši labākus nekā mazākus modeļus. Tas liek domāt, ka, tā kā modeļiem daudzos aspektos kļūst labāki, tie var arī uzlabot ar MCP saistītiem izaicinājumiem.

U-Singapore-2025-McPmark-outline

Singapūras Nacionālā universitāte

Zijian Wu un Singapūras Nacionālās universitātes komanda arī atzīmē augstākā līmeņa modeļu priekšrocības, lai labāk plānotu, rakstot: “Spēcīgāki modeļi gūst panākumus ar labāku lēmumu pieņemšanu un mērķtiecīgu izpēti, nevis aklu izmēģinājumu un kļūdu”.

Vangs un komanda secina, ka “īstais diferenciāls ir izturība pret mērogošanu, kur augstākā līmeņa modeļi demonstrē skaidras priekšrocības, rīkojoties ar garu horizontu, savstarpējo serveru uzdevumiem”.

Guo un komanda atrod dažus atvērtā pirmkoda modeļus (piemēram, QWEN3-235B), ņemiet labākos rezultātus, atzīmējot “pārsteidzošu un nozīmīgu tendenci: vadošie atvērtā pirmkoda modeļi parāda izcilas iespējas, konkurējot un pat pārspējot viņu īpašniekus.”

ust-china-2025-mcp-agentbench

Ķīnas zinātnes un tehnoloģijas universitāte

Guess visiem modeļiem ir arī nepilnības. Vangs un komanda saistās ar to, ka viņu MCP-bench uzdevumi “pēc būtības ir daudzpakāpju un bieži vien ir saistīti ar neviendabīgu instrumentu ķēdes starp serveriem” un uzskata, ka “pat spēcīgi [AI] Parasti modeļiem ir vajadzīgas vairākas mijiedarbības kārtas “un” cīņa ar dažādām iespējām, piemēram, atkarības ķēdes atbilstību, instrumentu izvēli trokšņainā vidē un tālsatiksmes plānošanu “.

Arī: AI vispār nav “argumentācija” – kā šī komanda atkāpās no nozares hype

Tāpat Guo un komanda izsauc problēmas, kas rodas līdz ar pieaugošo MCP mijiedarbības sarežģītību, atzīmējot, ka visos modeļos “veiktspēja parasti samazinās, jo uzdevumi Pārejot no viena servera uz vairāku servera jomām […] Līdzīgs kritums rodas, jo zvana atkarība palielinās no vienkārša viena līdz sarežģītiem secīgiem zvaniem. “

Kopumā šķiet, ka, tā kā uzdevumi kļūst sarežģītāki ar MCP, visiem AI modeļiem ir grūtāks laiks, pat ja daži dara daudz labāk nekā citi.

Ko var darīt, lai modeļi būtu labāki?

Tūlītēja līdz pat dažādu etalonu izņemšana ir tāda, ka AI modeļiem jāpielāgojas jaunam laikmetam, kurā MCP izmantošana ir izaicinājums. Iespējams, ka AI modeļiem jāattīstās jaunos virzienos, lai izpildītu izaicinājumu.

Visi trīs pētījumi identificē problēmu: veiktspējas pasliktināšanās, jo AI modeļiem ir jāpiekļūst vairāk MCP serveru. Vairāku resursu sarežģītība sāk pārspēt pat modeļus, kas vislabāk var plānot, kādas darbības jāveic pašā sākumā.

Kā Wu un komanda to ievietoja savā McPmark dokumentā, visu šo MCP serveru sarežģītība sasprindzina jebkura AI modeļa spēju sekot līdzi tam visam.

Arī: patērētāji, visticamāk, maksās par “atbildīgu” AI rīkiem, saka Deloitte aptauja

Viņi identificē galveno izaicinājumu “aģenta spējai pārvaldīt arvien pieaugošo vēsturi” MCP mijiedarbībā un “galveno neuzticamību, kuru var atrisināt, tikai būvējot aģentus ar spēcīgu kļūdu apstrādi un paškoriģēšanas iespējām”.

Tiešākais ceļš, lai uzlabotu AI modeļu veiktspējas plaisu, var būt to apmācība, kas īpaši paredzēta MCP.

Izmantojot precizēšanas veidu, kas nozīmē AI modeļu apmācību otro reizi pēc galvenā pirms apmācības posma, Vašingtonas universitātes un MIT-IBM Watson AI laboratorijas zinātnieki ir izstrādājuši datu kopu precizēšanai, kas sastāv no miljoniem MCP mijiedarbības piemēru starp AI programmu un ārējiem rīkiem. Kā viņi to saka, tā ir “līdz šim lielākā publiski pieejamā instrumentu-aģentiskā datu kopa”.

Iepazīstināja ar šo mēnesiDatu kopa Toucan spēja izgatavot salīdzinoši mazus AI modeļus, piemēram, atvērtā avota Qwen3-32b, labāk darboties MCP uzdevumos kopumā, salīdzinot ar daudz lielākiem AI modeļiem, piemēram, DeepSeek V3 un Openai O3 Mini, izmantojot tos pašus etalona testus, kurus ierosināja Vangs un citi.

Iegūstiet lielākos stāstus tehnoloģijās katru piektdienu ar Zdnet’s Nedēļa pārskata biļetenāApvidū

Tikpat iepriecinoši kā Toucan, liels atklāts jautājums ir tas, kas jādara ar visiem nepubliskajiem, nestandarta resursiem, kuriem MCP var būt savienots privātajos datu centros. Piemēram, ja AI modeļi ir precīzi noregulēti, lai efektīvāk darbotos ar MCP vislielākajos gadījumu skaitā, vai tas noteikti uzlabos noteikta AI modeļa sniegumu XYZ Corp. Salesforce CRM vai Oracle datu bāzē uz vietas.

Mēs nezinām, kamēr CIO neievienos MCP un uzzinās.



avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here