Home Tehnoloģija Jauns atmiņas ietvars veido AI aģentus, kas var rīkoties ar reālās pasaules...

Jauns atmiņas ietvars veido AI aģentus, kas var rīkoties ar reālās pasaules neparedzamību

22
0

Pētnieki vietnē Ilinoisas Universitāte Urbana-Champaign un Google Cloud AI Research ir izstrādājuši ietvaru, kas ļauj liela valodas modeļa (LLM) aģentiem organizēt savu pieredzi atmiņas bankā, palīdzot viņiem labāk laika gaitā iegūt sarežģītus uzdevumus.

Ietvars, ko sauc par Argumentācijadestilē “vispārināmas spriešanas stratēģijas” no aģenta veiksmīgiem un neveiksmīgiem mēģinājumiem atrisināt problēmas. Pēc tam aģents izmanto šo atmiņu secinājumu laikā, lai izvairītos no pagātnes kļūdu atkārtošanas un pieņem labākus lēmumus, jo tā saskaras ar jaunām problēmām. Pētnieki parāda, ka, apvienojot ar testa laika mērogošanas paņēmienija aģents veic vairākus problēmas mēģinājumus, argumentingbank ievērojami uzlabo LLM aģentu veiktspēju un efektivitāti.

Viņu atklājumi liecina, ka SemetingBank konsekventi pārspēj klasiskos atmiņas mehānismus tīmekļa pārlūkošanas un programmatūras inženierijas etalonos, piedāvājot praktisku ceļu uz adaptīvāku un uzticamāku AI aģentu veidošanu uzņēmuma lietojumprogrammām.

LLM aģenta atmiņas izaicinājums

Tā kā LLM aģenti tiek izvietoti lietojumprogrammās, kas ilgstoši darbojas, viņi sastopas ar nepārtrauktu uzdevumu plūsmu. Viens no galvenajiem pašreizējo LLM aģentu ierobežojumiem ir viņu nespēja mācīties no šīs uzkrātās pieredzes. Tuvojoties katram uzdevumam izolēti, viņi neizbēgami atkārto pagātnes kļūdas, izmet vērtīgu ieskatu no saistītajām problēmām un nespēj attīstīt prasmes, kas tās laika gaitā padarītu spējīgākas.

Šī ierobežojuma risinājums ir dot aģentiem kaut kādu atmiņu. Iepriekšējie centieni dot aģentiem atmiņu ir vērsti uz iepriekšējās mijiedarbības saglabāšanu atkārtotai izmantošanai, organizējot informāciju dažādās formās no vienkārša teksta līdz strukturētiem grafikiem. Tomēr šīs pieejas bieži neatbilst. Daudzi izmanto neapstrādātus mijiedarbības žurnālus vai glabā tikai veiksmīgus uzdevumu piemērus. Tas nozīmē, ka viņi nevar destilēt augstāka līmeņa, nododamus argumentācijas modeļus, un, kas ir svarīgi, viņi neizmanto un neizmanto vērtīgo informāciju no aģenta neveiksmēm. Kā pētnieki atzīmē savā dokumentā, “esošie atmiņas dizaini bieži vien ir ierobežoti ar pasīvu lietvedību, nevis nodrošina praktiski, vispārināmas norādes turpmākiem lēmumiem”.

Kā darbojas argumentingbank

Sakārtošana ir atmiņas sistēma, kas izstrādāta, lai pārvarētu šos ierobežojumus. Tās galvenā ideja ir destilēt noderīgas stratēģijas un argumentācijas padomus no pagātnes pieredzes strukturētās atmiņas vienumos, kurus var uzglabāt un izmantot atkārtoti.

Pēc Jun Yan, Google zinātnieka un darba līdzautora Jun Yan teiktā, tas iezīmē būtisku aģentu darbību maiņu. "Tradicionālie aģenti darbojas statiski – katrs uzdevums tiek apstrādāts izolēti," Jans paskaidroja. "SmementingBank to maina, pārvēršot katru uzdevuma pieredzi (veiksmīgu vai neveiksmīgu) par strukturētu, atkārtoti lietojamu spriešanas atmiņu. Tā rezultātā aģents nesākas no nulles ar katru klientu; Tas atgādina un pielāgo pierādītas stratēģijas no līdzīgām pagātnes gadījumiem."

Sistēma apstrādā gan veiksmīgu, gan neveiksmīgu pieredzi un pārvērš tos par noderīgu stratēģiju un profilaktisko nodarbību kolekciju. Aģents spriež par panākumiem un neveiksmēm LLM-AS-A-tiesnešu shēmas Lai novērstu nepieciešamību pēc cilvēka marķēšanas.

Yan nodrošina praktisku šī procesa piemēru darbībā. Aģents, kura uzdevums ir atrast Sony austiņas, var neizdoties, jo tā plašais meklēšanas vaicājums atgriež vairāk nekā 4000 neatbilstošu produktu. "ScementingBank vispirms mēģinās izdomāt, kāpēc šī pieeja neizdevās," Yan teica. "Pēc tam tas destilēs tādas stratēģijas kā “optimizēt meklēšanas vaicājumu” un “ierobežotos produktus ar kategoriju filtrēšanu”. Šīs stratēģijas būs ārkārtīgi noderīgas, lai veiksmīgi veiktu līdzīgus uzdevumus nākotnē."

Course of darbojas slēgtā cilpā. Kad aģents saskaras ar jaunu uzdevumu, tas izmanto uz iegulšanu balstītu meklēšanu, lai iegūtu atbilstošas ​​atmiņas no MillingBank, lai vadītu tās darbības. Šīs atmiņas tiek ievietotas aģenta sistēmas uzvednē, nodrošinot kontekstu tā lēmumu pieņemšanai. Kad uzdevums ir pabeigts, ietvars izveido jaunus atmiņas vienumus, lai iegūtu ieskatu no panākumiem un neveiksmēm. Pēc tam šīs jaunās zināšanas tiek analizētas, destilētas un apvienotas argumentācijas bankā, ļaujot aģentam nepārtraukti attīstīties un uzlabot tās iespējas.

Superparakstīšanas atmiņa ar mērogošanu

Pētnieki atrada spēcīgu sinerģiju starp atmiņu un testa laika mērogošanaApvidū Klasiskā testa laika mērogošana ietver vairāku neatkarīgu atbilžu ģenerēšanu uz vienu un to pašu jautājumu, wager pētnieki apgalvo, ka šī “vaniļas forma nav optimāla, jo tā neizmanto raksturīgo kontrastējošo signālu, kas rodas no liekas izpētes par to pašu problēmu”.

Lai to risinātu, viņi ierosina atmiņu, kas apzinās testa laika mērogošanu (MATTS), kas integrē mērogošanu ar MerstingBank. Matts nāk divās formās. “Paralēlā mērogā” sistēma ģenerē vairākas trajektorijas vienam un tam pašam vaicājumam, pēc tam salīdzina un kontrastē, lai identificētu konsekventus spriešanas modeļus. Pēc kārtas mērogošanas aģents iteratīvi uzlabo savu argumentāciju vienā mēģinājumā, un starpposma notis un korekcijas kalpo arī kā vērtīgi atmiņas signāli.

Tas rada tikumīgu ciklu: esošā atmiņa ar spriedumu bankā virza aģentu uz daudzsološākiem risinājumiem, savukārt daudzveidīgā pieredze, kas rodas, izmantojot mērogošanu

“Šī pozitīvā atgriezeniskā saite pozicionē uz atmiņu balstītu pieredzi mērogošana kā jauna mērogošanas dimensija aģentiem,” raksta pētnieki.

Sprieduma banka darbībā

Pētnieki pārbaudīja savu ietvaru Webarena (tīmekļa pārlūkošana) un Swe-the-vew-verified (programmatūras inženierija) Benchmarks, izmantojot tādus modeļus kā Google’s Gemini 2.5 Professional un Anthropic’s Claude 3.7 Sonnet. Viņi salīdzināja argumentācijas banku ar bāzes līnijām, ieskaitot nesaturošus aģentus un aģentus, izmantojot uz trajektoriju balstītu vai uz darbplūsmu balstītu atmiņu ietvaru.

Rezultāti rāda, ka argumentingbank konsekventi pārspēj šīs bāzes līnijas visās datu kopās un LLM mugurkaulā. Webarena tas uzlaboja kopējo panākumu līmeni līdz 8,3 procentpunktiem, salīdzinot ar aģentu bez atmiņas. Tas arī labāk vispārināja grūtākus, starpdomēnu uzdevumus, vienlaikus samazinot mijiedarbības darbību skaitu, kas nepieciešami uzdevumu veikšanai. Apvienojot to ar Matts, gan paralēlā, gan secīgā mērogošana vēl vairāk palielināja veiktspēju, konsekventi pārspējot standarta testa laika mērogošanu.

Šim efektivitātes pieaugumam ir tieša ietekme uz darbības izmaksām. Yan norāda uz gadījumu, kad aģents bez atmiņas veica astoņus izmēģinājumu un kļūdu soļus, lai vietnē atrastu pareizo produkta filtru. "No šīm izmēģinājumu un kļūdu izmaksām varētu izvairīties, izmantojot atbilstošu ieskatu no misistingbank," Viņš atzīmēja. "Šajā gadījumā mēs gandrīz divas reizes ietaupām darbības izmaksas," kas arī uzlabo lietotāja pieredzi, ātrāk risinot problēmas.

Uzņēmumiem MillingBank var palīdzēt attīstīt rentablus aģentus, kuri var mācīties no pieredzes un laika gaitā pielāgoties sarežģītās darbplūsmās un tādās jomās kā programmatūras izstrāde, klientu atbalsts un datu analīze. Kā secināts rakstā, “mūsu atklājumi liecina par praktisku ceļu uz adaptīvu un mūža mācības aģentu veidošanu.”

Jans apstiprināja, ka viņu atklājumi norāda uz patiesi kompozīcijas intelekta nākotni. Piemēram, kodēšanas aģents no atsevišķiem uzdevumiem varēja apgūt diskrētas prasmes, piemēram, API integrāciju un datu bāzes pārvaldību. "Laika gaitā šīs modulārās prasmes … kļūst par celtniecības blokiem, ko aģents var elastīgi rekombinēt, lai atrisinātu sarežģītākus uzdevumus," Viņš sacīja, ierosinot nākotni, kurā aģenti var autonomi apkopot savas zināšanas, lai pārvaldītu veselas darbplūsmas ar minimālu cilvēku uzraudzību.

avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here