Home Tehnoloģija Silīcija ielejas likmes uz “vidi”, lai apmācītu AI aģentus

Silīcija ielejas likmes uz “vidi”, lai apmācītu AI aģentus

5
0

 

Gadiem ilgi lielie tehnoloģiju vadītāji ir atzīmējuši AI aģentu redzējumus, kas var autonomi izmantot programmatūras lietojumprogrammas, lai veiktu uzdevumus cilvēkiem. Bet mūsdienu patērētāju AI aģentus izņemiet no grieziena neatkarīgi no tā, vai tas ir Openai’s Chatgpt aģents vai apjukuma komēta, un jūs ātri sapratīsit, cik joprojām ir ierobežota tehnoloģija. Padarot AI aģentus izturīgākus, var izmantot jaunu paņēmienu kopumu, ko nozare joprojām atklāj.

Viens no šiem paņēmieniem ir rūpīgi imitējot darbvietas, kurās aģenti var apmācīt daudzpakāpju uzdevumos-pazīstams kā pastiprināšanas mācīšanās (RL) vide. Līdzīgi kā tas, kā marķētās datu kopas darbināja pēdējo AI vilni, RL vide sāk izskatīties kā kritisks elements aģentu attīstībā.

AI pētnieki, dibinātāji un investori stāsta TechCrunch, ka vadošie AI laboratorijas tagad pieprasa vairāk RL vidi, un netrūkst jaunuzņēmumu, kas cer tos piegādāt.

“Visas lielās AI laboratorijas veido RL vidi iekšēji,” intervijā TechCrunch sacīja Dženifera Li, Andreessen Horowitz galvenā partnere. “Bet, kā jūs varat iedomāties, šo datu kopu izveidošana ir ļoti sarežģīta, tāpēc AI Labs arī skatās uz trešo personu pārdevējiem, kas var radīt augstas kvalitātes vidi un novērtējumus. Visi skatās uz šo telpu.”

Push for RL vidē ir kalēju jaunu labi finansētu jaunuzņēmumu klasi, piemēram, mehanizētu un galveno intelektu, kuru mērķis ir vadīt telpu. Tikmēr lieli datu marķēšanas uzņēmumi, piemēram, Mercor un Surge, saka, ka viņi vairāk iegulda RL vidē, lai neatpaliktu no nozares pārmaiņām no statiskām datu kopām uz interaktīvām simulācijām. Lielākās laboratorijas apsver arī lielus ieguldījumus: saskaņā ar informāciju Antropic vadītāji ir apsprieduši tēriņus vairāk nekā 1 miljards USD RL vidē Nākamā gada laikā.

Investoru un dibinātāju cerība ir tāda, ka viens no šiem jaunizveidotajiem uzņēmumiem parādās kā “mēroga AI vides”, kas attiecas uz USD 29 miljardu datu marķēšanas spēkstaciju, kas darbināja tērzēšanas robota laikmetu.

Jautājums ir, vai RL vide patiesi virzīs AI progresa robežu.

TechCrunch pasākums

Sanfrancisko
|
2025. gada 27.-29. Oktobris

Kas ir RL vide?

Viņu pamatā RL vide ir apmācības vietas, kas imitē, ko AI aģents darītu reālā programmatūras lietojumprogrammā. Viens dibinātājs aprakstīja tos celtniecībā Nesenā intervija “Tāpat kā izveidot ļoti garlaicīgu videospēli.”

Piemēram, vide varētu simulēt hroma pārlūku un uzdevumu AI aģents, iegādājoties zeķu pāri Amazon. Aģents tiek vērtēts pēc tā veiktspējas un nosūta atlīdzības signālu, kad tas izdodas (šajā gadījumā, pērkot cienīgu zeķu pāri).

Kaut arī šāds uzdevums izklausās samērā vienkārši, ir daudz vietu, kur AI aģents varētu tikt paklupts. Tas varētu zaudēt navigāciju tīmekļa lapas nolaižamo izvēlnēs vai pirkt pārāk daudz zeķu. Tā kā izstrādātāji nevar precīzi paredzēt, ko nepareizs pārvērtīs aģents, pati videi jābūt pietiekami izturīgai, lai uztvertu jebkādu negaidītu izturēšanos, un joprojām sniegtu noderīgu atgriezenisko saiti. Tas padara ēkas vidi daudz sarežģītāku nekā statiska datu kopa.

Dažas vide ir diezgan sarežģītas, ļaujot AI aģentiem izmantot rīkus, piekļūt internetam vai izmantot dažādas programmatūras lietojumprogrammas, lai pabeigtu konkrēto uzdevumu. Citi ir šaurāki, kuras mērķis ir palīdzēt aģentam apgūt īpašus uzdevumus uzņēmuma programmatūras lietojumprogrammās.

Kaut arī RL vide ir karstā lieta Silīcija ielejā šobrīd, šīs tehnikas izmantošanai ir daudz precedenta. Viens no Openai pirmajiem projektiem 2016. gadā bija būvēšana “RL sporta zāles“Kas bija diezgan līdzīgi mūsdienu vides koncepcijai. Tajā pašā gadā Google Deepmind’s Alfidžs AI sistēma pārspēja pasaules čempionu galda spēlē, Go. Tas arī izmantoja RL paņēmienus modelētā vidē.

Mūsdienu vides unikālais ir tas, ka pētnieki mēģina veidot datorizētu AI aģentus ar lieliem transformatoru modeļiem. Atšķirībā no Alphago, kas bija specializēta AI sistēma, kas strādāja slēgtā vidē, mūsdienu AI aģenti ir apmācīti, lai būtu vispārīgākas iespējas. AI pētniekiem šodien ir spēcīgāks sākumpunkts, bet arī sarežģīts mērķis, kur vairāk var noiet greizi.

Pārpildīts lauks

AI datu marķēšanas uzņēmumi, piemēram, Scale AI, Surge un Mercor, mēģina izpildīt šo brīdi un veidot RL vidi. Šiem uzņēmumiem ir vairāk resursu nekā daudziem jaunuzņēmumiem telpā, kā arī dziļas attiecības ar AI Labs.

Surge izpilddirektors Edvīns Čens stāsta TechCrunch, ka viņš nesen ir redzējis “ievērojamu pieprasījuma pieaugumu” pēc RL vidēm AI Labs. Spriegums – kas, kā ziņots, ģenerēja Ieņēmumi 1,2 miljardu dolāru vērtībā Pagājušajā gadā, strādājot ar AI laboratorijām, piemēram, Openai, Google, Anthropic un Meta – nesen izveidoja jaunu iekšēju organizāciju, kas īpaši uzdota veidot RL vidi, viņš sacīja.

Tuvums aiz pārsprieguma ir Mercor, starta uzņēmums, kura vērtība ir USD 10 miljardi, kas arī ir strādājusi ar Openai, Meta un Antropic. Mercor piesaista investorus savā biznesa veidošanas RL vidē tādiem domēniem specifiskiem uzdevumiem kā kodēšana, veselības aprūpe un likumi, saskaņā ar mārketinga materiāliem, ko redz TechCrunch.

Mercor izpilddirektors Brendan Foody intervijā TechCrunch sacīja, ka “tikai daži saprot, cik liela ir iespēja ap RL vidi”.

Mēroga AI izmantoja, lai dominētu datu marķēšanas telpā, bet ir zaudējis vietu kopš Meta ieguldīja 14 miljardus dolāru un nolīgusi tā izpilddirektoru. Kopš tā laika Google un Openai samazināja mēroga AI kā datu nodrošinātāju, un startup pat saskaras ar konkurenci datu marķēšanas darbiem Meta iekšpusē. Bet tomēr mērogs cenšas izpildīt mirkli un veidot vidi.

“Tas ir tikai biznesa raksturs [Scale AI] ir iekšā, ”sacīja Četans Rane, mēroga AI produktu vadītājs aģentiem un RL videi.“ Mērogs ir pierādījis savu spēju ātri pielāgoties. Mēs to izdarījām autonomo transportlīdzekļu pirmajās dienās, mūsu pirmajā biznesa vienībā. Kad iznāca Chatgpt, mērogā AI tam pielāgoja. Un tagad mēs atkal pielāgojamies jaunām robežas telpām, piemēram, aģentiem un videi. ”

Daži jaunāki spēlētāji jau no paša sākuma koncentrējas tikai uz vidi. Starp tiem ir mehāniski, startēšana, kas dibināta aptuveni pirms sešiem mēnešiem, ar pārdrošo mērķi “automatizēt visas darba vietas”. Tomēr līdzdibinātājs Metjū Bārnets stāsta TechCrunch, ka viņa firma sāk ar RL vidi AI kodēšanas aģentiem.

Mehāniski mērķis ir piegādāt AI laboratorijas ar nelielu skaitu izturīgu RL vidi, saka Barnett, nevis lielākas datu firmas, kas izveido plašu vienkāršu RL vidi. Līdz šim startup piedāvā programmatūras inženierus 500 000 USD algas Lai izveidotu RL vidi – daudz augstāka nekā stundas darbuzņēmējs varētu nopelnīt darbu mērogā AI vai uzplaukumā.

Mehānizēt jau ir strādājis ar Antropic RL vidē, TechCrunch stāstīja divi avoti, kas pazīstami ar šo lietu. Mehāniski un antropiski atteicās komentēt partnerību.

Citi jaunuzņēmumi der, ka RL vide būs ietekmīga ārpus AI laboratorijām. Galvenais intelekts – jaunuzņēmums, kuru atbalsta AI pētnieks Andrejs Karpathy, dibinātāju fonds un Menlo Ventures – ir mazāki izstrādātāji ar savu RL vidi.

Pagājušajā mēnesī galvenais intelekts uzsāka RL vides centrs, kuru mērķis ir “apskaut seju RL videi”. Ideja ir dot atvērtā pirmkoda izstrādātājiem piekļuvi tiem pašiem resursiem, kādi ir lielām AI laboratorijām, un pārdot šiem izstrādātājiem piekļuvi aprēķina resursiem procesā.

Apmācība, kas parasti ir spējīgi aģenti RL vidē, var būt dārgāka skaitļošana dārgāka nekā iepriekšējās AI apmācības metodes, norāda galvenā intelekta pētnieks Vils Brauns. Līdztekus jaunizveidotiem RL vides veidošanai, GPU pakalpojumu sniedzējiem ir vēl viena iespēja, kas var darbināt procesu.

“RL vide būs pārāk liela, lai dominētu kāds uzņēmums,” intervijā sacīja Brauns. “Daļa no tā, ko mēs darām, ir tikai mēģināt izveidot labu atvērtā pirmkoda infrastruktūru ap to. Mūsu pārdotais pakalpojums ir aprēķinājis, tāpēc tas ir ērts GPU lietošanai, bet mēs to vairāk domājam ilgtermiņā.”

Vai tas mērogos?

Atklāts jautājums par RL vidi ir tas, vai tehnika tiks mērogota, piemēram, iepriekšējās AI apmācības metodes.

Pastiprināšanas mācīšanās pēdējā gada laikā ir veicinājusi dažus no lielākajiem AI lēcieniem, ieskaitot tādus modeļus kā Openai O1 un Anthropic’s Claude Opus 4. Tie ir īpaši svarīgi sasniegumi, jo metodes, kuras iepriekš izmantoja AI modeļu uzlabošanai, tagad parāda samazinošu atdevi.

Vide ir daļa no AI Labs lielākās likmes uz RL, kas, pēc daudziem uzskata, turpinās virzīt progresu, jo procesam pievieno vairāk datu un skaitļošanas resursu. Daži no Openai pētniekiem, kas bija O1, iepriekš TechCrunch teica, ka uzņēmums sākotnēji ir ieguldījis AI argumentācijas modeļos-kas tika izveidoti, izmantojot ieguldījumus RL un testa laika komputācijā-, jo, viņuprāt, tas labi mērogos.

Labākais veids, kā mērogot RL, joprojām nav skaidrs, taču vide šķiet daudzsološs sāncensis. Tā vietā, lai vienkārši apbalvotu tērzēšanas robotus par teksta atbildēm, tie ļauj aģentiem darboties simulācijās ar rīkiem un datoriem, kas atrodas viņu rīcībā. Tas ir daudz resursietilpīgāks, bet potenciāli atalgojošāks.

Daži no tiem ir skeptiski noskaņoti, ka visas šīs RL vides izzudīs. Ross Taylor, bijušais AI pētījumu vadītājs ar meta, kas līdzdibināja vispārējo argumentāciju, stāsta TechCrunch, ka RL videi ir tendence apbalvot hakeru. Šis ir process, kurā AI modeļi krāpj, lai saņemtu atlīdzību, īsti neveicot uzdevumu.

“Es domāju, ka cilvēki nenovērtē, cik grūti ir mērogot vidi,” sacīja Teilors. “Pat labākie publiski pieejamie [RL environments] Parasti nedarbojas bez nopietnām modifikācijām. ”

Openai sava API biznesa inženierzinātņu vadītājs Šervins Vu sacīja Nesenā aplāde ka viņš bija “īss” RL vides jaunuzņēmumos. Wu atzīmēja, ka tā ir ļoti konkurētspējīga telpa, bet arī tas, ka AI pētījumi attīstās tik ātri, ka ir grūti labi apkalpot AI laboratorijas.

Karpathy, investors galvenajā intelektā, kurš RL vidi ir dēvējis par potenciālu izrāvienu, ir arī paudis piesardzību pret RL telpu. A Ievietojiet uz xviņš pauda bažas par to, cik daudz vairāk AI progresu var izspiest no RL.

“Es esmu bullish par vidi un aģentu mijiedarbību, bet es esmu lācīgs, īpaši pastiprināšanas mācīšanās,” sacīja Karpathy.

Atjauninājums: šī raksta iepriekšējā versija, kas mehanizēta kā mehanizēts darbs. Tas ir atjaunināts, lai atspoguļotu uzņēmuma oficiālo vārdu.

avots