Home Tehnoloģija AI ir izaugusi ārpus cilvēku zināšanām, saka Google DeepMind vienība

AI ir izaugusi ārpus cilvēku zināšanām, saka Google DeepMind vienība

17
0

Worawit Chutrakunwanit/Getty Photographs

Mākslīgā intelekta pasaule (AI) nesen ir nobažījusies par ģeneratīvu AI progresēšanu ārpus vienkāršiem testiem, kurus AI modeļi viegli pāriet. Slavenais Tjūringa assessments ir “piekauts” savā ziņā, un strīdi notiek par to, vai jaunākie modeļi tiek veidoti, lai spēlētu etalona testus, kas mēra veiktspēju.

Problēma, teiksim, zinātnieki Google Deepmind vienībā, nav paši testi, wager gan ierobežotā AI modeļu izstrāde. AI apmācības dati ir pārāk ierobežoti un statiski, un tie nekad nebūs AI uz jaunām un labākām spējām.

Papīrā Ievietoja Deepmind pagājušajā nedēļāDaļa no MIT Press gaidāmās grāmatas, pētnieki ierosina, ka AI ir jāļauj sava veida “pieredzei”, mijiedarbojoties ar pasauli, lai formulētu mērķus, pamatojoties uz vides signāliem.

Arī: Ar AI modeļiem, kas aplūko katru etalonu, ir pienācis laiks novērtēt cilvēku

“Neticami jaunas iespējas radīsies, kad tiks izmantots pilnīgs pieredzes mācīšanās potenciāls,” rakstā rakstiet DeepMind zinātniekus Deividu Sudrabu un Ričardu Suttonu, Laipni lūdzam pieredzes laikmetāApvidū

Abi zinātnieki ir leģendas laukā. Sudrabs visslavenāk vadīja pētījumu, kura rezultātā tika iegūts Alphazero, Deepmind AI modelis, kas pārspēja cilvēkus šaha un aiziešanas spēlēs. Suttons ir viens no diviem Tjūringas balvu ieguvušajiem AI pieejas izstrādātājiem, ko sauc par pastiprināšanas mācīšanos, ka Sudraba un viņa komanda mēdza izveidot Alphazero.

Divu zinātnieku aizstāvība balstās uz pastiprināšanas mācībām un Alphazero nodarbībām. To sauc par “straumēm”, un tas ir paredzēts, lai novērstu mūsdienu lielo valodu modeļu (LLM) trūkumus, kas ir izstrādāti tikai, lai atbildētu uz individuāliem cilvēkiem.

DeepMind-2025-us-leinfortion-Learning

Google DeepMind

Sudrabs un Suttons norāda, ka neilgi pēc tam, kad Alphazero un tā priekšgājējs AlphaGo pārsprāga uz skatuves, ģeneratīvie AI rīki, piemēram, Chatgpt, uzņēma skatuvi un “atmeta” pastiprināšanas mācīšanos. Šim gājienam bija priekšrocības un trūkumi.

Arī: Openai dziļajā pētījumā ir vairāk faktu vākšanas izturības nekā jums, wager tas joprojām ir nepareizi pusi laika

Gen AI bija svarīgs avanss, jo Alphazero pastiprināšanas mācīšanās izmantošana bija ierobežota ar ierobežotu lietojumu. Tehnoloģija nevarēja pārsniegt “pilnas informācijas” spēles, piemēram, šahu, kur ir zināmi visi noteikumi.

Gen AI modeļi, no otras puses, var rīkoties ar spontānu cilvēku ieguldījumu, kas nekad agrāk nav saskārušies, bez skaidriem noteikumiem par to, kā viss ir paredzēts.

Tomēr, izmetot pastiprināšanas mācīšanos, šajā pārejā kaut kas tika zaudēts: aģenta spēja pašas atklāt savas zināšanas ”, viņi raksta.

Tā vietā viņi novēro, ka LLMS “[rely] par cilvēku aizspriedumu “vai to, ko cilvēks vēlas uzvednē. Šī pieeja ir pārāk ierobežota. Viņi liek domāt, ka cilvēku spriedums” uzliek “necaurlaidīgus griestus aģenta sniegumam: aģents nevar atklāt labākas stratēģijas, kuras nepietiekami novērtē cilvēka vērtētājs.

Cilvēka spriedums ir ne tikai šķērslis, wager arī īss, izgriezts tūlītējas mijiedarbības raksturs, kas nekad neļauj AI modelim iziet ārpus jautājuma un atbildēt.

“Cilvēku datu laikmetā uz valodu balstīta AI lielā mērā ir vērsta uz īsām mijiedarbības epizodēm: piemēram, lietotājs uzdod jautājumu un (iespējams, pēc dažām domājošām darbībām vai rīka izmantošanas darbībām) aģents atbild,” raksta pētnieki.

“Aģenta mērķis ir tikai pašreizējās epizodes rezultātos, piemēram, tieši atbildot uz lietotāja jautājumu.”

Nav atmiņas, nav nepārtrauktības starp mijiedarbības fragmentiem. “Parasti maz informācijas vai tās nav vispār, no vienas epizodes uz otru, kas laika gaitā izslēdz jebkādu adaptāciju,” rakstiet Sudrabu un Suttonu.

Arī: AI modeļa sacīkstes pēkšņi ir kļuvušas daudz tuvāk, saka Stenforda zinātnieki

Tomēr viņu ierosinātajā pieredzes vecumā “aģenti apdzīvos pieredzes plūsmas, nevis īsus mijiedarbības fragmentus”.

Sudrabs un Suttons uzrāda analoģiju starp straumēm un cilvēkiem, kas mācās uzkrātās pieredzes laikā, un to, kā viņi rīkojas, pamatojoties uz tālsatiksmes mērķiem, ne tikai uz tūlītēju uzdevumu.

“Spēcīgiem aģentiem vajadzētu būt savai pieredzes straumei, kas ilgstoši progresē, tāpat kā cilvēki, viņi raksta.

Sudraba un Suttons apgalvo, ka “šodienas tehnoloģija” ir pietiekama, lai sāktu veidot straumes. Faktiski sākotnējie soļi pa ceļam ir redzami tādās attīstībās kā AI aģentu tīmekļa pārlūkošana, ieskaitot Openai dziļo pētījumu.

“Nesen jauns prototipa aģentu vilnis ir sācis mijiedarboties ar datoriem vēl vispārīgāk, izmantojot to pašu saskarni, kuru cilvēki izmanto datora darbībai,” viņi raksta.

Pārlūkprogrammas aģents iezīmē “pāreju no tikai cilvēku privilēģijas uz komunikāciju uz daudz autonomāku mijiedarbību, kur aģents spēj rīkoties patstāvīgi pasaulē”.

Arī: Tjūringa testam ir problēma – un Openai GPT -4.5 to vienkārši atklāja

Tā kā AI aģenti pārsniedz tikai tīmekļa pārlūkošanu, viņiem ir nepieciešams veids, kā mijiedarboties un mācīties no pasaules, liecina sudrabs un Suttons.

Viņi ierosina, ka AI aģenti straumēs mācīsies, izmantojot tādu pašu pastiprināšanas mācīšanās principu kā Alphazero. Mašīnai tiek piešķirts pasaules modelis, kurā tā mijiedarbojas, līdzīga šaha galdam un noteikumu kopums.

Tā kā AI aģents pēta un veic darbības, tas saņem atsauksmes kā “atlīdzību”. Šīs atlīdzības apmāca AI modeli par to, kas ir vairāk vai mazāk vērtīgs starp iespējamām darbībām noteiktā apstākļos.

Pasaule ir pilna ar dažādiem “signāliem”, kas nodrošina šos atlīdzību, ja aģentam ir atļauts tos meklēt, iesaka sudrabs un Suttons.

“No kurienes atalgojums nāk, ja ne no cilvēku datiem? Tiklīdz aģenti kļūst savienoti ar pasauli, izmantojot bagātīgas darbības un novērošanas telpas, nepamatotu signālu netrūks, lai nodrošinātu atalgojuma pamatu. Faktiski pasaule ir daudz tādu daudzumu kā izmaksas, kļūdu rādītāji, izsalkums, produktivitāte, veselības metrika, klimata metrika, peļņa, pārdošanas apjomi/PELNE, panākumi, apmeklējumi, redzes, yiels, krājumi, akcijas, līdzvērtīgas, piemēram, gaviles, gūstot panākumus, veiksmīgi, redzi, redzes, redzes, tilpnes, g. Precizitāte, jauda, ​​attālums, ātrums, efektivitāte vai enerģijas patēriņš.

Lai sāktu AI aģentu no fonda, AI izstrādātāji varētu izmantot “pasaules modeļa” simulāciju. Pasaules modelis ļauj AI modelim veikt prognozes, pārbaudīt šīs prognozes reālajā pasaulē un pēc tam izmantot atlīdzības signālus, lai modeli padarītu reālistiskāku.

“Tā kā aģents turpina mijiedarboties ar pasauli visā pieredzes plūsmā, tā dinamikas modelis tiek nepārtraukti atjaunināts, lai labotu jebkādas kļūdas tās prognozēs,” viņi raksta.

Arī: AI nesit pie sienas, tā vienkārši kļūst pārāk gudra etaloniem, saka Antropic

Sudrabs un Suttons joprojām sagaida, ka cilvēkiem būs loma mērķu noteikšanā, kuriem signāli un atlīdzība kalpo aģenta vadīšanai. Piemēram, lietotājs var norādīt plašu mērķi, piemēram, “uzlabot manu piemērotību”, un atlīdzības funkcija varētu atgriezt lietotāja sirdsdarbības ātruma, miega ilguma un veikto darbību funkciju. Vai arī lietotājs var norādīt mērķi “palīdzēt man iemācīties spāņu valodu”, un atlīdzības funkcija varētu atgriezt lietotāja spāņu eksāmenu rezultātus.

Cilvēka atgriezeniskā saite kļūst par “visaugstākā līmeņa mērķi”, kas kalpo viss pārējais.

Pētnieki raksta, ka AI aģenti ar šīm tālsatiksmes iespējām būtu labāki kā AI palīgi. Viņi varētu izsekot cilvēka miegam un uzturam vairāku mēnešu vai gadu laikā, sniedzot padomus par veselību, kas nav ierobežota ar jaunākajām tendencēm. Šādi aģenti varētu būt arī izglītības palīgi, kas ilgstoši izseko studentiem.

“Zinātnes aģents varētu sasniegt ambiciozus mērķus, piemēram, atklāt jaunu materiālu vai samazināt oglekļa dioksīdu,” viņi piedāvā. “Šāds aģents ilgstošā laika posmā varētu analizēt reālās pasaules novērojumus, attīstot un darbojas simulācijas, kā arī liecina par reālās pasaules eksperimentiem vai intervencēm.”

Arī: “Cilvēces pēdējais eksāmens” etalons ir labāko AI modeļu celiņš – vai jūs varat darīt labāk?

Pētnieki norāda, ka “domāšanas” vai “argumentācija” AI modeļi, piemēram, Dvīņi, Deepseek’s R1 un Openai O1, var pārspēt pieredzes aģenti. Problēma ar spriešanas līdzekļiem ir tā, ka viņi “atdarina” cilvēku valodu, kad viņi rada izteiktu rezultātu par atbildes soļiem, un cilvēka domas var ierobežot ar tā iegultiem pieņēmumiem.

“Piemēram, ja aģents būtu apmācīts, lai izmantotu cilvēku domas un ekspertu atbildes no pirms 5000 gadiem, iespējams, tas ir pamatojis par fizisku problēmu animisma ziņā,” viņi piedāvā. “Pirms 1000 gadiem tas, iespējams, ir pamatots ar teistisku izteiksmē; pirms 300 gadiem tas, iespējams, bija pamatots ar Ņūtona mehāniku; un pirms 50 gadiem kvantu mehānikas izteiksmē.”

Pētnieki raksta, ka šādi aģenti “atbloķēs nepieredzētas iespējas”, kas noved pie “nākotnes, kas dziļi atšķiras no visa, ko mēs esam redzējuši iepriekš”.

Tomēr viņi norāda, ka ir arī daudz, daudz risku. Šie riski ir vērsti ne tikai uz AI aģentiem, kas padara cilvēku darbu novecojuši, lai gan viņi atzīmē, ka darba zaudēšana ir dangers. Aģenti, kas “var autonomi mijiedarboties ar pasauli ilgākā laika posmā, lai sasniegtu ilgtermiņa mērķus”, viņi raksta, palielina izredzes, ka cilvēkiem ir mazāk iespēju “iejaukties un starpināt aģenta rīcību”.

Pozitīvi, viņi norāda, ka aģents, kurš var pielāgoties, pretstatā mūsdienu fiksētajiem AI modeļiem, “varētu atzīt, kad tā uzvedība izraisa cilvēku rūpes, neapmierinātību vai ciešanas, un adaptīvi modificē savu uzvedību, lai izvairītos no šīm negatīvajām sekām”.

Arī: Google apgalvo, ka Gemma 3 sasniedz 98% no DeepSeek precizitātes – izmantojot tikai vienu GPU

Atstājot sīkāku informāciju, Sudrabs un Suttons ir pārliecināti, ka straumju pieredze radīs tik daudz vairāk informācijas par pasauli, ka tā mazinās visus Wikipedia un Reddit datus, ko izmanto, lai apmācītu šodienas AI. Uz straumi balstīti aģenti var pat pāriet garām cilvēka intelektam, atsaucoties uz mākslīgā vispārējā inteliģences vai superinteligences ienākšanu.

“Pieredzes dati aizēnos cilvēku ģenerētu datu mērogu un kvalitāti,” raksta pētnieki. “Šī paradigmas maiņa, ko papildina algoritmiskie sasniegumi RL [reinforcement learning]daudzās jomās atbloķēs jaunas iespējas, kas pārsniedz jebkura cilvēka īpašumā. “

Sudrabs arī izpētīja šo tēmu dziļi Podcast apraide šomēnesApvidū



avots