Home Tehnoloģija Pašattīstības valodu modeļi kļūst par realitāti ar MIT atjaunināto roņu paņēmienu

Pašattīstības valodu modeļi kļūst par realitāti ar MIT atjaunināto roņu paņēmienu

9
0

Masačūsetsas Tehnoloģiju institūta (MIT) pētnieki iegūst jaunu uzmanību attīstībai un atklāts avots paņēmiens, kas ļauj lieliem valodas modeļiem (LLM)-piemēram, tiem, kas ir ChatGpt un modernākie AI tērzēšanas robotu pamati, uzlabot sevi, ģenerējot sintētiskos datus, lai precīzi pielāgotos.

Šī tehnika, kas pazīstama kā SEAL (pašapzinoša LLMS), pirmo reizi tika aprakstīta dokumentā, kas publicēts jau jūnijā, un tajā laikā sedza VentureBeat.

Ievērojami paplašināts un Pagājušajā mēnesī tika izlaista atjaunināta papīra versijakā arī atvērtā koda kods, kas ievietots vietnē github (Saskaņā ar MIT licenci, kas ļauj izmantot komerciālu un uzņēmumu), un šonedēļ Sociālajā tīklā X starpā veic jaunus viļņus starp AI Energy lietotājiem.

SEAL ļauj LLM autonomi ģenerēt un piemērot savas precizēšanas stratēģijas. Atšķirībā no parastajiem modeļiem, kas paļaujas uz fiksētiem ārējiem datiem un cilvēku izstrādātiem optimizācijas cauruļvadiem, SEAL ļauj modeļiem attīstīties, izveidojot savus sintētiskās apmācības datus un atbilstošās optimizācijas direktīvas.

Attīstību nāk no komandas, kas saistīta ar MIT neiespējamo AI laboratoriju, ieskaitot Adam Zweiger, Jyoth Pari, Han Guo, Ekin Akyürek, Yoon Kim un Pulkit Agrawal. Viņu pētījums nesen tika prezentēts 39. konferencē par neironu informācijas apstrādes sistēmām (Neurips 2025).

Priekšvēsture: no “ārpus statiskās AI” līdz paša adaptīvām sistēmām

Šā gada sākumā VentureBeat pirmo reizi ziņoja par SEAL kā agrīnās stadijas sistēmu, kas ļāva valodu modeļiem ģenerēt un apmācīt savus sintētiskos datus-potenciālu līdzekli iepriekš izvietotu iepriekš aprakstītu modeļu stagnācijai.

Šajā posmā Seal tika ierāmēts kā koncepcijas pierādījums, kas varētu ļaut uzņēmuma AI aģentiem nepārtraukti mācīties dinamiskā vidē bez manuālas pārkvalifikācijas.

Kopš tā laika pētījums ir ievērojami progresējis. Jaunā versija izvēršas iepriekšējā ietvarā, parādot, ka Seal pašpārvaldes spēju skalas ar modeļa lielumu, efektīvāk integrē pastiprināšanas mācīšanos, lai samazinātu katastrofisku aizmirstību, un formalizē SEAL divu cilpu struktūru (iekšēja uzraudzīta precīza noregulēšana un ārējā pastiprināšanas optimizācija) reproducējamībai.

Atjauninātajā dokumentā arī tiek ieviesti novērtējumi dažādos pamudināšanas formātos, uzlabota stabilitāte mācību ciklu laikā un diskusija par praktiskām izvietošanas izaicinājumiem secinājumu laikā.

Risinot statisko modeļu ierobežojumus

Kaut arī LLM ir parādījuši ievērojamas iespējas teksta ģenerēšanā un izpratnē, to pielāgošana jauniem uzdevumiem vai zināšanām bieži ir manuāla, trausla vai atkarīga no konteksta.

SEAL izaicina šo establishment, aprīkojot modeļus ar spēju ģenerēt to, ko autori sauc par “pašregulāciju”-dabiskās valodas izvadi, kas norāda, kā modelim vajadzētu atjaunināt savu svaru.

Šie pašregulējumi var izpausties kā pārformulēta informācija, loģiskas sekas vai instrumentu konfigurācijas palielināšanai un apmācībai. Pēc ģenerēšanas modelis pats par sevi pielāgojas, pamatojoties uz šiem labojumiem. Procesu vada pastiprināšanas mācīšanās, kur atlīdzības signāls nāk no uzlabotas veiktspējas pakārtotā uzdevuma.

Dizains atdarina to, kā cilvēku izglītojamie varētu pārfrāzēt vai reorganizēt mācību materiālus, lai labāk internalizētu informāciju. Šī zināšanu pārstrukturēšana pirms asimilācijas kalpo kā galvenā priekšrocība salīdzinājumā ar modeļiem, kas pasīvi patērē jaunus datus “AS-IS”.

Veiktspēja starp uzdevumiem

SEAL ir pārbaudīts divās galvenajās jomās: zināšanu iekļaušana un maz šova mācīšanās.

Zināšanu iekļaušanas iestatījumā pētnieki novērtēja, cik labi modelis varētu internalizēt jaunu faktisko saturu no fragmentiem, kas līdzīgi kā komandas, kas atrodas Squad datu kopā-etalona lasīšanas izpratnes datu kopā, kuru 2016. gadā ieviesa Stenfordas universitāte, kas sastāv no vairāk nekā 100 000 pūļa, kas iegūts jautājums-atbilžu pāriem, kuru pamatā ir Wikipedia raksti (Rajpurkar et al., 2016).

Tā vietā, lai precīzi noregulētu tieši uz fragmenta tekstu, modelis ģenerēja fragmenta sintētiskās sekas un tad uz viņiem precīzi noregulēja.

Pēc divām pastiprināšanas mācīšanās kārtām modelis uzlaboja jautājuma atbildes precizitāti no 33,5% līdz 47,0% no Squad versijas bez konteksta-pārsniedzot rezultātus, kas iegūti, izmantojot sintētiskos datus, ko ģenerē GPT-4.1.

Dažu kadru mācīšanās iestatījumā zīmogs tika novērtēts, izmantojot loka etalona apakškopu, kur uzdevumiem ir nepieciešams spriest tikai no dažiem piemēriem. Šeit SEAL ģenerēja pašsaistības, norādot datu palielinājumus un hiperparametrus.

Pēc pastiprināšanas mācīšanās, Panākumu līmenis, pareizi risinot aizturēšanas uzdevumus, pieauga līdz 72,5%, salīdzinot ar 20%, izmantojot pašregulēšanu, kas radīta bez pastiprināšanas mācīšanās. Modeļi, kas paļāvās tikai uz konteksta apguvi bez adaptācijas, ieguva 0%.

Tehniskais ietvars

Seal darbojas, izmantojot divu cilpu struktūru: iekšējā cilpa veic uzraudzītu precizēšanu, pamatojoties uz pašredīt, savukārt ārējā cilpa izmanto pastiprināšanas mācības, lai uzlabotu politiku, kas rada šos pašsavienojumus.

Izmantotais pastiprināšanas mācīšanās algoritms ir balstīts uz atjaunošanu, kas apvieno paraugu ņemšanu ar filtrētu uzvedību. Apmācības laikā tiek pastiprināti tikai pašregulācijas, kas noved pie veiktspējas uzlabojumiem. Šī pieeja efektīvi māca modeli, kuri rediģēšanas veidi ir visizdevīgākie mācībām.

Efektivitātei SEAL piemēro uz LORA balstītu precizēšanu, nevis pilnu parametru atjauninājumus, ļaujot ātri eksperimentēt un pielāgoties zemām izmaksām.

Stiprās puses un ierobežojumi

Pētnieki ziņo, ka SEAL var iegūt augstas lietderības apmācības datus ar minimālu uzraudzību, īpašos uzdevumos pārspējot pat lielus ārējos modeļus, piemēram, GPT-4.1.

Viņi arī parāda, ka SEAL vispārina ārpus tā sākotnējās iestatīšanas: tas turpina darboties labi, palielinoties no vienas caurlaides atjauninājumiem uz daudzdokumentu, turpināja scenārijus pirmskārtas.

Tomēr ietvars nav bez ierobežojumiem. Viena problēma ir katastrofāla aizmirstība, kurā atjauninājumi jaunas informācijas iekļaušanai var pasliktināt veiktspēju iepriekš iemācītos uzdevumos.

Atbildot uz šīm bažām, līdzautore Jyo Pari pa e-pastu sacīja VentureBeat, ka pastiprināšanas mācīšanās (RL), šķiet, mazina aizmirstību efektīvāk nekā standarta uzraudzīta precizēšana (SFT), atsaucoties uz neseno dokumentu par šo tēmu. Viņš piebilda, ka šī ieskata apvienošana ar zīmogu var izraisīt jaunus variantus, kur SEAL uzzina ne tikai apmācības datus, wager arī atlīdzības funkcijas.

Vēl viens izaicinājums ir skaitļošanas pieskaitāmās izmaksas: katra pašredīta novērtēšanai ir nepieciešama precīza un veiktspējas pārbaude, kas var ilgt 30–45 sekundes uz rediģēšanu-ievērojami vairāk nekā standarta pastiprināšanas mācīšanās uzdevumi.

Kā paskaidroja Jyo, “apmācības blīvējums nav triviāls, jo tam ir vajadzīgas 2 optimizācijas cilpas, ārējā RL un iekšējā SFT. Secinājumu laikā modeļa svaru atjaunināšanai būs nepieciešama arī jauna sistēmu infrastruktūra.” Viņš uzsvēra nepieciešamību pēc turpmākiem izvietošanas sistēmu pētījumiem kā kritisku ceļu, lai zīmogu padarītu praktisku.

Turklāt Seal pašreizējā dizainā tiek pieņemts, ka ir pārī izveidoti uzdevumi un atsauces atbildes katrā kontekstā, ierobežojot tā tiešo piemērojamību neierobežotai korporai. Tomēr Jyo paskaidroja, ka, kamēr ir pakārtots uzdevums ar aprēķināmu atlīdzību, SEAL var apmācīt attiecīgi pielāgoties-pat drošības kritiskos domēnos. Principā ar zīmogiem apmācīts modelis varētu iemācīties izvairīties no apmācības par kaitīgu vai ļaunprātīgu ieguldījumu, ja to vada atbilstošais atlīdzības signāls.

AI kopienas reakcija

AI pētījumu un celtnieku kopiena ir reaģējusi ar satraukuma un spekulāciju sajaukumu ar zīmoga papīru. X, kas agrāk bija Twitter, vairāki ievērojami uz AI orientēti konti, kas tika iesniegti par iespējamo ietekmi.

Lietotājs @Vraserxsevis aprakstīts pedagogs un AI entuziasts ar nosaukumu Seal par “nepārtrauktas pašmācības AI dzimšanu” un prognozēja, ka tādi modeļi kā Openai GPT-6 varētu pieņemt līdzīgu arhitektūru.

Pēc viņu vārdiem, SEAL apzīmē “saldēto svaru laikmeta beigas”, ieviešot sistēmas, kas attīstās, mainoties apkārtējā pasaulei.

Viņi uzsvēra SEAL spēju veidot pastāvīgas atmiņas, remonta zināšanas un mācīties no reālā laika datiem, salīdzinot to ar pamata soli uz modeļiem, kas ne tikai izmanto informāciju, wager arī absorbē to.

Tikmēr, @Alex_prompterar AI darbināma mārketinga pasākuma līdzdibinātājs, ierāmēts SEAL kā lēciens uz modeļiem, kas burtiski sevi pārraksta. “MIT tikko uzbūvēja AI, kas var pārrakstīt savu kodu, lai kļūtu gudrāks,” viņš rakstīja. Atsaucoties uz papīra galvenajiem rezultātiem-40% palielinājums faktisko atsaukšanā un pārspēj GPT-4.1, izmantojot paša ģenerētus datus -Viņš aprakstīja atklājumus kā apstiprinājumu, ka “LLM, kas sevi Finetune, vairs nav sci-fi”.

Entuziasms atspoguļo plašāku apetīti AI telpā modeļiem, kas var attīstīties bez pastāvīgas pārkvalifikācijas vai cilvēku uzraudzības – īpaši strauji mainīgos domēnos vai personalizētos lietošanas gadījumos.

Turpmākie norādījumi un atvērtie jautājumi

Atbildot uz jautājumiem par blīvējuma mērogošanu lielākiem modeļiem un uzdevumiem, Jyo norādīja uz eksperimentiem (B.7. PIELIKUMS), kas parāda, ka, palielinoties modeļa lielumam, palielinās arī to pašpārvaldes spēja. Viņš to salīdzināja ar studentiem, kas laika gaitā uzlabo viņu mācību paņēmienus-lielākus modeļus vienkārši labāk ģenerē noderīgu pašregulāciju.

Jautāts, vai SEAL vispārina jaunus pamudinājumu stilus, viņš apstiprināja, ka tas notiek, atsaucoties uz 10. tabulu papīrā. Tomēr viņš arī atzina, ka komanda vēl nav pārbaudījusi SEAL spēju pāriet pa pilnīgi jaunām domēniem vai arhitektūras modelēm.

“Seal ir sākotnējais darbs, kas parāda iespējas,” viņš teica. “Wager tas prasa daudz vairāk testēšanas.” Viņš piebilda, ka vispārinājums var uzlaboties, jo zīmogs tiek apmācīts ar plašāku uzdevumu sadalījumu.

Interesanti, ka komanda atklāja, ka tikai daži pastiprināšanas mācību posmi jau ir izraisījuši izmērāmus veiktspējas pieaugumu. “Tas ir aizraujoši,” atzīmēja Jyo, “tāpēc, ka tas nozīmē, ka ar lielāku aprēķinu mēs, cerams, varētu iegūt vēl vairāk uzlabojumu.” Viņš ierosināja, ka turpmākie eksperimenti varētu izpētīt progresīvākas pastiprināšanas mācīšanās metodes, kas pārsniedz atjaunošanos, piemēram, grupas relatīvās politikas optimizāciju (GRPO).

Ceļā uz adaptīvākiem un aģentiskākiem modeļiem

Seal ir solis uz modeļiem, kas laika gaitā var autonomi uzlaboties, gan integrējot jaunas zināšanas, gan pārkonfigurējot to, kā viņi mācās. Autori paredz nākotnes pagarinājumus, kur SEAL varētu palīdzēt pašizgatavot, pastāvīgi mācīties un attīstīt aģentu sistēmas-modeļus, kas mijiedarbojas ar mainīgu vidi un pakāpeniski pielāgojas.

Šādos iestatījumos modelis varētu izmantot blīvējumu, lai sintezētu svara atjauninājumus pēc katras mijiedarbības, pakāpeniski internalizējot uzvedību vai ieskatu. Tas varētu samazināt nepieciešamību pēc atkārtotas uzraudzības un manuāla iejaukšanās, jo īpaši datu ierobežotās vai specializētās jomās.

Tā kā publiskais tīmekļa teksts kļūst piesātināts un turpmāka LLM mērogošana kļūst sašaurināta ar datu pieejamību, pašpārvalde, piemēram, Seal, varētu būt kritiska loma, virzot robežas tam, ko LLM var sasniegt.

Jūs varat piekļūt SEAL projektam, ieskaitot kodu un turpmāku dokumentāciju, vietnē:

avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here