Pētnieki plkst Google mākonis un UCLA ir ierosinājuši jaunu pastiprinošu mācību sistēmu, kas ievērojami uzlabo valodu modeļu spēju apgūt ļoti sarežģītus daudzpakāpju argumentācijas uzdevumus. Uzraudzīta pastiprināšanas apmācība (SRL) pārformulē problēmu risināšanu kā loģisku “darbību” secību, nodrošinot bagātīgus mācīšanās signālus apmācības procesa laikā.
Šī pieeja ļauj mazākiem modeļiem apgūt sarežģītas problēmas, kas iepriekš nebija pieejamas citām izplatītām apmācības metodēm. Eksperimenti liecina, ka SRL ne tikai izceļas ar matemātikas spriešanas kritērijiem, wager arī efektīvi vispārina aģentu programmatūras inženierijas uzdevumus.
SRL ir daudzpusīgs apmācības ietvars, kas var paaugstināt mazākus un lētākus modeļus, lai iegūtu augstākas spriešanas spējas.
Pašreizējās LLM spriešanas apmācības robežas
Nesenie sasniegumi lielo valodu modeļu (LLM) apmācībā argumentācijai lielā mērā ir saistīti ar pastiprinošu mācīšanos ar pārbaudāmu atlīdzību (RLVR), kas ir metode, kurā modelis tiek apbalvots, pamatojoties uz tā galīgās atbildes pareizību. Atkārtoti mēģinot atrisināt problēmas un iegūt atgriezenisko saiti par gala rezultātu, modelis pakāpeniski apgūst efektīvas problēmu risināšanas stratēģijas.
Tomēr šīs uz rezultātu balstītās pieejas panākumi ir atkarīgi no modeļa spējas atklāt pareizo risinājumu ierobežotā mēģinājumu skaitā vai "izlaišanu." Tā kā katra izlaišana ir skaitļošanas ziņā dārga, modeļi nevar mēģināt bezgalīgi. Šī metode sitas pret sienu, ja problēmas ir tik sarežģītas, ka modelis reti, ja vispār vispār, atrod pareizo atbildi sava budžeta ietvaros.
Tas rada kritisku mācību sašaurinājumu. Daudzās daudzpakāpju spriešanas problēmās modelis var pareizi atrisināt vairākas darbības, wager var tikt izsists no sliedēm vienas kļūdas dēļ, kā rezultātā tiek sniegta nepareiza atbilde. Izmantojot RLVR, visas šīs pūles saņem negatīvu atlīdzību, un modelis neko nemācās no daļēji pareiza darba. Tā ir “visu vai neko” pieeja, kas nesniedz detalizētas atsauksmes un sniedz nelielu atlīdzību.
Alternatīva metode ir uzraudzītā precizēšana (SFT), kurā modelis mācās no piemēriem, kas satur visu ekspertu izklāstīto argumentācijas procesu. Lai gan SFT var ieaudzināt spriešanas spējas, tas bieži noved pie pārmērības (modelis vienkārši iemācās atdarināt trajektorijas apmācības datos, nevis mācās vispārināt problēmas, kas pārsniedz redzētos piemērus). Šo problēmu pasliktina fakts, ka augstas kvalitātes, cilvēku radīti apmācības dati ir gan mazi, gan dārgi.
Kā norādīts dokumentā, šie ierobežojumi paliek "kritiska nepilnība mazu atvērtā koda modeļu apmācībā, lai efektīvi apgūtu sarežģītas problēmas."
Kā darbojas uzraudzīta pastiprināšanas mācīšanās
SRL ievieš sistēmu, kas pārformulē problēmu risināšanu kā a "secīgs lēmumu pieņemšanas course of," panākot līdzsvaru starp tīru uz rezultātu balstītu RL un tīru imitācijas mācīšanos. Tā vietā, lai optimizētu tikai galīgo atbildi vai liktu modelim atdarināt visu eksperta domāšanas procesu, SRL māca modelim reproducēt galveno darbību secību, kas veido ekspertu spriešanas mugurkaulu. Tas ļauj modelim iemācīties veikt darbības, kas līdzīgas ekspertam, vienlaikus attīstot savu iekšējo spriešanas stilu.
SRL ietvaros ekspertu demonstrācijas ir sadalītas starpposma, konkrētām darbībām, no kurām katra ir nozīmīgs solis. Matemātikas uzdevumam darbība var būt algebriska manipulācija. Programmatūras inženierijas aģentam tā varētu būt komanda, kas tiek izpildīta kodu repozitorijā. Lai ģenerētu apmācības datus, SRL izmanto jaudīgu skolotāju modeli, lai izveidotu risinājumu trajektorijas, kuras pēc tam izmanto mazāka modeļa apmācībai.
Saskaņā ar Google pētnieka un darba līdzautora I-Hung Hsu teikto, šī vidusceļa pieeja ir atslēga tās efektivitātei reālās pasaules scenārijos. "SRL atrodas pa vidu: tas atspoguļo reālās pasaules problēmu risināšanas strukturēto elastību, kurā ir vairākas derīgas stratēģijas, wager arī skaidri priekšstati par to, kā katrā solī izskatās “laba argumentācija”," Hsu pastāstīja VentureBeat. "Tas padara SRL piemērotu tādām jomām kā datu zinātnes automatizācija vai, iespējams, piegādes ķēdes optimizācija — uzdevumi, kas atalgo saprātīgu spriešanu, nevis tikai galīgas atbildes."
Apmācības laikā modelis vispirms ģenerē an "iekšējais monologs" (tā iekšējais spriešanas course of, kas ietverts tagos
SRL darbībā
Pētnieku eksperimenti liecina, ka SRL ievērojami pārspēj spēcīgas bāzes līnijas gan izaicinošā matemātiskā argumentācijā, gan aģentu programmatūras inženierijas etalonos. Viņi arī novēroja, ka SRL veicina elastīgākus un izsmalcinātākus modeļus, piemēram, plānošanu un pašpārbaudi, kas uzlabo risinājuma kvalitāti, nepalielinot rezultātus.
Uzņēmumu vadītājiem veiktspējas pieaugums ir vērtīgs tikai tad, ja tas neietver pārmērīgas izmaksas. Hsu precizē, ka SRL apmācīti modeļi ir efektīvāki argumentācijā. "Ieguvumi nāk no labākas argumentācijas kvalitātes un struktūras, nevis no daudzvārdības," viņš teica. "Efektivitātes ziņā SRL apmācītie modeļi ir aptuveni līdzvērtīgi bāzes modelim marķieru lietošanā… lai gan SRL nav paredzēts secinājumu izmaksu samazināšanai, tas nodrošina spēcīgāku argumentācijas veiktspēju, tās nepalielinot."
Matemātikas testiem komanda precizēja Qwen2.5-7B-Instruct datu kopā ar 1000 sarežģītiem matemātikas jautājumiem. Viņi salīdzināja tā veiktspēju ar modeļiem, kas apmācīti ar SFT un RLVR (izmantojot GRPO algoritmu, kas izplatīts tādos modeļos kā DeepSeek-R1) četros konkursa līmeņa matemātikas etalonos. SRL apmācītais modelis sasniedza būtisku 3,0% vidējo veiktspējas pieaugumu salīdzinājumā ar citām metodēm.
Komanda paplašināja SRL, iekļaujot aģentu programmatūras inženieriju — domēnu, kas ir būtisks uzņēmuma automatizācijai. Viņi apmācīja kodēšanai specializētu modeli, Qwen2.5-Coder-7B-Instructuz 5000 ekspertu trajektorijām aģentiem, kas mijiedarbojas ar kodēšanas vidi. SRL apmācītais modelis tika salīdzināts ar sākotnējo bāzes modeli un SWE-Health club-7B, spēcīgu bāzes līniju, kas precīzi noregulēta ar SFT. SRL sasniedza 14,8% uzdevumu atrisināšanas līmeni, kas ir 74% relatīvs uzlabojums salīdzinājumā ar modeli, kura pamatā ir SFT. Tas parāda SRL spēju apmācīt kompetentākus AI aģentus sarežģītiem, reāliem programmēšanas uzdevumiem.
Jauns augstas likmes AI standarts?
Raksta spēcīgākie rezultāti tika iegūti, apvienojot metodes: pirmkārt, izmantojot SRL, lai mācītu pamata argumentāciju, pēc tam izmantojot RLVR, lai uzlabotu šīs prasmes. Eksperimentos, kad pētnieki izmantoja SRL kā pirmsapmācību un izmantoja RLVR pēcapmācības laikā, viņi novēroja vidējo pieaugumu par 3,7%, parādot spēcīgu mācību programmas apguves stratēģiju.
Tas rada jautājumu, vai tas varētu kļūt par jaunu plānu specializēta AI veidošanai.
"Mēs uzskatām, ka SRL ir spēcīgs pamats," Hsu teica. "Savā ziņā SRL nodrošina mācību programmu — soli pa solim mācot domāt un rīkoties, pirms mēs uzlabojam šo uzvedību ar uz rezultātiem balstītu pastiprināšanas mācīšanos. Šī SRL pirmā pieeja ne tikai stabilizē vēlāko RL posmu, wager arī padara argumentāciju interpretējamāku un vispārināmāku, kas ir ļoti svarīgi lietojumprogrammām, kurās ir liela likme."
Raugoties nākotnē, Hsu atzīst, ka šī konveijera mērogošana joprojām saskaras ar izaicinājumiem, jo īpaši augstajām izmaksām un kompleksā RLVR aģentu uzdevumiem. Tomēr viņš optimistiski raugās uz turpmāko ceļu. "Lai gan augstas kvalitātes ekspertu trajektorijas joprojām ir svarīgas," viņš secināja, "mēs domājam, ka nākamais lielais lēciens būs, automatizējot to ģenerēšanu un filtrēšanu — izmantojot spēcīgus skolotāju modeļus vai pat pašpilnveidojošus studentu modeļus, lai ielādētu jaunus datus."












