Home Tehnoloģija NVIDIA pētnieki palielina LLMS spriešanas prasmes, liekot viņiem “domāt” pirms apmācības

NVIDIA pētnieki palielina LLMS spriešanas prasmes, liekot viņiem “domāt” pirms apmācības

15
0

NVIDIA pētnieki ir izstrādājuši jaunu paņēmienu, kas atspēko skriptu par to, kā lielo valodu modeļi (LLM) iemācās saprātīgi.

Metode, ko sauc par pastiprināšanas mācīšanās pirms apmācības (RLP), integrē RL sākotnējā apmācības posmā, nevis saglabā to beigām.

Šī pieeja Mudina modeli “domāt par sevi, pirms prognozēt nākamo, tādējādi pirms apmācības pasniedzot patstāvīgu domāšanas izturēšanos”. Pētnieki paziņo savā dokumentā.

Mācoties pamatot vienkāršu tekstu, neprasot ārējus verifikatorus, Modeļi, kas apmācīti ar RLP, parāda ievērojamus uzlabojumus sarežģītu spriešanas uzdevumu apguvē Pakārtoti, norādot uz spējīgāku un pielāgojamāku AI nākotni reālās pasaules uzdevumiem.

Tipiskais LLM apmācības cikls

Parasti lielo valodu modeļi vispirms tiek apmācīti ar milzīgu teksta daudzumu, izmantojot a "Nākamās takas prognoze" Mērķis, kur viņiem tiek dota teksta virkne un viņiem tiek lūgts nepārtraukti uzminēt, kāds būs nākamais vārds (vai marķieris). Šajā posmā viņi apgūst gramatiku, faktus un pamata asociācijas.

Vēlākā pēc apmācības fāzē modeļi parasti apgūst sarežģītas spriešanas spējas, piemēram ķēde (COT) Ja modelis soli pa solim izklāsta savu argumentāciju. Šis posms bieži ietver uzraudzītu precizēšanu (SFT) vai pastiprināšanas mācīšanās no cilvēku atsauksmēm (RLHF), kurai ir vajadzīgas specializētas, kurētas datu kopas.

Darba autori apgalvo, ka šis secīgais course of neatbilst cilvēka izpratnei, kas nav “lineārs marķiera course of, guess drīzāk paralēla ievades integrācija ar iepriekšējām zināšanām”. Esošajām pirms apmācības metodēm trūkst šī mehānisma, kavējot modeļa spēju no paša sākuma attīstīt dziļu spriešanu.

Kā darbojas pastiprināšanas mācīšanās pirms apmācības

RLP pārveido šo procesu, apstrādājot COT ģenerēšanu kā darbību, ko modelis veic, pirms prognozē nākamo marķieri. Katrā posmā modelis vispirms ģenerē iekšējo "doma" vai spriešanas ķēde. Pēc tam tas prognozē nākamo vārdu tekstā, izmantojot sākotnējo kontekstu, kas papildināts ar jauno domu.

Modelis saņem atlīdzību, pamatojoties uz to, cik daudz tā doma uzlaboja tā prognozes precizitāti salīdzinājumā ar bāzes līniju, kas neradīja domu (tīra nākamās marķēšanas prognoze). Šis atlīdzības signāls tiek aprēķināts automātiski, pamatojoties uz varbūtības izmaiņām, novēršot nepieciešamību pēc ārējiem verificētājiem vai ar cilvēkiem marķētiem datiem.

Atalgojums ir pozitīvs tikai tad, ja ģenerētā doma palīdz modelim labāk paredzēt nākamo marķieri. Apbalvojot domas, kuru pamatā ir viņu paredzamais ieguvums, RLP faktiski māca modelim, kā lietderīgi domāt par tām pašām masīvajām, nestrukturētajām datu kopām, ko izmanto standarta pirmsmācībai.

Šī nepārtrauktā atgriezeniskā saite ļauj modelim iemācīties, kad pietiek ar vienkāršu paredzamo minējumu un kad tai ir jāiesaistās dziļākā spriešanā. Kā to teica pētnieki, “RLP ir paredzēts, lai veidotu domāšanas veidošanu bāzes modeļos apbalvojot tikai tās domas, kas izmērāmi palīdz nākamajai prognozei. ”

Šī pamata pieeja tomēr nepadara vēlākus pielāgošanas posmus novecojušas. Pēc Braiena Katanzaro teiktā, NVIDIA lietišķo dziļo mācību pētījumu viceprezidenta un papīra līdzautors, RLP ir paredzēts, lai papildinātu, nevis aizstātu šos izšķirošos soļus. "RLP nav paredzēts, lai aizstātu vēlākos pēcapmācības posmus, piemēram, uzraudzītu precizēšanu vai pastiprināšanas mācīšanos no cilvēku atsauksmēm," Catanzaro stāstīja VentureBeat. "Šie posmi joprojām ir izšķiroši, lai uzlabotu modeļa uzvedību … tas ir patiešām paredzēts, lai pastiprinātu šo vēlāko fāžu efektivitāti, dodot modelim galveno sākumu."

RLP darbībā

Eksperimentos ar Qwen3-1.7b un Nemotron-nano-12bNVIDIA komanda pārbaudīja RLP visā matemātikas un zinātnes argumentācijas etalonu komplektā. Rezultāti to parāda Modeļi, kas uzlaboti ar RLP, konsekventi pārspēja viņu tradicionāli apmācītos kolēģus, ar īpaši spēcīgiem argumentācijas smagajiem uzdevumiem ieguvumiem.

Uzņēmumam šī uzlabotā argumentācija varētu pārraidīt ticamāku rezultātus daudzpakāpju darbplūsmās, piemēram, finanšu analīzē vai juridisko dokumentu apkopojumā.

"RLP mudina modeli pirmsmīlības laikā domāt, pirms tas prognozē, palīdzot modelim internalizēt saskanīgāku spriešanas stilu," teica Catanzaro. "Tas varētu palīdzēt samazināt smalkas loģiskas kļūdas, it īpaši garākajās darbplūsmās. ”

Izsverot, ka RLP apmācītiem modeļiem joprojām būs vajadzīgas parastās aizsargmargas, piemēram, verifikācijas slāņi, cilvēku uzraudzība un konsekvences pārbaudes, Catanzaro sacīja, ka “RLP dod jums spēcīgāku bāzes līniju."

Svarīgi ir tas, ka RLP savienojuma priekšrocības, nevis pazūd turpmāko precīzo pielāgošanas posmu laikā (katastrofāla aizmirstība ir izplatīta problēma LLM apmācībā, kur vēlākie apmācības posmi liek modelim aizmirst iepriekš apgūtās prasmes un zināšanas). RLP apmācītais modelis ieguva kopējo punktu skaitu, kas bija par 7-8% augstāks nekā bāzes līnijas pēc identiska pēc apmācības režīma. Pētnieki secina, ka RLP “izveido stabilus pamatus pamatus, kurus neizmeklē pakārtotā izlīdzināšana, guess gan savienojas ar pēc apmācības”.

Galvenais atklājums ir tehnikas efektivitāte. QWEN3-1.7B modelī RLP uzlaboja veiktspēju par 17%, salīdzinot ar standarta nepārtraukto pirms apmācību un pārspēja arī līdzīgu paņēmienu, ko sauc par pastiprinājumu, kas paredzēts, izmantojot prefiksu atbilstošu atlīdzību (RPT). Šī priekšrocība tika iegūta pat tad, kad sākotnējais modelis tika apmācīts ar 35 reizes vairāk datu, lai tas atbilstu aprēķina izmaksām, apstiprinot, ka ieguvumi nāk no pašas metodes, nevis tikai vairāk apstrādes.

Turklāt RLP demonstrē iespaidīgu mērogojamību un daudzpusību, veiksmīgi iegūstot argumentācijas signālu no vispārējas nozīmes tīmekļa datiem-ne tikai izstrādātas datu kopas. Pielietojot hibrīda mamba-transformera modeli nemotron-nano-12b, RLP sasniedza 35% relatīvu uzlabojumu salīdzinājumā ar stipri apmācītu bāzes līniju Izmantojot tikai nelielu daļu datu.

Lai gan šie rezultāti norāda uz efektīvāku ceļu spēcīgu modeļu veidošanai, Catanzaro inovācijas veido kā būtisku pārmaiņu pašā mācību procesā, nevis tūlītēju risinājumu augstām apmācības izmaksām.

"Šis pētījums ir aizraujošs, jo tas piedāvā maiņu par to, kā modeļi absorbē informāciju pirms apmācības laikā, kas izraisa gudrāku mācību procesu," Viņš paskaidroja. "Tas neaizstātu liela mēroga pirmskārtas, guess piedāvā vēl vienu radošu metodi, veidojot labākos iespējamos modeļus."

Jauns pamats AI apmācībai

Galu galā RLP norāda uz nākotni, kurā pirms apmācības vairs nav viendabīgs prognozes vienotisks course of. Tā vietā nākamo modeļu paaudzi varētu veidot uz mērķu hibrīda, izveidojot AI, kas no pirmās dienas iemācās domāt stabilāk. Catanzaro piedāvā spēcīgu analoģiju, lai izveidotu šo maiņu:

"Nākamā takta prognoze māca modeli, kā izskatās pasaule; pastiprināšanas stila mērķi, piemēram, RLP, var iemācīt domāt par to, ko tas redz," Viņš teica. "Šo divu mērķu kombinācija varētu palīdzēt modeļiem attīstīt dziļāku, strukturētu domāšanas daudz agrāk apmācībā … tādi rīki kā RLP var balstīties uz šī pamata virsotni, padarot mācīšanos aktīvāku, ziņkārīgāku un vēl efektīvāku."

Joprojām ir daudz ko uzzināt par pastiprināšanas mācīšanās dinamiku pirms apmācības fāzē, taču šķiet skaidrs, ka “izpētes ieviešana agrāk apmācībā paver jaunu asi mērogošanai-ne tikai pēc izmēra, guess arī par to, kā modeļi iemācās saprātīgi”, sacīja Katanzaro.

avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here