Home Tehnoloģija Jaunā ‘Markovian Considering’ tehnika paver ceļu uz miljoniem žetonu AI argumentāciju

Jaunā ‘Markovian Considering’ tehnika paver ceļu uz miljoniem žetonu AI argumentāciju

7
0

Mila pētnieki ir ierosinājuši jaunu paņēmienu, kas padara lielos valodu modeļus (LLM) ievērojami efektīvākus, veicot sarežģītu argumentāciju. Zvanīja Markova domāšanašī pieeja ļauj LLM iesaistīties ilgstošā spriešanā, neradot pārmērīgas skaitļošanas izmaksas, kas pašlaik ierobežo šādus uzdevumus.

Komandas ieviešana, vide ar nosaukumu Delethink, strukturē argumentācijas ķēdi fiksēta izmēra gabalos, novēršot mērogošanas problēmu, kas nomoka ļoti ilgas LLM atbildes. Sākotnējās aplēses liecina, ka 1,5 B parametru modelim šī metode var samazināt apmācības izmaksas par vairāk nekā divām trešdaļām, salīdzinot ar standarta pieejām.

Garās ķēdes spriešanas kvadrātiskais lāsts

Lai LLM atrisinātu sarežģītu problēmu, tai bieži ir jāģenerē gara starpposma “domāšanas” marķieru sērija, ko bieži dēvē par domu ķēdi (CoT). Pēdējos gados pētnieki ir atklājuši, ka, izmantojot pastiprināšanas mācības (RL), lai apmācītu modeļus, lai ražotu garākus CoT (dažreiz sauktus par LongCoT), ir ievērojami uzlabojušas to spriešanas spējas.

Tomēr standarta metodei tam ir kritisks trūkums: AI "valsts" (uzvedne un visi argumentācijas marķieri, ko tā līdz šim ir radījusi apstrādes laikā) pieaug ar katru jaunu argumentācijas marķieri. Mūsdienīgai uz transformatoriem balstīti modeļitas nozīmē, ka skaitļošanas izmaksas palielinās kvadrātiski, jo spriešanas ķēde kļūst garāka, padarot modeļu apmācību ļoti sarežģītiem uzdevumiem pārmērīgi dārgu.

Lielākā daļa pašreizējo mēģinājumu pārvaldīt šīs izmaksas ir vērsti uz modeļa domāšanas ierobežošanu, netieši dodot priekšroku īsākiem risinājumiem vai priekšlaicīgi pārtraucot procesu. Lai gan šīs metodes sniedz zināmu atvieglojumu, Mila pētnieki joprojām darbojas LongCoT ietvaros, un tādējādi viņus pamatā saista tās kvadrātiskais raksturs.

Tā vietā, lai mēģinātu kontrolēt skaitļošanas pieaugumu, Mila izveidoja RL vidi, kas pilnībā izvairās no kvadrātiskās problēmas. Kā paskaidroja līdzautors Amirhosseins Kazemnejads, mērķis ir nodrošināt tādas iespējas kā vairāku nedēļu spriešana un zinātniski atklājumi. "Šo režīmu (un RL, kas nepieciešams, lai nodrošinātu šādas iespējas) pašreizējā LongCoT paradigma neatbalsta kvadrātisko aprēķinu izmaksu dēļ," viņš teica.

Domāšana gabalos ar Delethink

Pētnieku risinājums ir paradigma, ko viņi sauc par "Markova domātājs," kur modelis argumentē, vienlaikus saglabājot sava argumentācijas konteksta loga lielumu nemainīgu. Galvenā ideja ir mainīt RL iestatījumu uz atdalīšanu "cik ilgi modele domā" no "cik daudz konteksta tai jāapstrādā." Ja tas tiek izdarīts pareizi, Markovian Thinker pārvērš kvadrātiskās izaugsmes problēmu par lineāru aprēķinu un fiksētas atmiņas prasībām LLM argumentācijai.

Pētnieki ieviesa šo paradigmu praksē, izmantojot Delethink, kas liek modelim spriest fiksēta izmēra gabalu secībā, piemēram, 8000 žetonu vienlaikus. Katrā gabalā modelis pamato to kā parasti, izmantojot klasisko uzmanības mehānismu. Wager, kad tiek sasniegts gabala ierobežojums, vide atiestata kontekstu, izveidojot jaunu uzvedni, kas ietver sākotnējo vaicājumu un īsu "pārnešana" no iepriekšējās daļas. Piemēram, pārnešana varētu būt pēdējās CoT daļas pēdējie marķieri vai svarīgāko rezultātu kopsavilkums.

Šī problēmas pārkārtošana liek modelim iemācīties iegult tā progresa kopsavilkumu vai a "teksta Markova stāvoklis," šajā pārnešanā, lai turpinātu argumentāciju nākamajā daļā. Tas novērš kopīgās bažas par to, vai modelis spēj atcerēties svarīgas detaļas no iepriekšējiem soļiem.

Pēc Kazemnejad teiktā, modele mācās, ko atcerēties. "Ar apmācību… modelis ir spiests iemācīties pārnest uz priekšu uzdevumu kritisko stāvokli," viņš paskaidroja. Viņš pievienoja būtisku skaidrojumu praktiskai lietošanai: sākotnējā ievades uzvedne netiek mainīta, tostarp tai pievienotie dokumenti vai kontekstuālie dati. “Mūsu pieeja ir vērsta uz argumentācijas fāzi un nemaina uzvedni," viņš teica.

Delethink darbībā

Lai pārbaudītu savu pieeju, pētnieki apmācīja R1-Distill-1.5B ar Delethink par sacensību līmeņa matemātikas problēmu datu kopu, pēc tam novērtēja to, salīdzinot ar vairākiem etaloniem. Modelis tika apmācīts izmantot līdz pat 24 000 žetonu, guess ar fiksētiem 8 000 žetonu gabaliem.

Pētnieki salīdzināja to ar modeļiem, kas apmācīti ar standarta LongCoT-RL metodi. Viņu atklājumi liecina, ka modelis, kas apmācīts ar Delethink, varēja iegūt līdz 24 000 žetonu un atbilst vai pārspēja LongCoT modeli, kas apmācīts ar tādu pašu 24 000 marķieru budžetu matemātikas etalonos. Citos uzdevumos, piemēram, kodēšanas un doktora līmeņa jautājumos, Delethink arī sakrita vai nedaudz pārspēja LongCoT līdzinieku. “Kopumā šie rezultāti liecina, ka Delethink izmanto savus domāšanas marķierus tikpat efektīvi kā LongCoT-RL ar samazinātu aprēķinu,” raksta pētnieki.

Ieguvumi kļūst vēl izteiktāki, pārsniedzot apmācību budžetu. Kamēr modeļi, kas apmācīti ar LongCoT, ātri sasniedza savas apmācības robežas, Delethink apmācītais modelis turpināja uzlabot savu veiktspēju. Piemēram, dažas matemātikas problēmas tika atrisinātas tikai pēc tam, kad modelī tika izmantots līdz pat 140 000 žetonu, kas ievērojami pārsniedza 24 000 žetonu apmācības budžetu. Šī lineārā skaitļošanas priekšrocība ir būtiska uzņēmumu lietojumprogrammām. Pētnieki lēš, ka, lai apmācītu modeli līdz vidējam domāšanas garumam 96 000 marķieru, ar LongCoT būtu nepieciešami 27 H100 GPU mēneši, salīdzinot ar tikai 7 mēnešiem ar Delethink.

Šī efektivitāte attiecas tieši uz secinājumiem, kas ir galvenās darbības izmaksas lielākajai daļai uzņēmumu. "Modeļi, kas apmācīti Markova domāšanā, testa laikā izmanto vienu un to pašu secinājumu stilu (delethink-tracing), kas nodrošina tādas pašas lineārās skaitļošanas un pastāvīgas atmiņas priekšrocības pēc apmācības," sacīja Kazemnejads. Viņš piedāvāja praktisku piemēru: AI aģents varētu "atkļūdojiet lielu kodu bāzi un ilgi domājiet… kas, protams, ievērojami samazina izmaksas, salīdzinot ar parasto LongCoT pieeju."

Interesanti, ka pētnieki atklāja, ka standarta spriešanas modeļiem, pat bez īpašas apmācības, jau ir zināma spēja domāt Markova veidā. Šim atklājumam ir tūlītēja praktiska ietekme uz izstrādātājiem. "Praksē tas nozīmē, ka bez Delethink-RL šie modeļi jau var palaist delethink izsekošanas iesaiņojumu un konkurētspējīgi ar LongCoT mūsu etalonuzdevumos," Kazemnejads sacīja.

Viņu eksperimenti ar lielākiem modeļiem, piemēram GPT-OSS 120B uzrādīja stabilu veiktspēju ar Delethink, veicot dažādus sarežģītus uzdevumus. Šī latentā spēja nodrošina spēcīgu sākumpunktu RL apmācībai, palīdzot izskaidrot, kāpēc šī metode ir tik efektīva. “Kopā šie rezultāti liecina, ka Delethink ir saderīgs un pielāgojams vismodernākajiem modeļiem,” secina pētnieki.

Markovian domāšanas panākumi liecina, ka tas var būt iespējams "nākamās paaudzes spriešanas modeļi, lai domātu par miljoniem žetonu," pētnieki atzīmē. Tas paver durvis principiāli jaunām AI iespējām, kas pārsniedz pašreizējos ierobežojumus.

"Markovian Considering… paver ceļu modeļiem, kas spēj “domāt” ļoti ilgi, un mēs to uzskatām par nepieciešamu soli ceļā uz iespējamo zinātnisko atklājumu," Kazemnejads sacīja. "Mūsu pieeja novērš galveno sastrēgumu un var ļaut apmācīt daudz ilgāka horizonta uzdevumus, kas nodrošina nākamās paaudzes iespējas."

avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here