Home Tehnoloģija 30 sekundes pret 3: D1 argumentācijas ietvars, kas samazina AI reakcijas laiku

30 sekundes pret 3: D1 argumentācijas ietvars, kas samazina AI reakcijas laiku

27
0

Pievienojieties mūsu ikdienas un nedēļas biļeteniem, lai iegūtu jaunākos atjauninājumus un ekskluzīvu saturu par nozares vadošo AI pārklājumu. Uzziniet vairāk


Pētnieki no UCLA un Meta ai ir ieviesis d1, Jauns ietvars, izmantojot pastiprināšanas mācīšanos (RL), lai ievērojami uzlabotu difūzijas balstītu lielo valodu modeļu (DLLM) argumentācijas iespējas. Lai gan lielākā daļa uzmanības ir vērsta uz tādiem autoregresīviem modeļiem kā GPT, DLLMS piedāvā unikālas priekšrocības. Piešķirot viņiem spēcīgas spriešanas prasmes, tas varētu atbloķēt jaunu efektivitāti un lietojumprogrammas uzņēmumiem.

DLLM ir izteikta pieeja teksta ģenerēšanai, salīdzinot ar standarta autoregresīvajiem modeļiem, potenciāli piedāvājot ieguvumus efektivitātes un informācijas apstrādes ziņā, kas varētu būt vērtīga dažādām reālās pasaules lietojumprogrammām.

Izpratne par difūzijas valodas modeļiem

Lielākā daļa lielo valodu modeļu (LLMS), piemēram, GPT-4O un LLAMA, ir autoregresīvi (AR). Viņi ģenerē tekstu secīgi, prognozējot nākamo marķieri, kura pamatā ir tikai žetoni, kas nāca pirms tā.

Difūzijas valodas modeļi (DLLMS) darbojas atšķirīgi. Difūzijas modeļi sākotnēji tika izmantoti attēlu ģenerēšanas modeļos, piemēram, Dall-E 2, Midjourney un stabila difūzija. Galvenā ideja ir pakāpeniska attēla trokšņa pievienošana, līdz tā ir tīra statiska, un pēc tam modeļa apmācību, lai rūpīgi mainītu šo procesu, sākot no trokšņa un pakāpeniski to uzlabojot koherentā attēlā.

Šīs koncepcijas pielāgošana tieši valodā bija sarežģīta, jo atšķirībā no nepārtrauktām pikseļu vērtībām attēlos ir veidots diskrētu vienību (žetoni) teksts. Pētnieki to pārvarēja, izstrādājot maskētus difūzijas valodas modeļus. Tā vietā, lai pievienotu nepārtrauktu troksni, šie modeļi darbojas, nejauši maskējot žetonus secībā un apmācot modeli, lai prognozētu oriģinālos žetonus.

Tas noved pie atšķirīgas paaudzes procesa, salīdzinot ar autoregresīviem modeļiem. DLLMS sākas ar ļoti maskētu ievades teksta versiju un pakāpeniski “atmask” vai pilnveido to vairākās pakāpēs, līdz parādās galīgā, saskaņotā izeja. Šī “rupja līdz smalka” paaudze ļauj DLLM vienlaikus apsvērt visu kontekstu katrā posmā, nevis koncentrēties tikai uz nākamo marķieri.

Šī atšķirība dod DLLMS potenciālas priekšrocības, piemēram, uzlabotu paralēlu apstrādi paaudzes laikā, kas varētu izraisīt ātrāku secinājumu, īpaši ilgākām sekvencēm. Šī modeļa veida piemēri ir atvērtā koda Llada un slēgtā avota dzīvsudraba modelis no Sākuma laboratorijasApvidū

“Lai arī autoregresīvā LLM var izmantot argumentāciju, lai uzlabotu kvalitāti, šis uzlabojums rodas ar smagām aprēķina izmaksām ar robežas argumentāciju LLM, kas rodas latentuma laikā no 30 sekundēm, lai radītu vienotu atbildi,” Venturbeat pastāstīja Datorzinātnes docente Aditya Grover, datorzinātnes profesore UCLA un D1 papīra līdzautore. “Turpretī viens no galvenajiem DLLM ieguvumiem ir to skaitļošanas efektivitāte. Piemēram, pierobežas DLLM, piemēram, dzīvsudrabs, var pārspēt labāko ātrumu optimizētās autoregresīvās LLM no Frontier Labs par 10x lietotāja caurlaidnēs.”

DLLMS pastiprināšanas mācīšanās

Neskatoties uz to priekšrocībām, DLLM joprojām atpaliek no autoregresīviem modeļiem argumentācijas spējām. Pastiprināšanas mācīšanās ir kļuvusi būtiska, lai mācītu LLMS sarežģītas spriešanas prasmes. Apmācot modeļus, kuru pamatā ir atlīdzības signāli (būtībā apbalvojot tos par pareizām spriešanas darbībām vai galīgajām atbildēm), RL ir virzījis LLMS uz labāku instrukciju sekošanu un argumentāciju.

Tādiem algoritmiem kā proksimālā politikas optimizācija (PPO) un jaunākā grupas relatīvās politikas optimizācija (GRPO) ir bijušas galvenās, lai efektīvi izmantotu RL autoregresīvos modeļos. Šīs metodes parasti balstās uz ģenerētās teksta secības varbūtības (vai log varbūtības) aprēķināšanas aprēķināšanu saskaņā ar modeļa pašreizējo politiku, lai vadītu mācību procesu.

Šis aprēķins ir vienkāršs autoregresīviem modeļiem, pateicoties to secīgajai paaudzei ar marķieri. Tomēr DLLM ar to iteratīvo, ne secīgo ģenerēšanas procesu tieši aprēķināt šo secības varbūtību ir grūti un skaitļošanas ziņā dārga. Tas ir bijis būtisks šķēršlis, lai izmantotu izveidotās RL metodes, lai uzlabotu DLLM argumentāciju.

D1 ietvars risina šo izaicinājumu ar divpakāpju pēc apmācības procesu, kas īpaši paredzēts maskētām DLLMS:

  1. Uzraudzīta precizēšana (SFT): Pirmkārt, iepriekš apmācītais DLLM ir precīzi pielāgots augstas kvalitātes spriešanas piemēru datu kopā. Rakstā tiek izmantota “S1K” datu kopa, kurā ir sīki izstrādāti soli pa solim problēmu risinājumi, ieskaitot paškoriģēšanas un atpakaļceļu piemērus, kad rodas kļūdas. Šī posma mērķis ir modelī ieaudzināt pamata spriešanas modeļus un izturēšanos.
  2. Armatūras mācīšanās ar diffu-grpo: Pēc SFT modelis tiek veikts RL apmācībā, izmantojot jaunu algoritmu, ko sauc par diffu-grpo. Šis algoritms pielāgo GRPO principus DLLMS. Tas ievieš efektīvu metodi žurnālu varbūtību novērtēšanai, vienlaikus izvairoties no iepriekš nepieciešamajiem dārgiem aprēķiniem. Tajā ir arī gudra tehnika, ko sauc par “nejauša uzvednes maskēšanu”.

    RL apmācības laikā ieejas uzvednes daļas tiek nejauši maskētas katrā atjaunināšanas posmā. Tas darbojas kā normalizācijas un datu palielināšanas veids, ļaujot modelim efektīvāk uzzināt no katras datu partijas.

D1 reālās pasaules lietojumprogrammās

Pētnieki izmantoja D1 ietvaru LLADA-8B-INSTUCT, atvērtā koda DLLM. Viņi to precīzi noregēja, izmantojot S1K argumentācijas datu kopu SFT posmam. Pēc tam viņi salīdzināja vairākas versijas: bāzes llada modeli, llada ar tikai SFT, llada ar tikai diffu-grpo un pilnu d1-llada (SFT seko diffu-grpo).

Šie modeļi tika pārbaudīti ar matemātisko spriešanas etaloniem (GSM8K, Math500) un loģisko spriešanas uzdevumiem (4 × 4 Sudoku, Countdown numuru spēle).

Rezultāti parādīja, ka pilna D1-LLADA konsekventi sasniedza vislabāko sniegumu visos uzdevumos. Iespaidīgi, ka diffu-grpo tikai lietoja atsevišķi, arī ievērojami pārspēja tikai SFT un bāzes modeli.

“Argumentācija pastiprinātas DLLM, piemēram, D1, var uzkurināt dažāda veida aģentus uzņēmuma darba slodzēm,” sacīja Grovers. “Tie ietver kodēšanas aģentus momentānai programmatūras inženierijai, kā arī īpaši ātru dziļu pētījumu reālā laika stratēģijai un konsultācijām … ar D1 aģentiem ikdienas digitālās darbplūsmas vienlaikus var kļūt automatizētas un paātrinātas.”

Interesanti, ka pētnieki novēroja kvalitatīvus uzlabojumus, it īpaši, radot ilgākas atbildes. Modeļi sāka demonstrēt “AHA mirkļus”, kas demonstrēja paškoriģēšanu un uzvedību, kas apgūta no S1K datu kopas piemēriem. Tas liek domāt, ka modelis nav tikai atbilžu iegaumēšana, wager arī izturīgākas problēmu risināšanas stratēģijas.

Autoregresīvajiem modeļiem ir pirmās palīdzības priekšrocības adopcijas ziņā. Tomēr Grovers uzskata, ka DLLM sasniegumi var mainīt konkurences apstākļu dinamiku. Uzņēmumam viens veids, kā izlemt starp abiem, ir tad, ja viņu pieteikumu pašlaik sašaurina latentuma vai izmaksu ierobežojumi.

Pēc Grovera domām, argumentācija pastiprināta difūzijas DLLM, piemēram, D1, var palīdzēt vienā no diviem papildinošiem veidiem:

  1. Ja uzņēmums pašlaik nespēj migrēt uz spriešanas modeli, pamatojoties uz autoregresīvu LLM, argumentācijas uzlabotās DLLM piedāvā alternatīvu ar spraudni un spēli, kas uzņēmumiem ļauj izjust augstākas kvalitātes spriešanas modeļus tādā pašā ātrumā kā neatbilstošs, autoregresīvs DLLM.
  2. Ja uzņēmuma lietojumprogramma pieļauj lielāku latentuma un izmaksu budžetu, D1 var radīt garākas spriešanas pēdas, izmantojot tādu pašu budžetu un vēl vairāk uzlabot kvalitāti.

“Citiem vārdiem sakot, D1 stila DLLM var pareto-dominēt autoregresīvas LLM uz kvalitātes, ātruma un izmaksu asi,” sacīja Grovers.


avots