Home Tehnoloģija Nvidia pētnieki atbloķē 4 bitu LLM apmācību, kas atbilst 8 bitu veiktspējai

Nvidia pētnieki atbloķē 4 bitu LLM apmācību, kas atbilst 8 bitu veiktspējai

10
0

Nvidia pētnieki ir izstrādājuši a jauna pieeja apmācīt lielo valodu modeļus (LLM) 4 bitu kvantētā formātā, vienlaikus saglabājot to stabilitāti un precizitāti augstas precizitātes modeļu līmenī. Viņu tehnika, NVFP4, ļauj apmācīt modeļus, kas ne tikai pārspēj citus vadošos 4 bitu formātus, guess arī atbilst lielāka 8 bitu FP8 formāta veiktspējai, vienlaikus izmantojot pusi atmiņas un skaitļošanas daļu.

NVFP4 panākumi liecina, ka uzņēmumi var turpināt samazināt secinājumu izmaksas, izmantojot mazākus modeļus, kas atbilst lielāku modeļu veiktspējai. Tas arī norāda uz nākotni, kurā LLM apmācības izmaksas samazināsies līdz tādam līmenim, ka daudz vairāk organizāciju varēs apmācīt savus pēc pasūtījuma izgatavotus modeļus no nulles, nevis tikai pilnveidot esošos.

Kvantēšanas izaicinājums

Modeļa kvantēšana ir metode, ko izmanto, lai samazinātu skaitļošanas un atmiņas izmaksas, kas saistītas ar AI modeļu skriešanu un apmācību. Tas darbojas, pārveidojot modeļa parametrus jeb svarus no augstas precizitātes formātiem, piemēram, 16 un 32 bitu peldošā komata (BF16 un FP32) uz zemākas precizitātes formātiem. Kvantēšanas galvenais uzdevums ir samazināt modeļa izmēru, vienlaikus saglabājot pēc iespējas vairāk tā zināšanu un iespēju.

Pēdējos gados 8 bitu peldošā komata formāti (FP8) ir kļuvuši par populāru nozares standartu, kas piedāvā labu līdzsvaru starp veiktspēju un efektivitāti. Tie ievērojami samazina skaitļošanas izmaksas un atmiņas pieprasījumu LLM apmācībai bez būtiskas precizitātes samazināšanās.

Nākamais loģiskais solis ir 4 bitu peldošā komata (FP4), kas sola atkal uz pusi samazināt atmiņas izmantošanu un vēl vairāk uzlabot uzlabotās aparatūras veiktspēju. Tomēr šī pāreja ir bijusi sarežģīta. Esošie 4 bitu formāti, piemēram, MXFP4, bieži cīnās, lai saglabātu tādu pašu precizitātes līmeni kā to eight bitu līdzinieki, tādējādi radot sarežģītu kompromisu starp izmaksām un veiktspēju.

Kā darbojas NVFP4

NVFP4 pārvar citu FP4 metožu stabilitātes un precizitātes izaicinājumus, izmantojot viedāku dizainu un mērķtiecīgu apmācības metodiku. Galvenā problēma ar 4 bitu precizitāti ir tās ārkārtīgi ierobežotais diapazons: tas var attēlot tikai 16 atšķirīgas vērtības. Pārveidojot no augstas precizitātes formāta, ārējās vērtības var izkropļot visu datu kopu, kaitējot modeļa precizitātei. NVFP4 izmanto sarežģītāku, daudzlīmeņu mērogošanas pieeju, kas labāk apstrādā šīs novirzes, ļaujot "precīzāks un precīzāks tenzoru vērtību attēlojums treniņa laikā," saskaņā ar Nvidia.

Papildus formātam pētnieki ievieš 4 bitu apmācības recepti, kas nodrošina precizitāti, kas ir salīdzināma ar FP8. Galvenā sastāvdaļa ir viņu “jauktas precizitātes stratēģija”. Tā vietā, lai pārveidotu visu modeli par NVFP4, lielākā daļa slāņu tiek kvantificēti, guess neliela daļa no skaitliski jutīgiem slāņiem tiek saglabāti augstākas precizitātes formātā, piemēram, BF16. Tas saglabā stabilitāti tur, kur tas ir vissvarīgākais. Metodoloģija arī pielāgo gradientu aprēķināšanu atpakaļejošās izplatīšanas laikā vai modeļa mācīšanās fāzē, lai samazinātu novirzes, kas var uzkrāties no zemas precizitātes aritmētikas.

NVFP4 praksē

Lai pārbaudītu savu pieeju, Nvidia komanda apmācīja jaudīgu 12 miljardu parametru hibrīdu Mamba-Transformera modelis uz masveida 10 triljoniem žetonu. Pēc tam viņi salīdzināja tā veiktspēju tieši ar bāzes modeli, kas apmācīts plaši populārajā FP8 formātā. Rezultāti parādīja, ka NVFP4 modeļa apmācības zudums un pakārtotā uzdevuma precizitāte visā procesā cieši izsekoja FP8 versiju.

Veiktspēja tika nodrošināta daudzās jomās, tostarp zināšanu ietilpīgā spriešanā, matemātikas un veselā saprāta uzdevumos, ar tikai nelielu kodēšanas etalonu samazināšanos mācību beigās.

"Tas, cik mums zināms, iezīmē pirmo veiksmīgo demonstrāciju miljardu parametru valodu modeļu apmācībai ar 4 bitu precizitāti vairāku triljonu marķieru horizontā, liekot pamatu ātrākai un efektīvākai nākotnes pierobežas modeļu apmācībai, ”raksta pētnieki.

Saskaņā ar Nvidia AI un datu centru GPU produktu direktora NvidiaShar Narasimhan teikto, praksē NVFP4 4 bitu precizitātes formāts ļauj izstrādātājiem un uzņēmumiem apmācīt un izvietot AI modeļus ar gandrīz tādu pašu precizitāti kā tradicionālie 8 bitu formāti.

“Apmācot modeļu svarus tieši 4 bitu formātā, vienlaikus saglabājot precizitāti, tas dod iespēju izstrādātājiem eksperimentēt ar jaunām arhitektūrām, ātrāk veikt atkārtojumus un atklāt ieskatus, neapgrūtinot resursu ierobežojumus,” viņš teica VentureBeat.

Turpretim FP8 (lai gan jau ir solis uz priekšu salīdzinājumā ar FP16) joprojām nosaka ierobežojumus modeļa izmēram un secinājumu veiktspējai, jo ir lielākas atmiņas un joslas platuma prasības. “NVFP4 pārkāpj šos griestus, piedāvājot līdzvērtīgu kvalitāti ar ievērojami lielāku iespēju izaugsmei un eksperimentiem,” sacīja Narasimhans.

Salīdzinot ar alternatīvo 4 bitu formātu MXFP4, NVFP4 priekšrocības kļūst vēl skaidrākas. Eksperimentā ar 8 miljardu parametru modeli NVFP4 sasniedza labāku zaudējumu rādītāju nekā MXFP4. Lai sasniegtu tādu pašu veiktspējas līmeni kā NVFP4 modelim, MXFP4 modelim bija jāapmāca par 36% vairāk datu, ievērojami palielinot apmācības laiku un izmaksas.

Papildus tam, ka priekšapmācība ir efektīvāka, NVFP4 arī no jauna definē to, kas ir iespējams. “Rādot, ka 4 bitu precizitāte var saglabāt modeļu kvalitāti mērogā, paver durvis uz nākotni, kurā augsti specializētus modeļus no nulles var apmācīt vidēji lieli uzņēmumi vai jaunizveidotie uzņēmumi, nevis tikai hiperskalori,” sacīja Narasimhans, piebilstot, ka laika gaitā mēs varam sagaidīt pāreju no vispārējas nozīmes LLM modeļu izstrādes uz “daudzveidīgu pielāgotu, augstas veiktspējas modeļu ekosistēmu.”

Papildus iepriekšējai apmācībai

Lai gan raksts koncentrējas uz NVFP4 priekšrocībām pirmsapmācības laikā, tā ietekme attiecas arī uz secinājumiem.

“Modeļi, kas apmācīti NVFP4, var ne tikai nodrošināt ātrākus secinājumus un lielāku caurlaidspēju, guess arī saīsināt laiku, kas nepieciešams AI rūpnīcām, lai sasniegtu ieguldījumu atdevi, paātrinot ciklu no modeļa izstrādes līdz izvietošanai reālajā pasaulē,” sacīja Narasimhans.

Tā kā šie modeļi ir mazāki un efektīvāki, tie paver jaunas iespējas sniegt sarežģītas, augstas kvalitātes atbildes reāllaikā pat tokenietilpīgās aģentu lietojumprogrammās, nepalielinot enerģijas un aprēķinu izmaksas.

Narasimhans teica, ka viņš raugās uz modeļu efektivitātes nākotni, kas nav saistīta tikai ar precizitātes samazināšanu, guess arī viedāku sistēmu izveidi.

“Ir daudz iespēju paplašināt pētījumus par zemāku precizitāti, kā arī mainīt arhitektūru, lai risinātu komponentus, kas arvien vairāk dominē liela mēroga modeļos,” viņš teica. “Šajās jomās ir daudz iespēju, jo īpaši tāpēc, ka mēs virzāmies uz aģentu sistēmām, kurām nepieciešama liela caurlaidspēja, zems latentums un adaptīva spriešana. NVFP4 pierāda, ka precizitāti var optimizēt, nekaitējot kvalitātei, un tas ir priekšnosacījums jaunam inteliģenta, efektīva AI dizaina laikmetam.”

avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here