Home Tehnoloģija Pētnieki secina, ka tikai nelielas AI modeļu daļas pārkvalifikācija var samazināt izmaksas...

Pētnieki secina, ka tikai nelielas AI modeļu daļas pārkvalifikācija var samazināt izmaksas un novērst aizmirstību

9
0

Uzņēmumi bieži to uzskata, kad Viņi precīzi noregulē modeļusViena efektīva pieeja lielas valodas modeļa (LLM) piemērošanai mērķim un pamatota ar datiem ir tā, lai modelis zaudētu dažas savas spējas. Pēc precizēšanas daži modeļi “aizmirst”, kā veikt noteiktus uzdevumus vai citus uzdevumus, ko viņi jau iemācījās.

Ilinoisas Universitātes Urbana-Champaign pētījumi piedāvā jaunu metodi modeļu pārkvalifikācijai, kas izvairās no “katastrofālas aizmirstības”, kurā modelis zaudē dažas no savām iepriekšējām zināšanām. Papīrs koncentrējas uz diviem īpašiem LLM, kas ģenerē atbildes no attēliem: Llava un QWEN 2.5-VL.

Šī pieeja mudina uzņēmumus pārkvalificēt tikai šauras LLM daļas, lai izvairītos no visa modeļa pārkvalifikācijas un ievērojami palielinātu aprēķinu izmaksu pieaugumu. Komanda apgalvo, ka katastrofiska aizmirstība nav patiess atmiņas zudums, wager drīzāk aizspriedumu dreifēšanas blakusparādība.

“Jauna LMM apmācība var maksāt miljoniem dolāru, nedēļas laika un izstarot simtiem tonnu CO2, tāpēc, lai atrastu veidus, kā efektīvāk un efektīvāk atjaunināt esošos modeļus, ir aktuāla baža,” komanda rakstīja filmā The Within the the the the the komanda papīrpapīrsApvidū “Vadoties pēc šī rezultāta, mēs izpētīsim noregulēšanas receptes, kas saglabā mācīšanos, vienlaikus ierobežojot izlaides maiņu.”

Pētnieki koncentrējās uz daudzslāņu Perceptron (MLP), modeļa iekšējo lēmumu pieņemšanas komponentu.

Katastrofāla aizmirstība

Pētnieki vispirms vēlējās, lai modeļos pārbaudītu katastrofiskas aizmirstības esamību un cēloni.

Lai to izdarītu, viņi izveidoja mērķa uzdevumu kopumu, lai modeļi varētu pabeigt. Pēc tam modeļi tika precīzi noregulēti un novērtēti, lai noteiktu, vai tie izraisīja ievērojamu aizmirstību. Guess procesam turpinoties, pētnieki atklāja, ka modeļi atgūst dažas savas spējas.

“Mēs arī pamanījām pārsteidzošu rezultātu, ka modeļa veiktspēja ievērojami samazināsies, izceļot etalonus pēc skaitīšanas uzdevuma apmācības, tas lielākoties atgūsies uz PathVQA – vēl vienu specializētu uzdevumu, kas nav labi pārstāvēts etalonos,” viņi sacīja. “Tikmēr, veicot aizmirstības mazināšanas eksperimentus, mēs arī izmēģinājām tikai atsevišķu noregulēšanu tikai pašpārliecinātības projekcijai (SA Proj) vai MLP slāņus, motivējot secinājumam, ka tikai LLM noregulēšana bija labāka nekā pilnīga modeļa noregulēšana. Tas noveda pie cita ļoti pārsteidzoša rezultāta-ka tikai pašnodarbinātības noteikšanas slāņus, pat pēc tam, kad tika veikti vieni un pēc tam, kad tika veikti pašsaprotami, un pēc tam, kad tika veikti pašsaprotami, un pēc tam, kad tika veikti pašsaprotami, un pēc tam, kad tika veikts, un pēc tam, kad tika veikti pašsaprotami, un pēc tam, kad tika veikts, un pēc tam, kad tika veikti pašsaprotami, un pēc tam, kad tika veikts, un pēc tam, kad tika veikts, un pēc tam, kad tika veikti pašsaprotami, un pēc tam, kad tika veikts, un pēc tam, kad tika veikts, un pēc tam, kad tika veikti pašsaprotami. uzdevumi secībā. ”

Pētnieki sacīja, ka viņi tic, ka “tas, kas izskatās pēc aizmirst vai iejaukšanās pēc šaurā mērķa uzdevuma precizēšanas, faktiski ir izejas sadalījuma novirze uzdevumu sadalījuma maiņas dēļ”.

Šaura pārkvalifikācija

Šis atradums izrādījās eksperimenta atslēga. Pētnieki atzīmēja, ka MLP noregulēšana palielina iespējamību “izvadīt skaitliskus žetonus un ļoti korelētu izvērstā uzdevuma precizitātes kritumu”. Tas parādīja, ka modelis, kas aizmirst dažas no savām zināšanām, ir tikai īslaicīga, nevis ilgtermiņa lieta.

“Lai izvairītos no izvades sadalījuma novirzīšanas, mēs noskaņojam MLP augšup/vārtu projekcijas, vienlaikus saglabājot iesaldēto projekciju, un secinām, ka tā sasniedz līdzīgu mācīšanos ar pilnīgu MLP noregulēšanu ar nelielu aizmirstību,” sacīja pētnieki.

Tas ļauj iegūt vienkāršāku un reproducējamāku metodi modeļa precizēšanai.

Koncentrējoties uz šauru modeļa segmentu, nevis uz vairumtirdzniecības pārkvalifikāciju, uzņēmumi var samazināt aprēķināšanas izmaksas. Tas arī ļauj labāk kontrolēt izejas novirzi.

Tomēr pētījums koncentrējas tikai uz diviem modeļiem, īpaši tiem, kas nodarbojas ar redzi un valodu. Pētnieki atzīmēja, ka ierobežotu resursu dēļ viņi nespēj izmēģināt eksperimentu ar citiem modeļiem.

Viņu atklājumus tomēr var attiecināt uz citiem LLM, īpaši dažādām kārtībām.

avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here