Home Tehnoloģija Kā DeepSEEK-R1 AI modelis tika iemācīts iemācīt sevi saprātīgi | Izskaidrots

Kā DeepSEEK-R1 AI modelis tika iemācīts iemācīt sevi saprātīgi | Izskaidrots

37
0

 

Stāsts līdz šim: Daudzu gadu desmitu laikā viens no lielajiem mākslīgā intelekta (AI) izaicinājumiem ir mācījis mašīnas. Argumentācija pārsniedz faktu iegaumēšanu vai teikumu aizpildīšanu. Tā ir spēja veikt soļus, pārdomāt kļūdas un pielāgot stratēģijas, līdz tiek atrasta pareizā atbilde.

Cilvēki izmanto argumentāciju visam, sākot no matemātikas problēmu risināšanas līdz datorprogrammu rakstīšanai, sākot no sarunām par viņu ikdienas dzīvi līdz izlemjam, par ko balsot. Lielu valodu modeļi (LLMS), piemēram, GPT-4 vai DeepSEEK-V3, ir pārsteiguši zinātniekus, parādot spriešanas pazīmes, salīdzinot ar lieliem izmēriem. Vēl viena metode, ko sauc par pārdomām, kurās modelis ir pamudināts “domāt soli pa solim”, ir arī uzlabojusi sniegumu.

Bet abas šīs pieejas nāk ar robežām. Apmācības modeļi par saprātu parasti prasa cilvēku veidotus piemērus. Piemēram, cilvēki parāda AI modeli, kā atrisināt problēmas, un AI iemācās kopēt metodi. Tas ir lēns, dārgs un rada cilvēku aizspriedumus. Tas arī ierobežo AI radošumu, jo modelis nevar izpētīt problēmu risināšanas metodes, par kurām cilvēki nedomāja.

Rakstā, kas publicēts Raksturs 17. septembrī DeepSeek-AI komanda ziņoja, ka tā spēj sasniegt savu modeli, ko sauc par tikai R1, uz saprātu, uzdodot ambiciozu jautājumu: Ko darīt, ja mēs ļautu modelim iemācīt sevi pamatot, vispirms neizrādot to cilvēku piemērus? Tas ir, viņi atklāja, ka R1 varētu attīstīt jaunus spriešanas veidus, izmantojot pastiprināšanas mācīšanos, izmēģinājumu un kļūdu metodi, kuru tikai atlīdzība vadīja par pareizām atbildēm.

Kas ir pastiprināšanas mācīšanās?

Komandas mērķis bija padarīt modeli gudrāku matemātikā un kodēšanā, kā arī atklāt, kā argumentācijas izturēšanās varētu rasties dabiski, ja mašīnai tiek doti atbilstoši stimuli.

DeepSeek pētnieki sāka ar V3 bāzi-lielu valodas modeli, kas līdzīgs citām vismodernākajām sistēmām. Tā vietā, lai izmantotu parasto uzraudzīto precizitāti, kur cilvēki sniedz spriešanas posmus, viņi izmantoja “grupas relatīvo politikas optimizāciju”-pastiprināšanas mācību metodi, kas paredzēta efektivitātei.

Šajā iestatījumā modelim, kuru sākumā sauca par r1-nulli, tika lūgts atrisināt matemātiskas un algoritmiskas problēmas. Katram mēģinājumam tai bija jāizgatavo divas daļas: spriešanas process `iekšpusē`

`tagi un galīgā atbilde iekšā`…`tagi. Vienīgā atlīdzība nāca no tā, vai galīgā atbilde bija pareiza, kuras vērtēja pēc noteikumiem balstītas sistēmas, piemēram, atbildes atslēgas vai koda kompilatori. Neviens neteica modelim, kā vajadzētu izskatīties tā argumentācijai.

Vairāk nekā tūkstošiem apmācības soļu modelis, kas apgūtais ar izmēģinājumu un kļūdu palīdzību. Ja atbilde bija nepareiza, ceļš, kas tur veda, tika atturēts; Ja tas bija pareizi, ceļš tika pastiprināts. Svarīgi ir tas, ka pētnieki arī izsekoja, kā mainījās modeļa domāšanas laiks, ti, to marķieru skaits, ko tā izmantoja argumentācijas sadaļā. Pārsteidzoši, ka modelis sāka rakstīt ilgāk un pārdomātas spriešanas ķēdes pati par sevi, dažreiz iekļaujot tādas frāzes kā “gaidīt” vai “mēģināsim vēlreiz”, atklājot spēju pašizgatavoties.

Vai notika cilvēka iejaukšanās?

Lai novērstu vājās puses, piemēram, sliktu lasāmību un angļu valodas sajaukšanu ar ķīniešu valodu, komanda uzcēla R1 no R1-Zero. Šis process ietvēra stimulu pievienošanu konsekventi, izmantojot vienas valodas uzraudzīto precizitāti, gan argumentācijas, gan nesaskaņojot datus. Tādējādi galīgais modelis mantoja neapstrādātu R1-nulles spriešanas spēku, vienlaikus kļūstot arī vieglāk lietojams un drošāks.

Rezultāti bija pārsteidzoši. Amerikas ielūguma matemātikas eksāmenā (AIME) 2024-smaga konkurence, kuru parasti mēģina gudrākais vidusskolas studentu, R1-Zero precizitāte līdz beigām pieauga no tikai 15,6% apmācības sākumā līdz 77,9%. Ar lielāku noskaņojumu tas sasniedza 86,7%, pārsniedzot cilvēku studentu vidējo sniegumu.

Noteiktā posmā R1-nulle sāka lietot vārdu “gaidīt” biežāk tā argumentācijā, tāpat kā cilvēkam varētu būt, kad tiek pamanīta kļūda. Pētnieki sacīja, ka tas nozīmē, ka modelis akli neiet pa ceļu, bet aktīvi pārdomā soļus, kad kaut kas šķita izslēgts. Faktiski pastiprināšanas mācīšanās bija pierunājusi AI par izturēšanos, kas līdzinājās pārdomām un verifikācijai, abiem spriešanas elementiem.

Galīgais R1 modelis bija vēl spēcīgāks: tas bija labi matemātikā un kodēšanā, kā arī uz vispārējām zināšanām, atbildēšanas jautājumiem un sekojot norādījumiem. Salīdzinot ar tā priekšgājējiem, R1 arī vairāk atbilst tā valodas izvēlei un labāk saskaņots ar cilvēku vēlmēm pēc noderīguma un drošības. Novērtējot ar tādiem ietvariem kā Alpacaeval 2.0 un Arena-Hard, kas pārbauda, ​​cik labi modelis ievēro instrukcijas, R1 uzlabojās attiecīgi par 25% un 17%, kas tiek uzskatīti par lieliem.

Kādi ir argumentācijas plusi un mīnusi?

Daudzi lielas valodas modeļi, ieskaitot plaši izmantotas sistēmas, piemēram, ChatGpt, testēšanas laikā bieži prasa lielu skaitļošanas resursu daudzumu. No otras puses, R1 varētu pielāgot, cik daudz tas “domāja” atkarībā no uzdevuma grūtībām. Vienkāršas problēmas tika radītas ar īsām spriešanas ķēdēm, savukārt grūtākas radīja garākas, sarežģītākas ķēdes. Šī dinamiskā piešķīrums izvairījās no prasības varas, kas saistītas ar jautājumiem, kas to negarantēja. Tomēr pastiprināšanas mācīšanās pati par sevi ir energoietilpīga.

Kopumā atklājumi apstiprina, ka tikai pastiprināšanas mācīšanās (ar pareizu dizainu) varētu radīt spriešanas izturēšanos, par kuru iepriekš tika uzskatīts, ka ir nepieciešami cilvēku piemēri. Tas varētu mainīt to, kā mēs domājam par to, kā inteliģence varētu augt mākslīgajās sistēmās. Piemēram, nākotnē pētnieki varētu izveidot verificētājus, kas pārbauda atbildes, un ļāva modelim izdomāt savas stratēģijas. Ja atbildi uz matemātikas problēmu, datorprogrammu vai faktisku jautājumu var ticami pārbaudīt, tad pastiprināšanas mācīšanās var darīt pārējo. Tas varētu paātrināt progresu, samazinot cilvēku darbu un neobjektivitāti.

Patiešām, tradicionālie LLM apmācības cauruļvadi ir lieli uz lielām cilvēku marķētām datu kopām-cilvēki, kas raksta jautājuma atbildes pārus, spriešanas pasākumus, preferenču spriedumus utt. Tie ir dārgi un bieži tiek salikti ekspluatējošos darba apstākļos. Ja mašīnas var iemācīt saprātīgi izmantot tikai pastiprināšanas mācīšanos, pieprasījums pēc cilvēkiem ar anotētiem datiem var samazināties, tādējādi samazinot arī spiedienu, lai iegūtu lētu darbaspēku visā pasaulē. Tomēr pētījuma dokumentā arī tiek atzīts, ka uzdevumi bez skaidras pamata, kas joprojām ir balstīti uz cilvēku marķētiem datiem par atlīdzības modeļiem. Tātad cilvēka ieguldījums netiek novērsts; Tikai tā darbības joma var sarukt uz vietām, kur nevar uzbūvēt uzticamu verificētāju.

Modelis, kas iemācās saprātu, arī pieprasīs labākus atlīdzības signālus par atvērtiem uzdevumiem, piemēram, rakstīšanu, kas ir grūti, kā arī spēcīgāki aizsardzības pasākumi, jo tas spēj radīt bīstamu vai manipulatīvu saturu. Faktiski, skatoties, kā mašīna attīsta reflektējošu izturēšanos (apturēšana, pārbaude, pārskatīšana utt.), Rada jautājumus par to, cik tālu šādas sistēmas var iet. Ja argumentācija rodas no stimuliem, nevis instrukcijām, vai radošums vai dziļākas izpratnes formas varētu parādīties tādā pašā veidā?

Laiks rādīs-ja vien DeepSeek-R1 to vispirms izdomā.

Publicēts – 2025. gada 17. septembris 08:30 PM IST

avots