Home Tehnoloģija Mēs beidzot zinām, cik maksāja apmācīt Ķīnas pārsteidzošo DeepSeek modeli

Mēs beidzot zinām, cik maksāja apmācīt Ķīnas pārsteidzošo DeepSeek modeli

8
0

 

Atcerieties, kad DeepSeek īsi satricināja visu mākslīgā intelekta nozari, uzsākot savu lielās valodas modeli R1, kas tika apmācīta par nelielu daļu no naudas, ko Openai un citi lielie spēlētāji ielēja viņu modeļos? Pateicoties a Jauns papīrs, ko žurnālā publicējusi DeepSeek AI komanda RakstursMēs beidzot zinām, kas nepieciešams, lai apmācītu DeepSeek 1: 294 000 USD un 512 NVIDIA H800 mikroshēmas. Iemesls, kāpēc tā varēja tērēt mazāk, šķiet, ir tāpēc, ka komanda tika izmantota izmēģinājumu un kļūdu pastiprināšanas mācīšanās metodēs.

Lielākā daļa AI modeļu, kuriem uzdevums ir veikt argumentācijas uzdevumus dārgi un laikietilpīgi mērogā Tā kā modeļiem tiek sniegti izaicinošāki uzdevumi. DeepSeek atklāja, ka tas varētu uzlabot tā modeļa argumentāciju un rezultātus, vienkārši stimulējot to veikt izmēģinājumu un kļūdu procesu, līdz tas saņem pareizo atbildi.

In Raksts, kas pievienots rakstamKārnegija Melona universitātes docente Dafne Ippolito un PhD students Jimings Džans izskaidro pastiprināšanas metodi, salīdzinot to ar bērnu, kurš spēlē videospēli: “Kad bērns pārvietojas ar savu iemiesojumu caur spēles pasauli, viņi mācās caur izmēģinājumu un kļūdu, ka dažas darbības (tādas kā zelta monētu kolekcionēšana) nopelna punktus, ja līdzīgi ir līdzīgi. DeepSeek-R1 tika piešķirts augsts rezultāts, kad tas pareizi atbildēja uz jautājumiem, un zemu rezultātu, kad tas sniedza nepareizas atbildes. ”

Iepriekšējie pētījumi parādīja, ka pamudinājuma pieejas izmantošana-kā LLM, lai sniegtu soli pa solim skaidrojumu par to, kā tā tiek izvadīta, nodrošina precīzākas atbildes. Bet DeepSeek komanda izdomāja veidu, kā iegūt labākas atbildes, pastiprinot, piešķirot vērtēšanas sistēmu izejām, kuras R1 radīja. Tas īpaši labi darbojas ar matemātikas un programmēšanas jautājumiem, kuriem parasti ir pārbaudīti pareiza atbilde. Izmantojot šo metodi, nevis ar cilvēku vadītu argumentāciju, LLM varēja pašam izdarīt pareizu secinājumu, jo tā meklēja augstākus rezultātus.

Kaut arī šīs metodes izejas šķiet precīzākas, tā arī nedaudz vairāk aizrauj mašīnas “domas” procesu cilvēkiem, kuri mēģina sekot līdzi. Lūgts izveidot argumentācijas taku uz tās atbildi, modelis dažreiz mainīsies uz priekšu un atpakaļ starp angļu un ķīniešu valodu. Tas arī radīja skaidrojumus, kas bija 10 000 vai vairāk vārdu. Metode bija arī īpaši funkcionāla atbildēm ar skaidrām vai nepareizām atbildēm, nevis niansētākas vai subjektīvākas uzvednes.

Neatkarīgi no tā, tas ir interesants logs par to, cik DeepSeek ir izdevies būt konkurētspējīgam ar mazāku budžetu. Tomēr pašam uzņēmumam ir daudz skepses, kas to apņem, jo ​​tā uztverta tuvums Ķīnas valdībai. Pavisam nesen, Pētnieki parādīja Washington Post ka uzņēmuma modelis atsakās ražot kodu ar lielām drošības trūkumiem, kad priekšsēdētājs norāda, ka viņi strādā ar grupām, kuras Ķīnas valdība uzskata par jutīgu. Pētnieki arī atklāja, ka modelis izspiež mazāk drošu kodu, kad viņiem lūdza ražot darbu Tibetā, Taivānā, Faluņgun reliģiskajā kustībā vai Islāma valstī.

avots