Anna Barclay | Getty Photographs Information | Getty Photographs
Ķīniešu starta DeepSeek jaunākais eksperimentālais modelis sola palielināt efektivitāti un uzlabot AI spēju apstrādāt daudz informācijas par nelielu daļu no izmaksām, taču joprojām ir jautājumi par to, cik efektīva un droša ir arhitektūra.
DeepSeek nosūtīja Silīcija ieleju neprātā, kad tā pagājušajā gadā uzsāka savu pirmo modeli R1 no nekurienes, parādot, ka ir iespējams ātri apmācīt lielas valodas modeļus (LLMS) uz mazāk jaudīgām mikroshēmām, izmantojot mazāk resursu.
Uzņēmums pirmdien izlaida DeepSeek-V3.2-EXP, kas ir sava pašreizējā modeļa DeepSeek-V3.1-gala eksperimentālā versija, kas vēl vairāk balstās uz savu misiju palielināt efektivitāti AI sistēmās, Saskaņā ar ziņu AI forumā, kas apskauj sejuApvidū
“DeepSeek V3.2 turpina koncentrēties uz efektivitāti, izmaksu samazināšanu un atvērtā koda koplietošanu,” CNBC sacīja ķīniešu kopienas vadošā ķīniešu kopiena Adina Jakefu. “Lielais uzlabojums ir jauna funkcija ar nosaukumu DSA (DeepSeek Recire uzmanība), kas padara AI labāku, apstrādājot garus dokumentus un sarunas. Tas arī samazina AI vadīšanas izmaksas uz pusēm, salīdzinot ar iepriekšējo versiju.”
“Tas ir nozīmīgi, jo tam vajadzētu padarīt modeli ātrāku un rentablāku lietošanai bez manāma veiktspējas krituma,” sacīja Niks Pacietība, viceprezidents un prakses vadītājs AI Futurum grupā. “Tas padara spēcīgāku AI pieejamāku izstrādātājiem, pētniekiem un mazākiem uzņēmumiem, kas potenciāli noved pie jaunu un novatorisku lietojumprogrammu vilnis.”
Mazas uzmanības plusi un mīnusi
AI modelis pieņem lēmumus, pamatojoties uz apmācības datiem un jaunu informāciju, piemēram, uzvedni. Sakiet, ka aviokompānija vēlas atrast labāko ceļu no A uz B, lai gan ir daudz iespēju, ne visi ir iespējami. Filtrējot mazāk dzīvotspējīgus maršrutus, jūs dramatiski samazināt laiku, degvielu un, visbeidzot, naudu, kas nepieciešama ceļojuma veikšanai. Tā ir precīzi maza uzmanība, tas tikai faktorē datus, kas, pēc tās domām, ir svarīgi, ņemot vērā konkrēto uzdevumu, pretstatā citiem līdz šim modeļiem, kas ir sagrāvuši visus modeļa datus.
“Tātad būtībā jūs izgriezāt lietas, kuras, jūsuprāt, nav svarīgas,” sacīja Ekaterina Almasque, New Enterprise Capital Fund BlankPage Capital līdzdibinātāja un vadošais partneris.
Retas uzmanība ir efektivitātes labums, un spēja mērogot AI, ņemot vērā mazāk resursu, ir nepieciešams, taču viena problēma ir tā, ka tā varētu izraisīt to, cik uzticami modeļi ir saistīti ar to, ka trūkst pārraudzības, kā un kāpēc tā atlaiž informāciju.
“Realitāte ir tāda, viņi [sparse attention models] ir zaudējuši daudz nianšu, “sacīja Almasque, kurš bija agrīnā Dataiku un Darktrace atbalstītājs, un traders Graphcore.” Un tad patiesais jautājums ir, vai viņiem bija pareizais mehānisms, lai izslēgtu nevis svarīgus datus, vai arī ir kāds mehānisms, kas izslēdz patiešām svarīgus datus, un tad iznākums būs daudz mazāk būtisks? “
Tas varētu būt īpaši problemātiski AI drošībai un iekļaušanai, atzīmēja traders, piebilstot, ka tas var nebūt “optimāls vai drošākais” AI modelis, ko izmantot, salīdzinot ar konkurentiem vai tradicionālajām arhitektūrām.
DeepSeek tomēr saka, ka eksperimentālais modelis darbojas līdzvērtīgs savam v3.1-galam. Neskatoties uz spekulācijām Burbulis, kas veidojas, AI paliek ģeopolitiskās konkurences centrā, kad ASV un Ķīna sacenšas par uzvarētāju vietu. Yakefu atzīmēja, ka DeepSeek modeļi darbojas “tieši ārpus kastes” ar ķīniešu izgatavotiem AI mikroshēmām, piemēram, Ascend un Cambricon, kas nozīmē, ka tie var lokāli darboties vietējā aparatūrā bez papildu iestatīšanas.
DeepSeek arī dalījās ar faktisko programmēšanas kodu un rīkiem, kas nepieciešami eksperimentālā modeļa izmantošanai, viņa sacīja. “Tas nozīmē, ka citi cilvēki var no tā mācīties un izveidot savus uzlabojumus.”
Bet Almasque paša būtība nozīmē, ka tehnoloģija var nebūt aizsargājama. “Pieeja nav ļoti jauna,” viņa sacīja, atzīmējot, ka nozare ir “runājusi par maziem modeļiem kopš 2015. gada” un ka DeepSeek nespēj patentēt savu tehnoloģiju atvērtā pirmkoda dēļ. Tāpēc DeepSeek konkurences priekšrocībai ir jāatrodas tajā, kā tā izlemj, kuru informāciju iekļaut, viņa piebilda.
Pats uzņēmums atzīst, ka v3.2-exp ir “starpposma solis pretī mūsu nākamās paaudzes arhitektūrai”, kas ir apskāviena sejas stabs.
Kā uzsvēra pacietība, “šī ir DeepSeek vērtības balsta visā: efektivitāte kļūst tikpat svarīga kā neapstrādāts spēks.”
“DeepSeek spēlē garo spēli, lai sabiedrība būtu ieguldīta viņu progresā,” piebilda Jakefu. “Cilvēki vienmēr meklēs to, kas ir lēts, uzticams un efektīvs.”