Home Tehnoloģija DeepSeek, iespējams, ir izmantojis Google Dvīņus, lai apmācītu savu jaunāko modeli

DeepSeek, iespējams, ir izmantojis Google Dvīņus, lai apmācītu savu jaunāko modeli

17
0

Pagājušajā nedēļā ķīniešu laboratorija Deepseek izlaida atjauninātu sava R1 argumentācijas AI modeļa versiju, kas labi darbojas ar vairākiem matemātikas un kodēšanas etaloniem. Uzņēmums neatklāja datu avotu, ko tas izmantoja modeļa apmācībai, guess daži AI pētnieki spriež, ka vismaz daļa ir nākusi no Google Dvīņu AI saimes.

Melburnā dzīvojošais izstrādātājs Sems Paechs, kurš rada “emocionālo intelektu” AI novērtējumu, publicēja, kas, viņaprāt, ir pierādījums tam, ka Deepseek jaunākais modelis tika apmācīts par Gemini rezultātiem. DeepSeek modelis, ko sauc par R1-0528, dod priekšroku vārdiem un izteicieniem, kas līdzīgi tiem, kurus Google Gemini 2.5 Professional atbalsta, sacīja Paech X ziņojumā.

Tas nav smēķēšanas lielgabals. Wager vēl viens izstrādātājs, pseidonīms “brīvas runas vērtēšanas” veidotājs AI ar nosaukumu logmap, atzīmēja DeepSeek modeļa pēdas – “domas”, ko modelis ģenerē, kad tas darbojas secinājumā – “Lasiet kā Dvīņu pēdas”.

DeepSeek iepriekš tika apsūdzēts par apmācību par datiem no konkurējošiem AI modeļiem. Decembrī izstrādātāji novēroja, ka Deepseek V3 modelis bieži sevi identificēja kā Chatgpt, Openai ar AI darbināmu tērzēšanas rādītāju platformu, kas liek domāt, ka tā, iespējams, ir apmācīta Chatgpt tērzēšanas žurnālos.

Šī gada sākumā, Openai pastāstīja Financial Times Tajā tika atrasti pierādījumi, kas saista DeepSeek ar destilācijas izmantošanu – paņēmienu AI modeļu apmācībai, iegūstot datus no lielākiem, spējīgākiem. Saskaņā ar Bloomberg teiktoMicrosoft, tuvs Openai līdzstrādnieks un buyers, atklāja, ka 2024. gada beigās ar Openai izstrādātāja kontu starpniecību tiek pārtraukta liela daļa datu – konti Openai uzskata, ka ir saistīti ar DeepSeek.

Destilācija nav nekas neparasts, guess Openai pakalpojumu noteikumi aizliedz klientiem izmantot uzņēmuma modeļa rezultātus, lai izveidotu konkurējošu AI.

Skaidri sakot, daudzi modeļi nepareizi identificēt sevi un saplūst ar tiem pašiem vārdiem un frāžu pagriezieniem. Tas ir tāpēc, ka atvērtais tīmeklis, kur AI uzņēmumi iegūst lielāko daļu viņu apmācības datu, kļūst aizskalots ar AI slīdētApvidū Satura fermas izmanto AI, lai izveidotu klikšķaun robotprogrammatūras plūst reddit un NetraucētsApvidū

Šis “piesārņojums”, ja vēlaties, to ir izdarījis Diezgan grūti Lai rūpīgi filtrētu AI izejas no apmācības datu kopām.

Tomēr tādi AI eksperti kā Nātans Lamberts, bezpeļņas AI pētniecības institūta AI2 pētnieks, nedomā, ka tas nav jautājums, ko Deepseek apmācīja Google Dvīņu datus.

“Ja es būtu dziļš, es noteikti izveidotu tonnu sintētisko datu no labākā API modeļa,” Lambert rakstīts amatā uz X. “[DeepSeek is] Īss GPU un skalojiet ar skaidru naudu. Tas viņiem burtiski ir efektīvāk aprēķināts. ”

Daļēji cenšoties novērst destilāciju, AI uzņēmumi ir palielinājuši drošības pasākumus.

Aprīlī Openai sāka pieprasīt organizācijām pabeigt ID verifikācijas procesu, lai piekļūtu noteiktiem uzlabotiem modeļiem. Procesam ir nepieciešams valdības izsniegts ID no vienas no valstīm, kuru atbalsta Openai API; Ķīna nav sarakstā.

Citur Google nesen sāka “apkopot” pēdas, ko rada modeļi, kas pieejami caur tās AI Studio izstrādātāju platformu, soli, kas padara to grūtāku apmācīt izpildītāju konkurējošus modeļus Dvīņu pēdas. Anthropic maijā paziņoja, ka sāks apkopot sava modeļa pēdas, atsaucoties uz nepieciešamību aizsargāt tās “konkurences priekšrocības”.

Mēs esam sazinājušies ar Google komentāru un atjaunināsim šo darbu, ja dzirdēsim atpakaļ.



avots