Vēl viena diena 2025. gada beigās, vēl viens iespaidīgs rezultāts no Ķīnas uzņēmuma atklātā pirmkoda mākslīgā intelekta jomā.
Ķīnas sociālo tīklu uzņēmums Weibo AI nodaļa nesen izlaida savu atvērtā koda VibeThinker-1.5B— 1,5 miljardu parametru lielas valodas modelis (LLM), kas ir konkurējošā Ķīnas tehnoloģiju uzņēmuma precīzs variants Alibaba Qwen2.5-Math-1.5B.
Tas tagad ir pieejams bez maksas lejupielādei un izmantošanai pētniekiem un uzņēmumu izstrādātājiem — pat komerciāliem nolūkiem — saskaņā ar atļauju MIT licenci vietnē Apskāva seja, GitHub un ModelScopear a tehniskais ziņojums atvērtās piekļuves zinātnes publikāciju vietnē arxiv.org.
Un tomēr, neraugoties uz tā kompakto izmēru, VibeThinker-1.5B matemātikas un koda uzdevumos sasniedz salīdzinošo spriešanas veiktspēju, simtiem reižu konkurējot vai pārspējot modeļus, pat pārspējot Ķīnas konkurenta DeepSeek slaveno R1, kas kļuva plaši izplatīts šī gada sākumā — 671 miljarda parametru modelis, kas atbilst formālam saprātam.
Tas vēl vairāk aptumšo Mistral AI Magistral Medium un turas pretī Anthropic Claude Opus 4 un OpenAI gpt-oss-20B Medium, vienlaikus prasa daļu infrastruktūras un ieguldījumu.
Tas tiek darīts arī pēc tam, kad ir bijis pēcapmācības ar budžetu tikai 7800 USD apmērā skaitļošanas resursiem (3900 GPU stundas Nvidia H800s) — daudz mazāk nekā desmitiem vai pat simtiem tūkstošu dolāru, kas parasti nepieciešami līdzīga vai lielāka mēroga modeļu precizēšanai.
Tomēr atcerieties, ka šīs nav modeļa izstrādes kopējās izmaksas: LLM apmācību veic pakāpeniski. Vispirms notiek iepriekšēja apmācība, kad modelis apgūst pamata valodas struktūru un vispārīgās zināšanas, paredzot nākamo vārdu milzīgam teksta daudzumam no interneta, grāmatām un rakstiem. Tas nodrošina raitu, guess maz jēgas, kā sekot norādījumiem vai uzturēt sarunu
Pēcapmācība notiek pēc tam, izmantojot daudz mazākas, augstākas kvalitātes datu kopas — parasti jautājumu piemēru, uzvedņu un ekspertu rakstītu atbilžu kolekcijas —, lai iemācītu modelim lietderīgi reaģēt, risināt problēmas un pielāgoties cilvēku cerībām. Tomēr Weibo izmaksu efektivitāte pēc apmācības VibeThinker-1.5B ir ievērības cienīga, un tā ir jāuzteic.
Atvērtā pirmkoda laidiens maina pieņēmumus par parametru skalu, skaitļošanas intensitāti un minimālo dzīvotspējīgo lielumu augstas veiktspējas LLM.
Atšķirīga apmācības pieeja: spektrs-signāls
VibeThinker-1.5B sniegums nav saistīts ar mērogu, guess gan ar apmācību sistēmu: spektra-signāla principam (SSP).
Tā vietā, lai optimizētu modeli tikai vienas atbildes pareizībai (Go@1), SSP sistēma atdala uzraudzīto precizēšanu (SFT) un pastiprināšanas mācīšanos (RL) divās atšķirīgās fāzēs ar dažādiem mērķiem:
-
SFT (“spektra fāze”): modelis ir apmācīts, lai maksimāli palielinātu iespējamo pareizo atbilžu dažādību, uzlabojot tā Go@Okay rezultātu. Tas veido plašu ticamu risinājumu ceļu klāstu.
-
RL (“signāla fāze”): tiek izmantota otrā posma pastiprināšanas mācību sistēma (saukta par MaxEnt-Guided Coverage Optimization jeb MGPO), lai identificētu un paplašinātu vispareizākos ceļus no šī daudzveidīgā risinājumu kopuma. MGPO piešķir prioritāti problēmām, kurās modelis ir visvairāk nenoteikts, izmantojot uz entropiju balstītu svērumu, lai koncentrētos uz mācīšanos.
Autori apgalvo, ka šī atdalīšana ļauj maziem modeļiem efektīvāk izpētīt argumentācijas telpu, panākot signāla pastiprināšanu, nepaļaujoties uz masveida parametru skaitu.
VibeThinker-1.5B pārliecinoši pierāda, ka nozares paļaušanās uz parametru mērogošanu kā vienīgo ceļu uz labāku argumentācijas veiktspēju var būt novecojusi.
Pieņemot daudzveidības pirmām kārtām paredzētu apmācību cauruļvadu, WeiboAI ir parādījis, ka mazāki, pieejamāki modeļi var saskaņot un pat pārspēt miljardu dolāru sistēmas, veicot loģikas uzdevumus.
Zemais resursu nospiedums ir viens no nozīmīgākajiem VibeThinker-1.5B aspektiem. Zem 8000 USD, pēcapmācības izmaksas ir 30–60 reizes zemākas nekā tādiem modeļiem kā DeepSeek R1 un MiniMax-M1, kuru apmācība maksā no 294 000 USD līdz 535 000 USD.
Veiktspēja starp domēniem
Neskatoties uz nelielo izmēru, VibeThinker-1.5B nodrošina starpdomēnu argumentāciju, kas pārspēj daudzus lielākus atvērtā koda un komerciālos modeļus:
|
Modelis |
AIME25 |
LiveCodeBench v6 |
GPQA-Dimants |
|
VibeThinker-1.5B |
74.4 |
51.1 |
46.7 |
|
GPT-OSS-20B-Medium |
72.1 |
54.9 |
66.0 |
|
Klods Opuss 4 |
69.2 |
56.6 |
79.6 |
|
MiniMax M1 (456B) |
74.6 |
62.3 |
69.2 |
|
DeepSeek R1 (671B) |
70.0 |
65.9 |
71.5 |
|
Kimi K2 (1,09 T) |
49.5 |
53.7 |
75.1 |
VibeThinker tika salīdzināts gan ar uz spriešanu orientētiem modeļiem (Magistral, Claude, OpenAI o3-mini), gan bez saprātīgiem LLM (GPT-4.1, Kimi K2, DeepSeek V3). Strukturētās spriešanas etalonos modeļa veiktspēja konsekventi pārspēja nepārdomātus modeļus neatkarīgi no izmēra:
-
Programmā AIME24 (matemātika) tas pārspēja Kimi K2 (1,09 T) ar vairāk nekā 10 punktiem (80,3 pret 69,6).
-
Programmā LiveCodeBench v6 tas pārspēja Claude Opus 4 (51,1 pret 47,4).
-
GPQA tā ieguva zemāku punktu skaitu par GPT-4.1 un Claude, taču joprojām dubultoja bāzes modeli (no 16,4 uz 46,7).
Tas apstiprina autoru apgalvojumu, ka lielums nav vienīgais ceļš uz spriešanas spējām — ar pareizu apmācības dizainu mazāki modeļi var sasniegt vai pat pārsniegt daudz lielāku sistēmu veiktspēju mērķtiecīgos uzdevumos.
Konkrēti, tas sasniedz paritāti ar modeļiem, kas ir simtiem reižu lielāki matemātikā un kodā, lai gan atpaliek no vispārējo zināšanu spriešanas (GPQA), kur lielāki modeļi saglabā priekšrocības.
Tas liecina par potenciālu specializācijas kompromisu: lai gan VibeThinker izceļas ar strukturētiem loģiskiem uzdevumiem, tam ir mazāka kapacitāte plaša spektra enciklopēdiskai atsaukšanai, kas ir zināms mazāku arhitektūru ierobežojums.
Vadlīnijas uzņēmumu pieņemšanai
Laidienā ir iekļauti ieteicamie secinājumu iestatījumi (temperatūra = 0,6, top_p = 0,95, maks. marķieri = 40960).
Modelis ir pietiekami mazs, lai to varētu izmantot malas ierīcēs, tostarp mobilajos tālruņos un transportlīdzekļos iegultās sistēmās, savukārt izsecināšanas izmaksas tiek lēstas 20–70 reizes lētākas nekā ar lieliem modeļiem.
Tas pozicionē VibeThinker-1.5B ne tikai kā pētniecības sasniegumu, guess arī kā potenciālu pamatu izmaksu ziņā efektīvām, lokāli izvietojamām spriešanas sistēmām.
Weibo stratēģija un tirgus pozīcija
Uzņēmums Weibo, ko Sina Company uzsāka 2009. gadā, joprojām ir Ķīnas sociālo mediju ekosistēmas stūrakmens. Platforma, kas bieži tiek raksturota kā Ķīnas X (iepriekš Twitter) versija, apvieno mikroemuāru rakstīšanu, multivides saturu un aktuālu tēmu funkcijas ar normatīvo vidi, ko veido stingra valdības uzraudzība.
Neskatoties uz to, ka ikmēneša aktīvo lietotāju skaits ir 600 miljoni (vairāk nekā divas reizes vairāk nekā X), investori nav optimistiski noskaņoti par tās reklāmas ieņēmumu pieauguma potenciālu tuvākajā laikā, un Weibo virzās uz pastiprinošu konkurenci no platformām, kas izmanto video vispirms, piemēram, Douyin, kas piesaista jaunākus lietotājus un palielina citur pavadīto laiku.
Reaģējot uz to, Weibo ir izmantojis satura veidotāju ekonomikas monetizāciju, tiešraides straumēšanu un vertikālos video, pievienojot rīkus ietekmētāju iesaistīšanai, e-komercijas integrācijai un bagātākai zīmolu analītikai.
Platformas kā digitālā publiskā laukuma loma arī padara to par regulatīvās kontroles uzmanības centrā. Ķīnas varas iestādes turpina izdarīt spiedienu uz jautājumiem, sākot no satura pārvaldības līdz datu drošībai. 2025. gada septembrī, Weibo bija viena no platformām, kas minēta oficiālajos brīdinājumosuzsverot tā pastāvīgo pakļautību politikas riskiem.
Weibo virzība uz mākslīgā intelekta pētniecību un izstrādi, ko apliecina VibeThinker-1.5B izlaišana, liecina par ambīciju maiņu. Papildus tam, ka Weibo ir plašsaziņas līdzekļu platforma, tā pozicionē sevi kā spēlētāju Ķīnas mākslīgā intelekta attīstības nākamajā fāzē, izmantojot savas kapitāla rezerves, lietotāju uzvedības datus un iekšējās pētniecības iespējas, lai īstenotu blakus esošās tehniskās jomas.
Ko tas nozīmē uzņēmuma tehnisko lēmumu pieņēmējiem
Inženieru vadītājiem un uzņēmumu AI komandām VibeThinker izlaišanai ir praktiska ietekme uz visu, sākot no orķestrēšanas konveijeriem līdz izmaksu modelēšanai.
1,5 B parametru modelis, kas matemātikas un programmēšanas uzdevumos pārspēj 100 reizes lielākus modeļus, ne tikai ietaupa aprēķinus, guess arī maina arhitektūras līdzsvaru. Tas ļauj izdarīt LLM secinājumus par ierobežotu infrastruktūru, samazina latentumu pie malas un samazina barjeru ienākšanai lietojumprogrammām, kurām pretējā gadījumā būtu nepieciešama API piekļuve slēgtiem, robežas mēroga modeļiem.
Tas ir svarīgi uzņēmumu ML potenciālajiem klientiem, kuri mēģina esošajās sistēmās izvietot uz argumentāciju spējīgus aģentus, vai platformu īpašniekiem, kuru uzdevums ir integrēt LLM automatizētās darbplūsmās.
Tas attiecas arī uz tiem, kuri izmanto pastiprināšanas mācības no cilvēku atgriezeniskās saites (RLHF) konveijeriem vai pārvalda secinājumu optimizāciju hibrīdmākoņu vidēs.
Modeļa pēcapmācības metodoloģija, jo īpaši uz entropiju vērsta pastiprināšanas mācīšanās pieeja, piedāvā ceļvedi komandām, kuras vēlas uzlabot mazākus kontrolpunktus, nevis paļauties uz liela mēroga iepriekšēju apmācību.
VibeThinker etalona pārredzamības un datu dekontaminācijas darbības attiecas arī uz vēl vienu jaunu uzņēmuma AI prioritāti: auditējamību. Lai gan tā veiktspēja vispārējo zināšanu pārbaudēs joprojām atbilst lieliem robežmodeļiem, tā uzdevumiem raksturīgā uzticamība padara to par pievilcīgu kandidātu kontrolētām vidēm, kur pareizība ir svarīgāka nekā pārklājums.
Īsāk sakot, VibeThinker-1.5B nav tikai pētniecības pavērsiens — tas ir spēcīgs kandidāts praktiskai lietošanai uzņēmumā, izvietošanai un mācībām. Tas liek domāt, ka jauna kompaktu, spriešanai optimizētu modeļu klase ir dzīvotspējīga uzņēmumu lietošanas gadījumiem, kas iepriekš bija daudz lielāku sistēmu domēns. Organizācijām, kas cenšas līdzsvarot izmaksas, latentumu, interpretējamību un kontroli, tā ir laba jauna iespēja garajam un augošajam Ķīnas atvērtā pirmkoda piedāvājumu sarakstam.












