Pievienojieties mūsu ikdienas un nedēļas biļeteniem, lai iegūtu jaunākos atjauninājumus un ekskluzīvu saturu par nozares vadošo AI pārklājumu. Uzziniet vairāk
Ķīniešu e-komercija un tīmekļa gigants Alibaba Qwen komanda ir oficiāli uzsākusi Jauna atvērtā koda AI lielo valodu multimodālo modeļu sērija, kas pazīstama kā QWEN3, kas, šķiet, ir vieni no vismodernākajiem atvērtiem modeļiem un tuvojas patentētu modeļu veiktspējai no Openai un Google.
QWEN3 sērijā ir divi “Specialists maisījuma” modeļi un seši blīvi modeļi, kas kopumā astoņiem (!) Jauniem modeļiem. Pieeja “Specialists sajaukums” ietver vairāku dažādu speciālo modeļu tipu apvienošanu vienā, un tikai tie attiecīgie modeļi, kas attiecas uz konkrēto uzdevumu, tiek aktivizēti, kad tas nepieciešams modeļa iekšējos iestatījumos (pazīstams kā parametri). To popularizēja atvērtā pirmkoda franču AI starta mistral.
Pēc komandas domām, QWEN3 235 miljardu parametru versija, ko sauc par A22B, pārspēj DeepSeek atvērtā koda R1 un Openai patentēto O1 galvenajos trešo personu etalonos, ieskaitot Arenahard (ar 500 lietotāju jautājumiem programmatūras inženierijā un matemātikā) un tuvojas jaunā, patentētā Google Gemini 2,5-Professional.
Kopumā etalona dati pozicionē QWEN3-235B-A22B kā vienu no visspēcīgākajiem publiski pieejamajiem modeļiem, sasniedzot paritāti vai pārākumu salīdzinājumā ar galvenajiem nozares piedāvājumiem.
Hibrīds (argumentācija) teorija
QWEN3 modeļi ir apmācīti nodrošināt tā sauktās “hibrīda spriešanas” vai “dinamiskas spriešanas” iespējas, ļaujot lietotājiem pārslēgties starp ātrām, precīzām atbildēm un laikietilpīgākiem un aprēķinošiem intensīviem spriešanas soļiem (līdzīgi Openai sērijai “O”), lai iegūtu sarežģītus jautājumus zinātnes, matemātikas, inženierzinātņu un citu specializētu zāļu jautājumos. Šī ir pieeja, kuru aizsāka Nous Analysis un citi AI jaunuzņēmumi un pētniecības kolektīvi.
Izmantojot QWEN3, lietotāji var iesaistīt intensīvāku “domāšanas režīmu”, izmantojot pogu, kas kā tāda ir, QWEN tērzēšanas vietnē vai iegulstot īpašas uzvednes, piemēram, /suppose
vai /no_think
Izvietojot modeli lokāli vai caur API, ļaujot elastīgi izmantot atkarībā no uzdevuma sarežģītības.
Lietotāji tagad var piekļūt un izvietot šos modeļus dažādās platformās, piemēram, sejas, modeļu virknes, kaggle un github apskaušanā, kā arī mijiedarbojas ar viņiem tieši caur Qwen tērzēšanas tīmekļa saskarne un mobilās lietojumprogrammas. Izlaidumā ietilpst gan ekspertu sajaukums (MOE), gan blīvi modeļi, visi ir pieejami saskaņā ar Apache 2.0 atvērtā koda licenci.
Man līdz šim īsā QWEN tērzēšanas vietnes lietojumā tā spēja relatīvi ātri radīt attēlus un ar pienācīgu tūlītēju ievērošanu – it īpaši, iekļaujot tekstu attēlā sākotnēji, vienlaikus saskaņojot stilu. Tomēr tas bieži pamudināja mani pieteikties un uz to attiecas parastie ķīniešu satura ierobežojumi (piemēram, aizliegt uzvednes vai atbildes, kas saistītas ar Tiananmen kvadrātveida protestiem).

Papildus MOE piedāvājumiem QWEN3 ietver blīvus modeļus dažādos mērogos: qwen3-32b, qwen3-14b, qwen3-8b, qwen3-4b, qwen3-1.7b un qwen3-0,6b.
Šie modeļi atšķiras pēc lieluma un arhitektūras, piedāvājot lietotājiem iespējas, lai atbilstu dažādas vajadzības un skaitļošanas budžetus.
QWEN3 modeļi arī ievērojami paplašina daudzvalodu atbalstu, tagad aptverot 119 valodas un dialektus galveno valodu ģimenēs. Tas paplašina modeļu potenciālo pielietojumu visā pasaulē, veicinot pētījumu un izvietošanu plašā lingvistisko kontekstu klāstā.
Modeļa apmācība un arhitektūra
Modeļa apmācības ziņā QWEN3 ir ievērojams solis uz augšu no sava priekšgājēja, Qwen2.5. Datu kopa pirmskārtā dubultojās līdz aptuveni 36 triljoniem žetonu.
Datu avotos ietilpst tīmekļa pārmeklēšana, PDF līdzīga dokumentu ekstrakcija un sintētiskais saturs, kas ģenerēts, izmantojot iepriekšējos QWEN modeļus, kas vērsti uz matemātiku un kodēšanu.
Apmācības cauruļvads sastāvēja no trīs posmu pirmstermiņa procesa, kam sekoja četrpakāpju pēc apmācības uzlabošana, lai ļautu hibrīda domāšanas un domāšanas iespējām. Apmācības uzlabojumi ļauj blīvajiem QWEN3 bāzes modeļiem saskaņot vai pārsniegt daudz lielāku QWEN2.5 modeļu veiktspēju.
Izvietošanas iespējas ir daudzpusīgas. Lietotāji var integrēt QWEN3 modeļus, izmantojot tādus ietvarus kā Sglang un VLLM, kas abi piedāvā ar Openai saderīgiem parametriem.
Vietējā lietošanai ieteicams izmantot tādas iespējas kā Ollama, Lmstudio, MLX, Llama.cpp un Ktransformers. Turklāt lietotāji, kurus interesē modeļu aģentiskās iespējas, tiek mudināti izpētīt QWEN-AGENT rīkkopa, kas vienkāršo rīku izsaukšanas operācijas.
Junyang Lin, Qwen komandas loceklis, komentēja x Šī ēka QWEN3 ietvēra kritisku, guess mazāk krāšņu tehnisko izaicinājumu risināšanu, piemēram, pastiprināšanas mācīšanās mērogošanu, vairāku domēnu datu līdzsvarošanu un daudzvalodu veiktspējas paplašināšanu bez kvalitātes upurēšanas.
Līna arī norādīja, ka komanda pāriet uz apmācības aģentiem, kas spēj ilgstoši horizontu argumentēt reālās pasaules uzdevumus.
Ko tas nozīmē uzņēmuma lēmumu pieņēmējiem
Inženierzinātņu komandas var norādīt uz esošajiem Openai saderīgajiem parametriem jaunajam modelim stundās, nevis nedēļās. MOE kontrolpunkti (235 B parametri ar 22 B aktīviem un 30 B ar 3 B aktīviem) nodrošina GPT-4 klases argumentāciju aptuveni GPU atmiņas izmaksās 20–30 B blīvā modelī.
Oficiālie Lora un Qlora āķi ļauj privātām precizējumiem, nesūtot patentētus datus trešās puses pārdevējam.
Blīvi varianti no 0,6 B līdz 32 B atvieglo prototipu klēpjdatoros un mērogā līdz vairāku GPU klasteriem, pārrakstot uzvednes.
Svaru vadīšana uz vietas nozīmē, ka visas uzvednes un izejas var reģistrēt un pārbaudīt. MOE mazums samazina aktīvo parametru skaitu uz vienu zvanu, samazinot secinājumu uzbrukuma virsmu.
Apache-2.0 licence novērš uz lietošanu balstītus juridiskos šķēršļus, lai gan organizācijām joprojām būtu jāpārskata eksporta kontroles un pārvaldības sekas, izmantojot modeli, kuru apmācīja Ķīnā balstīts pārdevējs.
Tomēr tajā pašā laikā tā piedāvā arī dzīvotspējīgu alternatīvu citiem ķīniešu spēlētājiem, ieskaitot DeepSeek, Tencent un Bytedance, kā arī neskaitāmo un pieaugošo Ziemeļamerikas modeļu skaitu, piemēram, iepriekšminētie Openai, Google, Microsoft, Antropic, Amazon, Meta un citi. Atļaujošā Apache 2.0 licence – kas ļauj neierobežotu komerciālu izmantošanu – ir arī liela priekšrocība salīdzinājumā ar citiem atvērtā pirmkoda spēlētājiem, piemēram, Meta, kuru licences ir ierobežojošākas.
Tas arī norāda, ka sacensības starp AI pakalpojumu sniedzējiem piedāvāt arvien jaudīgus un pieejamus modeļus turpina saglabāt ļoti konkurētspējīgu, un izveicīgām organizācijām, kas vēlas samazināt izmaksas, jācenšas palikt elastīgi un atvērtas, lai novērtētu minētos jaunos modeļus saviem AI aģentiem un darbplūsmām.
Raugoties uz priekšu
QWEN komanda pozicionē QWEN3 ne tikai kā pakāpenisku uzlabojumu, guess arī kā nozīmīgu soli uz nākotnes mērķu sasniegšanu mākslīgajā vispārējā intelektā (AGI) un mākslīgajā superintelligencē (ASI), AI ievērojami gudrāka nekā cilvēki.
Nākamās QWEN posma plānos ietilpst datu mērogošana un modeļa lielums, paplašinot konteksta garumu, palielinot modalitātes atbalstu un pastiprināšanas mācīšanos ar vides atgriezeniskās saites mehānismiem.
Tā kā turpina attīstīties liela mēroga AI pētījumu ainava, QWEN3 atvērtā svara izlaidums saskaņā ar pieejamu licenci iezīmē vēl vienu svarīgu pavērsienu, samazinot šķēršļus pētniekiem, izstrādātājiem un organizācijām, kuru mērķis ir ieviest jauninājumus ar vismodernākajām LLM.
avots