Home Tehnoloģija QWEN3-CODER-480B-A35B-INSTUCT palaišana, un tas “varētu būt labākais kodēšanas modelis”

QWEN3-CODER-480B-A35B-INSTUCT palaišana, un tas “varētu būt labākais kodēšanas modelis”

3
0

 

Vai vēlaties gudrāku ieskatu iesūtnē? Reģistrējieties mūsu iknedēļas biļeteniem, lai iegūtu tikai to, kas ir svarīgi uzņēmuma AI, datu un drošības vadītājiem. Abonēt tūlīt


Ķīniešu e-komercijas giganta Alibaba “Qwen komanda” to ir izdarījusi vēlreiz.

Tikai dienas pēc atbrīvošanas bez maksas un ar atvērtā koda licencēšanu Kas tagad ir visaugstākais, kas nestabilizē lielo valodu modeli (LLM) pasaulē -Pilnīga pietura, pat salīdzinot ar patentētajiem AI modeļiem no labi finansētām ASV laboratorijām, piemēram, Google un Openai-tā garumā nosauktā QWEN3-235B-A22B-2507 veidā šī AI pētnieku grupa ir iznākusi ar vēl vienu bloķēšanas modeli.

Tas ir QWEN3-CODER-480B-A35B-INSTRUCTVerdzība jauns Open-Source LLM koncentrējās uz palīdzību programmatūras izstrādē. Tas ir paredzēts, lai apstrādātu sarežģītas, daudzpakāpju kodēšanas darbplūsmas un var izveidot pilntiesīgas, funkcionālas lietojumprogrammas sekundes vai minūtes.

Modelis ir novietots tā, lai konkurētu ar patentētiem piedāvājumiem, piemēram, Claude Sonnet-4, aģentu kodēšanas uzdevumos un nosaka jaunus etalonuzdevumus starp atvērtiem modeļiem.

Tas ir pieejams vietnē Apskaužot sejuVerdzība GithubVerdzība Qwen tērzēšanacaur Alibaba Qwen APIun pieaugošais trešo personu vibe kodēšanas un AI rīku platformu saraksts.

Atvērta iegūšanas licencēšana nozīmē zemas izmaksas un augsta uzņēmumu izvēles iespējas

Bet atšķirībā no Kloda un citiem patentētiem modeļiem, Qwen3-Coder, ko mēs to sauksim īsi, tagad ir pieejams zem atvērtā koda Apache 2.0 licencekas nozīmē, ka jebkuram uzņēmumam ir bez maksas ņemt bez maksas, lejupielādēt, modificēt, izvietot un izmantot darbinieku komerciālos lietojumprogrammās, nemaksājot Alibaba vai kādam citam santīmu.

Tas ir arī tik ļoti izpildāms trešo personu etalonos un anekdotiskā lietojumā starp AI Power lietotājiem “vibe kodēšanai”-kodēšanai, izmantojot dabisko valodu un bez formāliem izstrādes procesiem un soļiem-vismaz vienu, LLM pētnieks Sebastians Rasčkarakstīja uz X, ka: “Tas varētu būt labākais kodēšanas modelis. Vispārīgi mērķtiecīgs ir foršs, bet, ja jūs vēlaties vislabāko kodēt, tiek uzvarēta specializācija. Bez bezmaksas pusdienas.”

Izstrādātāji un uzņēmumi, kas ir ieinteresēti to lejupielādēt, var atrast kodu AI koda koplietošanas krātuvē Apskaužot sejuApvidū

Uzņēmumi, kuri nevēlas vai kuriem nav iespējas rīkot modeli paši vai caur dažādiem trešo personu mākoņa secinājumu sniedzējiem, var arī to izmantot tieši caur Alibaba Cloud Qwen APIkur viena miljona marķiera izmaksas sākas ar USD 1/USD 5 miljoniem žetonu (MTOK) par ievadi/izlaidi līdz 32 000 žetoniem, pēc tam 1,8 USD/9 USD par līdz 128 000 USD, USD 3/USD 15 par līdz 256 000 USD un 6 USD 60 par pilnu miljonu.

Modeļa arhitektūra un iespējas

Saskaņā ar QWEN Team Online publiskoto dokumentāciju QWEN3-CODER ir ekspertu (MOE) modelis ar 480 miljardiem kopējo parametru, 35 miljardiem aktīvu vaicājuma un 8 aktīvos ekspertus no 160.

Tas atbalsta 256K marķiera konteksta garumu niecīgi, ekstrapolējot līdz 1 miljonam žetonu, izmantojot dziju (vēl viena virvju ekstrapolācija – paņēmiens, ko izmanto, lai paplašinātu valodas modeļa konteksta garumu, kas pārsniedz sākotnējo apmācības robežu, modificējot rotējošo pozicionālo iespiedumu (virve), ko izmanto uzmanības aprēķināšanā. Šī spēja izprast un manipulēt ar visām atkārtotām atkārtotām dokumentiem.

Izstrādāts kā cēloņsakarības valodas modelis, tam ir 62 slāņi, 96 uzmanības galviņas vaicājumiem un 8 atslēgu vērtību pāriem. Tas ir optimizēts marķieriem efektīviem, instrukcijām sekojošiem uzdevumiem un izlaiž atbalstu Bloki pēc noklusējuma, racionalizējot tās izejas.

Augsts sniegums

QWEN3-CODER ir sasniedzis vadošo sniegumu starp atvērtiem modeļiem vairākos aģentiskos novērtējuma komplektos:

  • Swe-bench verificēts: 67,0% (standarts), 69,6% (500 apgriezti)
  • GPT-4.1: 54,6%
  • Dvīņi 2.5 Pro priekšskatījums: 49,0%
  • Claude Sonnet-4: 70,4%

Modelis arī konkurē ar konkurenci dažādos uzdevumos, piemēram, aģentu pārlūka lietošanā, daudzvalodu programmēšanā un instrumentu lietošanā. Vizuālie etaloni parāda progresīvu uzlabojumu starp apmācību iterācijām kategorijās, piemēram, kodu ģenerēšana, SQL programmēšana, koda rediģēšana un sekojoša instrukcija.

Līdztekus modelim Qwen ir atvērtā avota QWEN kods, CLI rīks, kas dodas no Dvīņu koda. Šī saskarne atbalsta funkciju izsaukšanu un strukturētu pamudinājumu, padarot QWEN3-CODER vieglāk integrēt kodēšanas darbplūsmās. QWEN kods atbalsta Node.js vidi, un to var instalēt, izmantojot NPM vai no avota.

Qwen3-Coder integrējas arī ar tādām izstrādātāju platformām kā:

  • Claude kods (izmantojot DašScope starpniekservera vai maršrutētāja pielāgošanu)
  • Cline (kā ar Openai saderīgu aizmugures locekļu)
  • Ollama, Lmstudio, MLX-LM, Llama.cpp un Ktransformers

Izstrādātāji var palaist QWEN3-CODER lokāli vai izveidot savienojumu, izmantojot OpenAI saderīgas API, izmantojot Alibaba Cloud, kas mitināti parametriem.

Pēc apmācības paņēmieni: kods RL un tālsatiksmes plānošana

Papildus 7,5 triljonu žetonu (70% koda) pirmstermiņiem QWEN3-CODER gūst labumu no uzlabotām pēcapstrādes metodēm:

  • Code RL (pastiprināšanas mācīšanās): uzsver augstas kvalitātes, uz izpildi balstītu mācīšanos uz dažādiem, pārbaudāmiem koda uzdevumiem
  • Long Horizon Agent RL: apmāca modeli, lai plānotu, izmantotu rīkus un pielāgotos vairāku pagriezienu mijiedarbībai

Šis posms imitē reālās pasaules programmatūras inženierijas izaicinājumus. Lai to iespējotu, Qwen Alibaba Cloud uzcēla 20 000 vides sistēmu, piedāvājot mērogu, kas nepieciešams, lai novērtētu un apmācītu modeļus sarežģītās darbplūsmās, piemēram, tādas, kas atrodamas SWECH.

Ietekme uz uzņēmumu: AI inženierzinātņu un DevOps darbplūsmas

Uzņēmumiem Qwen3-Coder piedāvā atvērtu, ļoti spējīgu alternatīvu slēgta avota patentētajiem modeļiem. Ar spēcīgiem rezultātiem kodēšanas izpilde un ilgstoša konteksta argumentācija, tas ir īpaši svarīgi:

  • CodeBase līmeņa izpratne: Ideāli piemērots AI sistēmām, kurām jāsaprot lielas krātuves, tehniskā dokumentācija vai arhitektūras modeļi
  • Automatizētas vilkšanas pieprasījuma darbplūsmas: Tās spēja plānot un pielāgoties visos pagriezienos padara to piemērotu auto ģenerēšanai vai pārskatīšanai.
  • Rīka integrācija un orķestrēšana: Izmantojot vietējo instrumentu zvanīšanas API un funkciju saskarni, modeli var iestrādāt iekšējās instrumentu un CI/CD sistēmās. Tas padara to īpaši dzīvotspējīgu aģentu darbplūsmām un produktiem, ti, tiem, kur lietotājs izraisa vienu vai vairākus uzdevumus, kurus tas vēlas, lai AI modelis izietu un izdarītu autonomi, pats, pārbaudot tikai tad, kad ir pabeigti vai kad rodas jautājumi.
  • Datu rezidence un izmaksu kontrole: Kā atvērts modelis uzņēmumi var izvietot qwen3-coder uz savas infrastruktūras-neatkarīgi no tā, vai mākoņdatne vai uz priekšu-izvairoties

Atbalsts ilgam kontekstam un modulāras izvietošanas iespējas dažādās Dev vidēs padara QWEN3-CODER par kandidātu uz ražošanas līmeņa AI cauruļvadiem gan lielos tehnoloģiju uzņēmumos, gan mazākās inženiertehniskajās komandās.

Izstrādātāju piekļuve un paraugprakse

Lai optimāli izmantotu Qwen3-Coder, Qwen iesaka:

  • Paraugu ņemšanas iestatījumi: temperatūra = 0,7, top_p = 0,8, top_k = 20, atkārtojums_penalty = 1,05
  • Izvades garums: līdz 65 536 žetoniem
  • Transformatoru versija: 4.51,0 vai jaunāka (vecākas versijas var mest kļūdas QWEN3_MOE nesaderības dēļ)

API un SDK piemēri tiek sniegti, izmantojot OpenAI saderīgus Python klientus.

Izstrādātāji var definēt pielāgotos rīkus un ļaut Qwen3-Coder dinamiski atsaukties uz tiem sarunu vai kodu ģenerēšanas uzdevumu laikā.

Silta agrīna uzņemšana no AI Power lietotājiem

Sākotnējās atbildes uz QWEN3-CODER-480B-A35B instrutu ir bijušas īpaši pozitīvas AI pētniekiem, inženieriem un izstrādātājiem, kuri ir pārbaudījuši modeli reālās pasaules kodēšanas darbplūsmās.

Papildus iepriekšminētajai Raschka augstajai uzslavai, Wolfram Ravenwolf, AI inženieris un vērtētājs Ellamindai, dalījās pieredzē Modeļa integrēšana ar Claude kodu uz xnorādot, “Tas noteikti ir labākais šobrīd.”

Pārbaudot vairākus integrācijas pilnvarniekus, Ravenwolf sacīja, ka galu galā viņš pats izveidoja, izmantojot Litellm, lai nodrošinātu optimālu veiktspēju, parādot modeļa pievilcību praktiskiem praktiķiem, kas koncentrējas uz rīku ķēdes pielāgošanu.

Pedagogs un ai tinkerers Kevins Nelsons arī svēra x pēc modeļa izmantošanas simulācijas uzdevumiem.

“Qwen 3 kodētājs ir citā līmenī,” Viņš ievietoja, atzīmējot, ka modelis, kas izpildīts ne tikai ar sniegtajām sastatnēm, bet pat iegulda ziņojumu simulācijas izvadē – negaidītu, bet apsveicamu zīmi par modeļa apziņu par uzdevuma kontekstu.

Pat Twitter līdzdibinātājs un Square (tagad saukts par “Block”) dibinātājs Džeks Dorsijs ievietoja X ziņojumu, slavējot modeli, rakstīšana:Zoss + qwen3-coder = wow,”Atsaucoties uz viņa bloka atvērtā koda AI aģenta ietvaru zosu, kuru VentureBeat aptvēra 2025. gada janvārī.

Šīs atbildes liecina, ka QWEN3-CODER rezonē ar tehniski lietpratīgu lietotāju bāzi, kas meklē veiktspēju, pielāgošanās spēju un dziļāku integrāciju ar esošajām attīstības kaudzēm.

Raugoties nākotnē: vairāk izmēru, vairāk lietošanas gadījumu

Lai gan šī izlaidums ir vērsts uz visspēcīgāko variantu, QWEN3-CODER-480B-A35B-INTRUCT, QWEN komanda norāda, ka izstrādā ir papildu modeļa izmēri.

To mērķis būs piedāvāt līdzīgas iespējas ar zemākām izvietošanas izmaksām, paplašinot pieejamību.

Turpmākais darbs ietver arī pašpilnveidošanās izpēti, jo komanda izmeklē, vai aģentu modeļi var iteratīvi uzlabot savu sniegumu, izmantojot reālās pasaules izmantošanu.


avots