Home Tehnoloģija Tiktok mātesuzņēmums Bydedance izlaiž jaunu atvērtā pirmkoda sēklu-oss-36b modeli ar 512K marķiera...

Tiktok mātesuzņēmums Bydedance izlaiž jaunu atvērtā pirmkoda sēklu-oss-36b modeli ar 512K marķiera kontekstu

1
0

 

Vai vēlaties gudrāku ieskatu iesūtnē? Reģistrējieties mūsu iknedēļas biļeteniem, lai iegūtu tikai to, kas ir svarīgi uzņēmuma AI, datu un drošības vadītājiem. Abonēt tūlīt


Tiktok šodien atkal veido virsrakstus Baltais nams pievienojās populārajam sociālo mediju lietojumprogrammai – bet tā mātesuzņēmums Izveicībaķīniešu tīmekļa gigantam, bija arī pārsteiguma paziņojums par tā piedurkni.

Uzņēmuma AI pētnieku sēklu komanda Šodien atbrīvoja sēklu-oss-36b AI koda koplietošanas vietnē, kas apskauj seju.

Seed-OSS-36B ir jauna atvērtā pirmkoda līnija, lielo valodu modeļi (LLM), kas paredzēta progresīvai argumentācijai, un uz izstrādātāju orientētu lietojamību ar a Ilgāks marķiera konteksts – tas ir, cik daudz informācijas modeļi var pieņemt kā ieejas un pēc tam izvadīt vienā apmaiņā – nekā daudzi konkurējoši LLM no ASV tehnoloģiju uzņēmumiempat tādi līderi kā Openai un Antropic.

Kolekcija iepazīstina ar trim galvenajiem variantiem:


AI mērogošana sasniedz savas robežas

Strāvas robežas, pieaugošās marķiera izmaksas un secinājumu kavēšanās ir uzņēmuma AI pārveidošana. Pievienojieties mūsu ekskluzīvajam salonam, lai atklātu, kā ir labākās komandas:

  • Enerģijas pārvēršana par stratēģisku priekšrocību
  • Arhitektējot efektīvus secinājumus par reālu caurlaidspējas pieaugumu
  • Konkurences IA atbloķēšana ar ilgtspējīgām AI sistēmām

Nostipriniet savu vietu, lai paliktu priekšā:


  • Sēklu-oss-36b bāze ar sintētiskiem datiem
  • Sēklu-oss-36b bāze Bez sintētiskiem datiem
  • Sēklu-oss-36b inducts

Atbrīvojot gan Seed-OSS-36B-bāzes modeļa sintētiskās, gan ne-sintētiskās versijas, sēklu komanda centās līdzsvarot praktisko sniegumu ar pētniecības elastību.

Līdz sintētisko datu variants, apmācīts ar papildu instrukcijas datiem, konsekventi Nodrošina spēcīgākus rezultātus par standarta etaloniem un ir paredzēts kā augstākas veiktspējas vispārējas nozīmes variants.

Līdz ne-sintētiskais modelis, Turpretī, izlaiž šos papildinājumus, radot tīrāks pamats, kas izvairās no iespējamām novirzēm vai kropļojumiem Ievietots ar sintētisko instrukciju datiem.

Nodrošinot abus, komanda dod lietišķajiem lietotājiem piekļuvi uzlabotiem rezultātiem, vienlaikus nodrošinot, ka pētnieki saglabā neitrālu bāzes līniju pēc apmācības metožu izpētei.

Tikmēr Seed-OSS-36B instruēšanas modelis atšķiras ar to, ka tā ir pēc apmācības ar instrukcijas datiem Lai noteiktu prioritāti uzdevumu izpildīšanai un sekojošai instrukcijai, nevis kalpot tikai kā pamata modelim.

Visi trīs modeļi tiek izlaisti saskaņā ar Apache-2.0 licenci, ļaujot veikt bezmaksas izmantošanu, modifikāciju un pārdalīšanu, ko veic pētnieki un izstrādātāji, kas strādā uzņēmumos.

Tas nozīmē Tos var izmantot, lai darbinātu komerciālas lietojumprogrammas, uzņēmuma iekšējās vai ārēju/klientu vērstas, nemaksājot nodalījumu licencēšanas maksas vai lietojumprogrammu programmēšanas interfeisa (API) lietošanai.

Tas turpina 2025. gada vasara Ķīnas uzņēmumu tendence nosūta jaudīgus atvērtā pirmkoda modeļus Ar Openai mēģina panākt savu atvērtā koda GPT-OSS duetu, kas tika izlaists šī mēneša sākumā.

Sēklu komandas pozīcijas Sēklas-oss starptautiskām lietojumprogrammāmuzsverot daudzpusību ar spriešanu, aģentam līdzīgu uzdevumu izpildi un daudzvalodu iestatījumus.

Sēklu komanda, kas izveidota 2023. gadā, ir koncentrējusies uz ēku pamatu modeļiem, kas var apkalpot gan pētniecības, gan lietišķās lietošanas gadījumus.

Dizains un galvenās iezīmes

Arhitektūra aiz Seed-OSS-36b apvieno pazīstamas dizaina izvēles, piemēram, cēloņsakarības modelēšanu, sagrupētu vaicājumu uzmanību, Swiglu aktivizēšanu, RMSNORM un virvju pozicionālo kodējumu.

Katram modelim ir 36 miljardi parametru 64 slāņos un atbalsta 155 000 žetonu vārdu krājumu.

Viena no noteicošajām iezīmēm ir tā vietējā garā konteksta spēja ar maksimālo garumu 512 000 žetonu, Paredzēts, lai apstrādātu pagarinātus dokumentus un argumentācijas ķēdes bez veiktspējas zaudējumiem.

Tas ir divreiz lielāks par Openai jaunās GPT-5 modeļa ģimenes garumu un ir aptuveni ekvivalents apmēram 1600 lappušu teksta Kristīgās Bībeles garums.

Vēl viens atšķirīgs elements ir a ieviešana domāšanas budžetskas ļauj izstrādātājiem noteikt, cik daudz argumentācijas modelim vajadzētu veikt pirms atbildes sniegšanas.

Tas ir kaut kas, ko mēs esam redzējuši arī no citiem nesenajiem atvērtā pirmkoda modeļiem, ieskaitot arī NVIDIA jauno Nemotron-nano-9B-V2 Pieejams sejas apskaušanāApvidū

Praksē tas nozīmē, ka komandas var noregulēt veiktspēju atkarībā no uzdevuma sarežģītības un izvietošanas efektivitātes prasībām.

Budžets ir ieteicams 512 žetonu reizinājumos, 0 nodrošinot tiešu reakcijas režīmu/

Konkurences sniegums trešo personu etalonos

Starp spēcīgākajiem lielajiem atvērtā koda modeļiem publicēti etaloni, kas publicēti ar atbrīvošanas pozīcijas sēklu-oss-36b. Ievērības variants jo īpaši izliek vismodernākos rezultātus vairākās jomās.

  • Matemātika un argumentācija: Seed-OSS-36b indukte sasniedz 91,7 procenti par AIME24 un 65 par ārpusēabi pārstāv atvērtā pirmkoda “modernākos” (SOTA).
  • Kodēšana: Vietnē LiveCodeBench V6, instrukcijas modeļa ieraksti 67.4vēl viens Sota rezultāts.
  • Ilgstoša konteksta apstrāde: Par lineālu 128k konteksta garumā tas sasniedz 94.6ziņots par visaugstāko atvērtā pirmkoda rezultātu.
  • Pamata modeļa veiktspēja: Sintētisko datu bāzes variants nodrošina 65.1 par MMLU-Pro un 81.7 par matemātikuabi vismodernākie rezultāti ir viņu kategorijās.

Bāzes bez sintētiskās versijas versija, kaut arī nedaudz atpaliek no daudziem pasākumiem, pats par sevi pierāda konkurētspējīgu.

Tas pārspēj savu sintētisko līdzinstrumentu GPQA-D, nodrošinot pētniekus ar tīrāku, bez instrukcijām bez instrukcijām eksperimentēšanai.

Uzņēmumiem, salīdzinot atvērtās iespējas, šie rezultāti Ieteikt Seed-OSS piedāvā spēcīgu potenciālu, kas ir smagas, kodēšanas un ilgstošas konteksta darba slodzes vienlaikus nodrošinot elastību pētniecības lietošanas gadījumiem.

Piekļuve un izvietošana

Papildus sniegumam sēklu komanda uzsver pieejamību izstrādātājiem un praktiķiem. Modeļi var izvietot, izmantojot apskaujošās sejas transformatorusar kvantēšanas atbalsts gan 4 bitu, gan 8 bitu formātos samazināt atmiņas prasības.

Viņi arī Integrēt ar VLLM mērogojamai porcijaiieskaitot konfigurācijas piemērus un API servera instrukcijas.

Lai vēl vairāk samazinātu šķēršļus, komanda ietver skriptus secinājumiem, ātru pielāgošanu un instrumentu integrāciju.

Par Tehniskie vadītāji, kas pārvalda mazas komandas vai strādā saskaņā ar budžeta ierobežojumiemšie noteikumi ir novietoti tā, lai padarītu eksperimentu ar 36 miljardu parametru modeļiem pieejamāku.

Licencēšana un apsvērumi uzņēmuma lēmumu pieņēmējiem

Izmantojot modeļus, kas tiek piedāvāti saskaņā ar Apache-2.0, organizācijas tos var pieņemt bez ierobežojošiem licencēšanas noteikumiem, kas ir svarīgs faktors komandām, kas līdzsvaro juridiskas un operatīvas problēmas.

Lēmumu pieņēmējiem, kas novērtē atvērtā koda ainavu, atbrīvošana rada trīs līdzdalības:

  • Mūsdienīgi etaloni matemātikā, kodēšanā un ilgstošajā kontekstā.
  • Līdzsvars starp augstākas veiktspējas sintētiski apmācītiem modeļiem un tīru pētījumu bāzes līnijām.
  • Pieejamība ir funkcijas, kas zemākas operatīvās pieskaitāmās izmaksas liesām inženiertehniskajām komandām.

Ievietojot spēcīgu veiktspēju un elastīgu izvietošanu ar atvērtu licenci, Bytedance’s Seed Team ir pievienojusi jaunas iespējas gan uzņēmumiem, gan pētniekiem, gan izstrādātājiem.


avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here