Home Tehnoloģija Kopā AI atlasa adaptīvais spekulants nodrošina 400% secinājumu paātrinājumu, mācoties no darba...

Kopā AI atlasa adaptīvais spekulants nodrošina 400% secinājumu paātrinājumu, mācoties no darba slodzēm reāllaikā

15
0

Uzņēmumi AI izvietošanas paplašināšanās ir neredzama veiktspējas siena. Vainīgais? Statiskie spekulanti, kas nevar sekot līdzi mainīgai darba slodzei.

Spekulanti ir mazāki AI modeļi, kas secinājumu laikā darbojas līdzās lieliem valodu modeļiem. Viņi izstrādā vairākus žetonus uz priekšu, kurus galvenais modelis pēc tam pārbauda paralēli. Šis paņēmiens (ko sauc par spekulatīvu dekodēšanu) ir kļuvis būtisks uzņēmumiem, kas mēģina samazināt secinājumu izmaksas un latentumu. Tā vietā, lai ģenerētu žetonus pa vienam, sistēma var pieņemt vairākus žetonus vienlaikus, dramatiski uzlabojot caurlaidspēju.

Kopā ai Šodien paziņoja par pētījumu un jaunu sistēmu ar nosaukumu Atlas (adaptīvā mācīšanās spekulanta sistēma), kuras mērķis ir palīdzēt uzņēmumiem pārvarēt statisko spekulantu izaicinājumu. Šis paņēmiens nodrošina pašmācības secinājumu optimizācijas spēju, kas var palīdzēt nodrošināt līdz 400% ātrāku secinājumu veiktspēju nekā sākotnējais veiktspējas līmenis, kas pieejams esošajās secinājumu tehnoloģijās, piemēram, VLLM. Sistēma pievēršas kritiskai problēmai: attīstoties AI darba slodzei, secinājumu ātrums pasliktinās, pat ar specializētiem spekulatoriem.

Uzņēmums, kas Ieguva savu sākumu 2023. gadā ir koncentrējies uz secinājumu optimizēšana uz tās uzņēmuma AI platformas. Šā gada sākumā uzņēmums ieguva 305 miljonus dolāru Tā kā klientu adopcija un pieprasījums ir pieaudzis.

"Uzņēmumi, ar kuriem mēs strādājam, kopumā, kad viņi palielinās, viņi redz mainīgu darba slodzi, un tad viņi neredz tik daudz paātrināšanas no spekulatīvas izpildes kā iepriekš," Tri Dao, galvenais zinātnieks AI, ekskluzīvā intervijā sacīja VentureBeat. "Šie spekulanti parasti nedarbojas labi, kad viņu darba slodzes domēns sāk mainīties."

Darba slodzes dreifēšanas problēma, par kuru neviens nerunā

Lielākā daļa spekulatoru ražošanā šodien ir "statisks" modeļi. Viņi ir apmācīti vienreiz fiksētā datu kopā, kas attēlo paredzamo darba slodzi, pēc tam izvietoti bez spējas pielāgoties. Uzņēmumi, piemēram, Meta un Mistral Ship, iepriekš apmācīja spekulantus līdztekus galvenajiem modeļiem. Secinājumu platformas, piemēram, VLLM, izmanto šos statiskos spekulantus, lai palielinātu caurlaidspēju, nemainot izejas kvalitāti.

Guess tur ir nozveja. Kad uzņēmuma AI lietojums attīstās statiskā spekulanta precizitāte.

"Ja esat uzņēmums, kas ražo kodēšanas aģentus, un vairums jūsu izstrādātāju ir rakstījuši Python, pēkšņi daži no viņiem pāriet uz rūsas rakstīšanu vai C, tad redzat, ka ātrums sāk samazināties," Dao paskaidroja. "Spekulantam ir neatbilstība starp to, kas tas tika apmācīts, salīdzinot ar to, kas ir faktiskā darba slodze."

Šī darba slodzes novirze atspoguļo slēptu nodokli AI mērogošanai. Uzņēmumi vai nu pieņem degradētu sniegumu, vai arī ieguldiet pielāgoto spekulantu pārkvalifikācijā. Šis course of savlaicīgi uztver tikai momentuzņēmumu un ātri kļūst novecojis.

Kā darbojas adaptīvie spekulanti: dubultā modeļa pieeja

Atlas izmanto divu spekulatora arhitektūru, kas apvieno stabilitāti ar adaptāciju:

Statiskais spekulants – Smagā svara modelis, kas apmācīts uz plašiem datiem, nodrošina pastāvīgu sākotnējo veiktspēju. Tas kalpo kā a "ātruma grīda."

Adaptīvais spekulants – Viegls modelis nepārtraukti mācās no tiešās satiksmes. Tas specializējas lidojumā uz jauniem domēniem un lietošanas modeļiem.

Pārliecinātības kontrolieris – Orķestrēšanas slānis dinamiski izvēlas, kuru spekulātu izmantot. Tas pielāgo spekulācijas "uzmetums" pamatojoties uz uzticības rādītājiem.

"Pirms adaptīvais spekulants kaut ko iemācās, mums joprojām ir statiskais spekulants, kas sākumā palīdz nodrošināt ātruma palielinājumu," Bens Athiwaratkun, personāls AI zinātnieks kopā AI paskaidroja VentureBeat. "Kad adaptīvais spekulants kļūst pārliecinātāks, tad ātrums laika gaitā palielinās."

Tehniskās inovācijas ir pieņemšanas līmeņa līdzsvarošana (cik bieži mērķa modelis piekrīt izstrādātajiem žetoniem) un latentuma projektā. Kad adaptīvais modelis uzzina no satiksmes modeļiem, kontrolieris vairāk paļaujas uz vieglo spekulāciju un paplašina LookAhead. Šis savienojums iegūst veiktspēju.

Lietotājiem nav jānobriež nekādi parametri. "Lietotāja pusē lietotājiem nav jāpagriež nekādas pogas," Dao teica. "No mūsu puses mēs esam pagriezuši šīs pogas, lai lietotāji pielāgotos konfigurācijai, kas saņem labu paātrinājumu."

Veiktspēja, kas konkurē ar pielāgotu silīciju

Kopā AI pārbaude parāda, ka atlants sasniedz 500 žetonus sekundē vietnē DeepSeek-V3.1, kad tas ir pilnībā pielāgots. Vēl iespaidīgāk, šie skaitļi NVIDIA B200 GPU sakritība vai pārsniedz specializētas secinājumu mikroshēmas, piemēram, Groq’s Pielāgota aparatūra.

"Programmatūra un algoritmiskais uzlabojums spēj novērst plaisu ar patiešām specializēto aparatūru," Dao teica. "Mēs redzējām 500 žetonus sekundē par šiem milzīgajiem modeļiem, kas ir pat ātrāki nekā daži no pielāgotajiem mikroshēmām."

400% paātrinājums, par kuru uzņēmums apgalvo par secinājumiem, atspoguļo kopā kopā turbo optimizācijas komplekta kumulatīvo efektu. FP4 kvantēšana nodrošina 80% paātrinājumu virs FP8 bāzes līnijas. Statiskais turbo spekulants pievieno vēl vienu 80–100% pieaugumu. Adaptīvās sistēmas slāņi virsū. Katra optimizācija savieno citu priekšrocības.

Salīdzinot ar standarta secinājumu motoriem, piemēram, viļņa vai NVIDIA TENSORRT-LLM, uzlabojums ir ievērojams. Pirms spekulatīvas optimizācijas piemērošanas kopā AI etaloniem pret spēcīgāku bāzes līniju starp abiem katrai darba slodzei.

Izskaidrots atmiņas kompozīcijas kompromiss

Veiktspēja gūst rodas, izmantojot mūsdienu secinājumu būtiskas neefektivitātes izmantošanu: izšķērdēta skaitļošanas jauda.

Dao paskaidroja, ka parasti secinājumu laikā liela daļa aprēķina jaudas nav pilnībā izmantota.

"Secinājumu laikā, kas mūsdienās faktiski ir dominējošā darba slodze, jūs galvenokārt izmantojat atmiņas apakšsistēmu," Viņš teica.

Spekulatīvi dekodējošie darījumi dīkstāves aprēķināšana, lai samazinātu piekļuvi atmiņai. Kad modelis vienlaikus ģenerē vienu marķieri, tas ir saistīts ar atmiņu. GPU sēž dīkstāvē, gaidot atmiņu. Guess, kad spekulants ierosina piecus žetonus un mērķa modelis tos vienlaikus pārbauda, ​​aprēķiniet izmantošanas tapas, kamēr atmiņas piekļuve paliek aptuveni nemainīga.

"Kopējais aprēķināšanas daudzums, lai izveidotu piecus žetonus, ir vienāds, taču atmiņai bija jāpiekļūst tikai vienu reizi, nevis piecas reizes," Dao teica.

Padomājiet par to kā saprātīgu kešatmiņu AI

Infrastruktūras komandām, kas pārzina tradicionālo datu bāzes optimizāciju, adaptīvie spekulanti darbojas kā inteliģents kešatmiņas slānis, wager ar būtisku atšķirību.

Tradicionālajām kešatmiņas sistēmām, piemēram, Redis vai Memcached, ir vajadzīgas precīzas atbilstības. Jūs saglabājat tieši tādu pašu vaicājuma rezultātu un izgūstot to, kad atkal darbojas konkrētais vaicājums. Adaptīvie spekulanti darbojas atšķirīgi.

"Jūs to varat uzskatīt par saprātīgu kešatmiņas veidu, precīzi uzglabāt, wager izdomāt dažus modeļus, ko redzat," Dao paskaidroja. "Kopumā mēs novērojam, ka jūs strādājat ar līdzīgu kodu vai strādājat ar līdzīgu, jūs zināt, kontrolējot aprēķināšanu līdzīgā veidā. Pēc tam mēs varam paredzēt, ko teiks lielais modelis. Mums vienkārši labāk un labāk to prognozēt."

Tā vietā, lai saglabātu precīzas atbildes, sistēma uzzina modeļa modeļus, kā modelis ģenerē žetonus. Tas atzīst, ka, ja jūs rediģējat Python failus noteiktā kodu bāzē, noteiktas marķieru sekvences kļūst ticamākas. Spekulants pielāgojas šiem modeļiem, uzlabojot tā prognozes laika gaitā, nepieprasot identiskas ieejas.

Lietošanas gadījumi: RL apmācība un mainīga darba slodze

Divi uzņēmuma scenāriji, īpaši gūst labumu no adaptīvajiem spekulantiem:

Pastiprināšanas mācīšanās apmācība: Statiskie spekulanti ātri izkrīt no izlīdzināšanas, kad politika attīstās apmācības laikā. Atlas nepārtraukti pielāgojas mainīgajai politikas izplatīšanai.

Attīstīta darba slodze: Kā uzņēmumi atklāj jaunus AI lietošanas gadījumus, darba slodzes kompozīcijas maiņas. "Varbūt viņi sāka izmantot AI tērzēšanas robotiem, wager tad viņi saprata, hei, tas var rakstīt kodu, tāpēc viņi sāk pāriet uz kodu," Dao teica. "Vai arī viņi saprot, ka šie AIS faktiski var izsaukt rīkus un kontrolēt datorus un veikt grāmatvedību un tamlīdzīgas lietas."

VIBE kodēšanas sesijā adaptīvā sistēma var specializēties rediģētajā kodu bāzē. Tie ir faili, kas nav redzami apmācības laikā. Tas vēl vairāk palielina pieņemšanas līmeni un dekodēšanas ātrumu.

Ko tas nozīmē uzņēmumiem un secinājumu ekosistēmai

ATLAS tagad ir pieejams kopā ar AI specializētajiem parametriem kā platformas sastāvdaļa bez papildu maksas. Uzņēmuma 800 000 plus izstrādātājiem (no 450 000 februārī) ir piekļuve optimizācijai.

Guess plašāka ietekme pārsniedz viena pārdevēja produktu. Pāreja no statiskās uz adaptīvo optimizāciju nozīmē būtisku pārdomu, kā vajadzētu darboties secinājumu platformām. Tā kā uzņēmumi izvieto AI vairākās jomās, nozarei būs jāvirzās ārpus vienreizējiem apmācītiem modeļiem uz sistēmām, kuras nepārtraukti mācās un uzlabo.

Kopā AI vēsturiski ir izlaidusi dažas no savām pētniecības metodēm kā atvērtā pirmkoda un sadarbojusies ar tādiem projektiem kā VLLM. Kaut arī pilnībā integrētā Atlas sistēma ir patentēta, daži no pamatā esošajiem paņēmieniem galu galā var ietekmēt plašāku secinājumu ekosistēmu.

Uzņēmumiem, kas vēlas vadīt AI, ziņojums ir skaidrs: adaptīvie algoritmi par preču aparatūru var pielāgot pielāgoto silīciju par nelielu daļu no izmaksām. Tā kā šī pieeja nobriest visā nozarē, programmatūras optimizācija arvien vairāk kavē specializētu aparatūru.

avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here