Home Tehnoloģija Ātri nosūtiet, optimizējiet vēlāk: labākajiem AI inženieriem nerūp izmaksas — viņi piešķir prioritāti...

Ātri nosūtiet, optimizējiet vēlāk: labākajiem AI inženieriem nerūp izmaksas — viņi piešķir prioritāti izvietošanai

35
0

Visās nozarēs pieaugošie aprēķinu izdevumi bieži tiek minēti kā šķērslis AI ieviešanai, taču vadošie uzņēmumi atklāj, ka izmaksas vairs nav īstais ierobežojums. Grūtākie izaicinājumi (un tie, kas daudziem tehnoloģiju līderiem ir aktuāli)? Latentums, elastība un jauda. Plkst Brīnumspiemēram, mākslīgais intelekts katram pasūtījumam pievieno tikai dažus centrus; pārtikas piegādes un līdzņemšanas uzņēmums daudz vairāk rūpējas par mākoņa ietilpību ar strauji augošām prasībām. Rekursijasavukārt, ir bijis vērsts uz maza un lielāka mēroga apmācību un izvietošanas līdzsvarošanu, izmantojot lokālas kopas un mākoni; tas ir devis biotehnoloģiju uzņēmumam elastību ātrai eksperimentēšanai. Uzņēmumu patiesā savvaļas pieredze liecina par plašāku nozares tendenci: uzņēmumiem, kas darbojas AI plašā mērogā, ekonomika nav galvenais noteicošais faktors — saruna ir mainījusies no tā, kā maksāt par AI, uz to, cik ātri to var ieviest un uzturēt. Abu uzņēmumu AI vadītāji nesen sēdēja kopā ar Venturebeat izpilddirektoru un galveno redaktoru Metu Māršalu kā daļu no VB ceļojošās AI ietekmes sērijas. Lūk, ko viņi kopīgoja.

Brīnums: pārdomājiet to, ko jūs domājat par kapacitāti

Surprise izmanto AI, lai nodrošinātu visu, sākot no ieteikumiem un beidzot ar loģistiku, taču, kā ziņoja CTO Džeimss Čens, mākslīgais intelekts katram pasūtījumam pievieno tikai dažus centus. Čens paskaidroja, ka maltītes pasūtījuma tehnoloģiskā sastāvdaļa maksā 14 centus, mākslīgais intelekts no 2 līdz 3 centiem, lai gan tas “paceļas ļoti strauji” līdz 5 līdz 8 centiem. Tomēr tas šķiet gandrīz nebūtiski salīdzinājumā ar kopējām darbības izmaksām. Tā vietā 100% mākoņdatošanas AI uzņēmuma galvenās rūpes ir saistītas ar kapacitāti ar pieaugošo pieprasījumu. Surprise tika izveidots, pamatojoties uz “pieņēmumu” (kas izrādījās nepareizs), ka būs “neierobežota jauda”, lai viņi varētu pārvietoties “īpaši ātri” un nebūtu jāuztraucas par infrastruktūras pārvaldību, atzīmēja Čens. Taču uzņēmums pēdējos gados ir diezgan pieaudzis, viņš teica; tā rezultātā aptuveni pirms sešiem mēnešiem “mēs sākām saņemt nelielus signālus no mākoņpakalpojumu sniedzējiem: “Ei, jums, iespējams, būs jāapsver iespēja doties uz otro reģionu”, jo, pieaugot pieprasījumam, viņu iekārtās trūka CPU vai datu glabāšanas jaudas. Tas bija “ļoti šokējoši”, ka viņiem bija jāpāriet uz plānu B agrāk, nekā viņi bija gaidījuši. “Acīmredzot tā ir laba prakse būt vairākos reģionos, taču mēs domājām, ka varētu būt vēl divi gadi,” sacīja Čens.

Kas nav ekonomiski iespējams (vēl)

Čens atzīmēja, ka Surprise izveidoja savu modeli, lai maksimāli palielinātu reklāmguvumu līmeni; mērķis ir pēc iespējas vairāk piedāvāt jaunus restorānus atbilstošiem klientiem. Tie ir “izolēti scenāriji”, kuros modeļi laika gaitā tiek apmācīti, lai tie būtu “ļoti, ļoti efektīvi un ļoti ātri”. Pašlaik vislabākais Surprise lietošanas gadījums ir lieli modeļi, atzīmēja Čens. Taču ilgtermiņā viņi vēlētos pāriet uz maziem modeļiem, kas ir īpaši pielāgoti personām (ar AI aģentu vai konsjeržu starpniecību), pamatojoties uz viņu pirkumu vēsturi un pat klikšķu straumi. “Šo mikromodeļu izmantošana noteikti ir vislabākā, taču šobrīd izmaksas ir ļoti dārgas,” atzīmēja Čens. “Ja jūs mēģināt izveidot vienu katram cilvēkam, tas vienkārši nav ekonomiski iespējams.”

Budžeta plānošana ir māksla, nevis zinātne

Surprise saviem izstrādātājiem un datu zinātniekiem dod pēc iespējas vairāk spēļu telpas eksperimentiem, un iekšējās komandas pārskata lietošanas izmaksas, lai pārliecinātos, ka neviens nav ieslēdzis modeli un “neizmantojis milzīgu aprēķinu, aprēķinot milzīgu rēķinu”, sacīja Čens. Uzņēmums mēģina dažādas lietas, ko pārlādēt uz AI un darboties robežās. “Guess tad ir ļoti grūti plānot budžetu, jo jums nav ne jausmas,” viņš teica. Viena no izaicinošajām lietām ir attīstības temps; kad iznāk jauns modelis, “mēs nevaram vienkārši sēdēt, vai ne? Mums tas ir jāizmanto.” Budžeta plānošana uz žetoniem balstītas sistēmas nezināmajai ekonomikai ir “noteikti māksla pret zinātni”. Viņš paskaidroja, ka būtiska programmatūras izstrādes dzīves cikla sastāvdaļa ir konteksta saglabāšana, izmantojot lielus vietējos modeļus. Kad atrodat kaut ko, kas darbojas, varat to pievienot sava uzņēmuma konteksta korpusam, ko var nosūtīt ar katru pieprasījumu. Tas ir liels, un tas katru reizi maksā naudu. “Vairāk nekā 50%, līdz pat 80% no jūsu izmaksām ir tikai vienas un tās pašas informācijas atkārtota nosūtīšana atpakaļ tajā pašā dzinējā pēc katra pieprasījuma,” sacīja Čens. Teorētiski, jo vairāk viņi dara, būtu vajadzīgas mazākas izmaksas par vienību. “Es zinu, kad darījums notiks, par katru maksāšu X centu nodokli, taču es nevēlos aprobežoties ar tehnoloģiju izmantošanu visām citām radošajām idejām."

Recursion ‘attaisnojuma brīdis’

Savukārt Recursion ir koncentrējusies uz plašu skaitļošanas vajadzību apmierināšanu, izmantojot lokālo klasteru un mākoņa secinājumu hibrīdu infrastruktūru. Sākotnēji, vēloties izveidot savu AI infrastruktūru, uzņēmumam bija jāveic sava iestatīšana, jo “mākoņpakalpojumu sniedzējiem nebija daudz labu piedāvājumu”, paskaidroja CTO Bens Mabejs. “Apstiprinājuma brīdis bija tāds, ka mums bija nepieciešams vairāk aprēķinu, un mēs skatījāmies uz mākoņa pakalpojumu sniedzējiem, un viņi teica: “Varbūt pēc gada.” Uzņēmuma pirmajā klasterī 2017. gadā tika iekļauti Nvidia spēļu GPU (1080. gadi, palaisti 2016. gadā); kopš tā laika viņi ir pievienojuši Nvidia H100s un A100s un izmanto Kubernetes kopu, ko tie darbojas mākonī vai uz vietas. Pievēršoties ilgmūžības jautājumam, Mebejs atzīmēja: “Šie spēļu GPU faktiski joprojām tiek izmantoti šodien, kas ir traki, vai ne? Mīts, ka GPU kalpošanas laiks ir tikai trīs gadi, tas noteikti nav tā. A100 joprojām ir saraksta augšgalā, tie ir nozares darba zirgs.”

Labākie lietošanas gadījumi uz vietas vs mākonis; izmaksu atšķirības

Pavisam nesen Mabey komanda ir apmācījusi pamata modeli Recursion attēlu krātuvē (kas sastāv no datu petabaitiem un vairāk nekā 200 attēliem). Šim un cita veida lieliem apmācības darbiem ir nepieciešams “masīvs klasteris” un savienoti, vairāku mezglu iestatījumi. “Kad mums ir nepieciešams šis pilnībā savienotais tīkls un piekļuve daudziem mūsu datiem augsti paralēlā failu sistēmā, mēs strādājam uz vietas,” viņš paskaidroja. No otras puses, mākonī darbojas īsākas darba slodzes. Recursion metode ir GPU un Google tensoru apstrādes vienību (TPU) “priekšlaicīga izņemšana”, kas ir course of, kurā tiek pārtraukti darbojošie GPU uzdevumi, lai strādātu ar augstākas prioritātes uzdevumiem. “Tā kā mums ir vienalga ātrums dažās no šīm secināšanas darba slodzēm, kurās mēs augšupielādējam bioloģiskos datus, neatkarīgi no tā, vai tie ir attēli vai secības dati, DNS dati,” paskaidroja Mebejs. “Mēs varam teikt: “Dodiet to mums pēc stundas”, un mēs esam labi, ja tas nogalina darbu. No izmaksu viedokļa lielas darba slodzes pārvietošana uz vietas ir “konservatīvi” 10 reizes lētāka, atzīmēja Mabey; piecu gadu TCO tas ir uz pusi mazāks. No otras puses, mazākām krātuves vajadzībām mākonis var būt “diezgan konkurētspējīgs” izmaksu ziņā. Galu galā Mebejs mudināja tehnoloģiju vadītājus atkāpties un noteikt, vai viņi patiešām vēlas iesaistīties AI; izmaksu ziņā efektīviem risinājumiem parasti ir vajadzīgas vairāku gadu dalības maksas. “No psiholoģiskā viedokļa esmu redzējis mūsu vienaudžus, kuri neieguldīs skaitļošanā, un tāpēc viņi vienmēr maksā pēc pieprasījuma," teica Meibija. "Viņu komandas izmanto daudz mazāk aprēķinu, jo viņi nevēlas palielināt mākoņa rēķinu. Inovāciju patiešām kavē cilvēki, kas nevēlas dedzināt naudu.

avots