Šis raksts ir daļa no VentureBeat īpašā numura “AI reālās izmaksas: veiktspēja, efektivitāte un ROI mērogā”. Lasiet vairāk no šī īpašā numura.
AI ir kļuvusi par mūsdienu uzņēmumu svēto Grālu. Neatkarīgi no tā, vai tā ir klientu apkalpošana vai kaut kas tāds kā niša kā cauruļvada uzturēšana, katras domēna organizācijas tagad ievieš AI tehnoloģijas – sākot no pamata modeļiem līdz VLA, lai padarītu lietas efektīvākas. Mērķis ir vienkāršs: automatizējiet uzdevumus, lai rezultāti sasniegtu efektīvāk un vienlaikus ietaupītu naudu un resursus.
Tomēr, tā kā šie projekti pāriet no pilota uz ražošanas posmu, komandas saskaras ar šķērsli, par kuru viņi nebija plānojuši: mākoņu izmaksas, kas grauj viņu robežas. Uzlīmeņu šoks ir tik slikts, ka tas, kas kādreiz jutās kā ātrākais ceļš uz inovācijām un konkurences malu, nekavējoties kļūst par neilgtspējīgu budžeta melno caurumu.
Tas liek CIO pārdomāt visu – no modeļa arhitektūras līdz izvietošanas modeļiem -, lai atgūtu kontroli pār finanšu un operatīvajiem aspektiem. Dažreiz viņi pat pilnībā aizslēdz projektus, sākot no jauna.
Bet šeit ir fakts: lai gan mākonis var veikt izmaksas līdz nepanesamam līmenim, tas nav nelietis. Jums vienkārši jāsaprot, kāda veida transportlīdzeklis (AI infrastruktūra) izvēlēties iet pa kuru ceļu (darba slodze).
Mākoņu stāsts – un kur tas darbojas
Mākonis ir ļoti līdzīgs sabiedriskajam transportam (jūsu metro un autobusiem). Jūs nokļūstat uz kuģa ar vienkāršu nomas modeli, un tas uzreiz dod jums visus resursus – tieši no GPU gadījumiem līdz ātrai mērogošanai dažādās ģeogrāfijās -, lai jūs aizvestu uz galamērķi, visiem ar minimālu darbu un iestatīšanu.
Ātra un ērta piekļuve, izmantojot servisa modeli, nodrošina nemanāmu sākumu, paverot ceļu, lai panāktu projektu no zemes un veiktu ātru eksperimentu, bez milzīgiem sākotnējiem kapitāla izdevumiem, iegūstot specializētus GPU.
Lielākajai daļai agrīnās stadijas jaunizveidotos uzņēmumus šis modelis ir ienesīgs, jo tiem ir nepieciešams ātrs pavērsiens vairāk nekā jebkas cits, it īpaši, ja tie joprojām validē modeli un nosaka produktu tirgus piemērotību.
“Jūs izveidojat kontu, noklikšķiniet uz dažām pogām un piekļūt serveriem. Ja jums ir nepieciešams atšķirīgs GPU izmērs, jūs izslēdzat un restartējat gadījumu ar jaunajām specifikācijām, kas prasa minūtes. Ja vēlaties veikt divus eksperimentus vienlaikus, jūs inicializējat divus atsevišķus gadījumus. Sākotnējā stadijā fokuss ir uz to, ka idejas tiek ātri izmantotas. Izmantojot iebūvēto mēroga mērogošanu, un eksperimentēšanas rāmji, kas nodrošina CLORS. vada balss AI produktu vietnē Runaspastāstīja VentureBeat.
“Viegluma” izmaksas
Kaut arī mākonim ir pilnīga jēga agrīnās stadijas lietošanai, infrastruktūras matemātika kļūst drūma, jo projekts pāriet no testēšanas un validācijas uz reālās pasaules apjomiem. Darba slodzes mērogs padara rēķinus brutālu – tik daudz, ka izmaksas var pārsniegt 1000% uz nakti.
Tas jo īpaši attiecas uz secinājumiem, kas ne tikai jāskrien visu diennakti, lai nodrošinātu pakalpojumu sniegšanu, bet arī mērogot klientu pieprasījumu.
Sarins lielākajā daļā gadījumu skaidro, ka secinājumu pieprasījums palielinās, kad citi klienti arī pieprasa piekļuvi GPU, palielinot konkurenci par resursiem. Šādos gadījumos komandas vai nu saglabā rezervēto spēju, lai pārliecinātos, ka viņi saņem to, kas viņiem nepieciešams,-izraisot dīkstāves GPU laiku, kas nav pīķa laikā, vai arī cieš no latentuma, ietekmējot pakārtoto pieredzi.
Christian Khoury, AI atbilstības platformas izpilddirektors EasyAudit AIkas aprakstīts kā jaunais “mākoņa nodoklis”, sakot VentureBeat, ka viņš ir redzējis, ka uzņēmumi vienas nakts laikā ir no USD 5 līdz 50 000 USD mēnesī, tikai no secinājumu satiksmes.
Ir arī vērts atzīmēt, ka secinājumu slodze, kas saistīta ar LLM, ar cenu noteikšanu ar marķieriem var izraisīt straujāko izmaksu pieaugumu. Tas notiek tāpēc, ka šie modeļi nav noteikti un var radīt dažādas izejas, veicot ilgstošus uzdevumus (iesaistot lielus konteksta logus). Izmantojot nepārtrauktus atjauninājumus, ir patiešām grūti prognozēt vai kontrolēt LLM secinājumu izmaksas.
Apmācot šos modeļus, no tā puses, ir “plīsis” (notiek klasteros), kas atstāj kādu vietu jaudas plānošanai. Tomēr pat šajos gadījumos, jo īpaši tāpēc, ka pieaugošā konkurence ir bieža pārkvalifikācija, uzņēmumiem var būt milzīgi rēķini no dīkstāves GPU laika, kas izriet no pārprovizēšanas.
“Apmācības kredītpunkti mākoņu platformās ir dārgi, un bieža pārkvalifikācija ātrās iterācijas ciklos var ātri palielināt izmaksas. Ilgiem treniņiem ir nepieciešama piekļuve lielām mašīnām, un vairums mākoņu pakalpojumu sniedzēju garantē tikai piekļuvi, ja jūs rezervējat jaudu gadu vai vairāk. Jūsu apmācība ilgst tikai dažas nedēļas, jūs joprojām maksājat par atlikušo gadu,” Sarins paskaidroja.
Un tas nav tikai tas. Mākoņu bloķēšana ir ļoti reāla. Pieņemsim, ka esat veicis ilgtermiņa rezervāciju un iegādājies kredītus no pakalpojumu sniedzēja. Tādā gadījumā jūs esat ieslodzīts viņu ekosistēmā un jums ir jāizmanto viss, kas viņiem ir piedāvāts, pat ja citi pakalpojumu sniedzēji ir pārcēlušies uz jaunāku, labāku infrastruktūru. Visbeidzot, kad iegūstat iespēju pārvietoties, jums, iespējams, nāksies sniegt milzīgas izejas maksas.
“Tas nav tikai aprēķināšanas izmaksas. Jūs saņemat… neparedzamu autoMaling un nenormālu izejas maksu, ja pārvietojat datus starp reģioniem vai pārdevējiem. Viena komanda maksāja vairāk par datu pārvietošanu, nevis lai apmācītu savus modeļus,” uzsvēra Sarins.
Tātad, kāds ir risinājums?
Ņemot vērā pastāvīgo infrastruktūras pieprasījumu pēc AI secinājumu mērogošanas un apmācības pārrāvuma rakstura, uzņēmumi pāriet uz darba slodzes sadalīšanu-secinājumiem uz izvietošanu vai kaudzēm uz premjerministra, atstājot apmācību mākonī ar tūlītējiem gadījumiem.
Šī nav tikai teorija – tā ir arvien pieaugoša kustība starp inženierzinātņu vadītājiem, kuri mēģina ieviest AI ražošanā, nedegot pa skrejceļu.
“Mēs esam palīdzējuši komandām pāriet uz izvietošanu, lai secinātu, izmantojot īpašus GPU serverus, kurus viņi kontrolē. Tas nav seksīgs, bet tas samazina ikmēneša INFRA tēriņus par 60–80%,” piebilda Khoury. “Hibrīds nav tikai lētāks – tas ir gudrāks.”
Vienā gadījumā, pēc viņa teiktā, SaaS uzņēmums samazināja savu ikmēneša AI infrastruktūras rēķinu no aptuveni 42 000 USD līdz tikai 9000 USD, pārvietojot secinājumu darba slodzi no mākoņa. Slēdzis, kas samaksāts par sevi mazāk nekā divu nedēļu laikā.
Cita komanda, kurai nepieciešama konsekventa AI klientu atbalsta rīka reakcija uz apakš-50 ms, atklāja, ka uz mākoņiem balstīts secinājumu latentums nav pietiekams. Atbalstot secinājumus tuvāk lietotājiem, izmantojot izvietošanu, ne tikai atrisināja veiktspējas sašaurinājumu, bet arī uz pusi uz pusi.
Iestatīšana parasti darbojas šādi: secinājumi, kas vienmēr ir ieslēgti un jutīgi pret latentumu, darbojas ar specializētiem GPU vai nu uz priekšu, vai tuvējā datu centrā (izvietošanas iekārta). Tikmēr apmācība, kas ir aprēķinoša, bet sporādiska, paliek mākonī, kur pēc pieprasījuma varat griezt jaudīgas kopas, palaist dažas stundas vai dienas un slēgt.
Kopumā tiek lēsts, ka īre no hiperskalas mākoņu pakalpojumu sniedzējiem var maksāt trīs līdz četras reizes vairāk par GPU stundu nekā darbs ar mazākiem pakalpojumu sniedzējiem, un atšķirība ir vēl nozīmīgāka, salīdzinot ar infrastruktūru uz vietas.
Otrs lielais bonuss? Paredzamība.
Ar premjerministra vai izvietošanas kaudzēm komandām ir arī pilnīga kontrole pār resursu skaitu, kuru viņi vēlas nodrošināt, vai pievienot paredzamajam secinājumu darba slodzes sākotnējam līmenim. Tas rada paredzamību infrastruktūras izmaksās un novērš pārsteiguma rēķinus. Tas arī samazina agresīvos inženiertehniskos centienus, lai saprātīgi noregulētu un saglabātu mākoņu infrastruktūras izmaksas.
Hibrīdu iestatījumi arī palīdz samazināt laika jutīgu AI lietojumprogrammu latentumu un nodrošina labāku atbilstību, jo īpaši komandām, kas darbojas ļoti regulētās nozarēs, piemēram, finansēs, veselības aprūpē un izglītībā-kur datu rezidence un pārvaldība nav apspriežama.
Hibrīda sarežģītība ir reāla, bet reti ir darīšanas dalībnieks
Kā tas vienmēr ir noticis, pāreja uz hibrīda iestatīšanu nāk ar savu OPS nodokli. Pašu aparatūras iestatīšana vai izvietošanas iekārtas īre prasa laiku, un GPU pārvaldībai ārpus mākoņa ir nepieciešams cita veida inženiertehniskie muskuļi.
Tomēr vadītāji apgalvo, ka sarežģītība bieži ir pārspīlēta un parasti ir pārvaldāma iekšējā vai ar ārēju atbalstu, ja vien cilvēks nedarbojas ekstrēmā mērogā.
“Mūsu aprēķini rāda, ka GPU serveris, kas atrodas uz premjerministra, maksā apmēram tāpat kā sešus līdz deviņus mēnešus pēc ekvivalenta gadījuma noīrēšanas no AWS, Azure vai Google Cloud, pat ar viena gada rezervētu likmi. Tā kā aparatūra parasti ilgst vismaz trīs gadus, un bieži vien vairāk nekā pieci, tas kļūst par izmaksu pozitīvs pirmajos deviņos mēnešos. Daži aparatūras pārdevēji, kas jums ir pieejami, ir arī operatīvās cenas, kas ir saistītas ar kombinējošiem, kas ir saistītas ar to, lai jūs varētu veikt, lai palielinātu plūsmu. bažas, ”paskaidroja Sarins.
Prioritāri pēc vajadzības
Jebkuram uzņēmumam, neatkarīgi no tā, vai tas ir jaunuzņēmums, vai uzņēmums, panākumu atslēga, arhitektējot vai pārkārtojot arhitektāciju, ir AI infrastruktūra, kas darbojas saskaņā ar konkrēto darba slodzi.
Ja neesat pārliecināts par dažādu AI darba slodzes slodzi, sāciet ar mākoni un uzmanīgi sekojiet saistītajām izmaksām, iezīmējot visus resursus ar atbildīgu komandu. Jūs varat dalīties ar šiem izmaksu pārskatiem ar visiem vadītājiem un dziļi ienirt to, ko viņi izmanto, un to ietekmi uz resursiem. Pēc tam šie dati sniegs skaidrību un palīdzēs sagatavot ceļu efektivitātes palielināšanai.
Tas nozīmē, ka atcerieties, ka tas nav par mākoņa pilnībā nogriešanu; Tas ir par tā izmantošanas optimizēšanu, lai palielinātu efektivitāti.
“Mākonis joprojām ir lieliski piemērots eksperimentēšanai un pārrāvumam apmācībai. Bet, ja secinājumi ir jūsu galvenā darba slodze, izkāpiet no īres skrejceliņa. Hibrīds nav tikai lētāks… tas ir gudrāks,” piebilda Khoury. “Izturieties ar mākoni kā pret prototipu, nevis pastāvīgo māju. Skrien matemātikā. Runājiet ar saviem inženieriem. Mākonis nekad jums neteiks, kad tas ir nepareizs rīks. Bet jūsu AWS rēķins to darīs.”