Sekojiet ZDNET: Pievienojiet mūs kā vēlamo avotu Google tīklā.
ZDNET galvenās atziņas
- Šī programma nodrošina, ka lietotāji var migrēt AI darba slodzes starp Kubernetes izplatīšanu.
- Kubernetes beidzot atbalstīs atcelšanu, lai atgrieztos strādājošā klasterī, ja kaut kas noiet greizi.
- Vairāki citi uzlabojumi padarīs Kubernetes vēl draudzīgāku AI darba slodzei.
Pirms vairāk nekā desmit gadiem Kubernetes konteineru orķestrēšanai bija daudz alternatīvu. Šodien, ja vien neesat izmantojis mākoņdatošanu ilgu, ilgu laiku, jums būs grūti nosaukt kādu no tiem. Tas ir tāpēc, ka Kubernetes noteikti bija labākā izvēle.
Toreiz konteineri, pateicoties Docker, bija karstā jaunā tehnoloģija. Ātri uz priekšu desmit gadus, un tehnoloģija, ar kuru visi ir strādājuši, ir AI. Šim nolūkam Cloud Native Computing Foundation (CNCF) palaida Sertificēta Kubernetes AI atbilstības programma (CCACP) KubeCon North America 2025 Atlantā kā standartizētu veidu, kā Kubernetes klasteros izvietot AI darba slodzi.
Droša, universāla platforma AI darba slodzēm
CKACP mērķis ir izveidot kopienas definētus atvērtus standartus konsekventai un uzticamai AI darba slodzei dažādās Kubernetes vidēs.
Kā arī: Kāpēc pat ASV tehnoloģiju gigants tagad sāk “suverēnu atbalstu” Eiropai
CNCF CTO Kriss Aniščiks sacīja: “Šī atbilstības programma izveidos kopīgus kritērijus, lai nodrošinātu, ka AI darba slodzes darbojas paredzami dažādās vidēs. Tā balstās uz to pašu veiksmīgo kopienas virzītu procesu, ko esam izmantojuši ar Kubernetes, lai palīdzētu nodrošināt konsekvenci vairāk nekā 100 Kubernetes sistēmās kā AI ieviešanas skalas.”
Konkrēti, iniciatīva ir paredzēta, lai:
- Nodrošiniet AI un mašīnmācīšanās (ML) darba slodžu pārnesamību un savietojamību publiskajos mākoņos, privātajā infrastruktūrā un hibrīdvidēs, ļaujot organizācijām izvairīties no pārdevēja bloķēšanas, pārvietojot AI darba slodzes, kur vien tas ir nepieciešams.
- Samaziniet sadrumstalotību, iestatot kopīgu pamatlīniju iespējām un konfigurācijām, kas platformām jāatbalsta, atvieglojot uzņēmumiem pārliecību pārņemt un mērogot AI vietnē Kubernetes.
- Nodrošiniet pārdevējiem un atvērtā koda atbalstītājiem skaidru atbilstības mērķi, lai nodrošinātu, ka viņu tehnoloģijas darbojas kopā un atbalstītu ražošanai gatavu AI izvietošanu.
- Ļaujiet galalietotājiem ātri ieviest jauninājumus, nodrošinot pārliecību, ka sertificētas platformas ir ieviesušas labāko praksi resursu pārvaldībai, GPU integrācijai un galvenajām AI infrastruktūras vajadzībām, ko ir pārbaudījis un apstiprinājis CNCF.
- Veiciniet uzticamu, atvērtu ekosistēmu mākslīgā intelekta attīstībai, kur standarti ļauj efektīvi mērogot, optimizēt un pārvaldīt AI darba slodzi, pieaugot lietojumam dažādās nozarēs.
Īsāk sakot, iniciatīva ir vērsta uz to, lai uzņēmumiem un pārdevējiem nodrošinātu kopēju, pārbaudītu sistēmu, lai nodrošinātu AI uzticamu, drošu un efektīvu darbību jebkurā sertificētā Kubernetes platformā.
Ja šī pieeja izklausās pazīstama, tā vajadzētu, jo tā ir balstīta uz CNCF veiksmīgo sertificēto Kubernetes atbilstības programmu. Tas ir saistīts ar 2017. gada plānu un vienošanos, ka, ja neesat apmierināts ar, teiksim, Red Hat OpenShiftvarat paņemt savas konteinerizētās darba slodzes un pārvietot tās uz Mirantis Kubernetes Dzinējs vai Amazon Elastic Kubernetes pakalpojums neuztraucoties par nesaderību. Šī pārnesamība savukārt ir iemesls, kāpēc Kubernetes ir daudzu hibrīdu mākoņu pamats.
Arī: kodēšana ar AI? Mani 5 populārākie padomi, kā pārbaudīt tā rezultātus un izvairīties no problēmām
Tā kā 58% organizāciju jau izmanto AI darba slodzi vietnē Kubernetes, paredzams, ka CNCF jaunā programma ievērojami racionalizēs to, kā komandas izvieto, pārvalda un ievieš jauninājumus AI. Piedāvājot kopīgus testēšanas kritērijus, atsauces arhitektūras un apstiprinātas integrācijas GPU un paātrinātāja atbalstam, programmas mērķis ir padarīt AI infrastruktūru izturīgāku un drošāku vairāku piegādātāju un vairāku mākoņu vidēs.
Kā Kubecon teica Kubernetes un GKE inženierzinātņu direktors Jago Makleods, Google Cloud mēs esam saņēmuši Kubernetes AI atbilstības sertifikātu, jo uzskatām, ka konsekvence un pārnesamība ir būtiska AI mērogošanas procesam. Laicīgi pielāgojoties šim standartam, mēs atvieglojam izstrādātājiem un uzņēmumiem iespēju izveidot visas AI infrastruktūras, kas ir pārnēsājamas, pārnēsājamas un pārnēsājamas. izvietošana.”
Izpratne par Kubernetes uzlabojumiem
Tas nebūt nebija vienīgais, kas Makleodam bija jāsaka par Kubernetes nākotni. Google un CNCF ir citi plāni attiecībā uz tirgū vadošo konteineru orķestrētāju. Galvenie gaidāmie uzlabojumi ietver atcelšanas atbalstu, iespēju izlaist atjauninājumus un jaunas zema līmeņa vadīklas GPU un citai AI specifiskai aparatūrai.
Savā galvenajā runā MacLeod paskaidroja, ka pirmo reizi Kubernetes lietotājiem tagad ir a uzticama nelielas versijas atcelšanas funkcija. Šī funkcija nozīmē, ka klasterus pēc jaunināšanas var droši atjaunot zināmā labā stāvoklī. Šī iespēja izbeidz ilgstošo “vienvirziena ielas” problēmu saistībā ar Kubernetes vadības plaknes jauninājumiem. Atcelšana krasi samazinās risku, ka tiks pieņemtas svarīgas jaunas funkcijas vai steidzami drošības ielāpi.
Līdzās šim uzlabojumam Kubernetes lietotāji tagad var izlaist konkrētus atjauninājumus. Šī pieeja nodrošina administratoriem lielāku elastību un kontroli, plānojot versiju migrāciju vai reaģējot uz ražošanas incidentiem.
Papildus CKACP, Kubernetes tiek pārbūvēts, lai sākotnēji atbalstītu AI darba slodzes prasības. Šis atbalsts nozīmē, ka Kubernetes lietotājiem sniegs detalizētu kontroli pār aparatūru, piemēram, GPU, TPU un pielāgotus paātrinātājus. Šī iespēja atbilst arī mūsdienu AI aparatūras milzīgajām daudzveidības un mēroga prasībām.
Arī: SUSE Enterprise Linux 16 ir klāt, un tā slepkava ir digitālā suverenitāte
Turklāt jaunas API un atvērtā pirmkoda funkcijas, tostarp Aģents smilšu kaste un Vairāku līmeņu kontrolpunktstika paziņoti pasākumā. Šīs funkcijas vēl vairāk paātrinās secinājumu izdarīšanu, apmācību un aģentu AI darbības klasteros. Inovācijas, piemēram, mezgla līmeņa resursu piešķiršana, dinamiska GPU nodrošināšana un plānotāja optimizācija AI aparatūrai, kļūst par pamatu gan pētniekiem, gan uzņēmumiem, kas izmanto vairāku nomnieku klasterus.
Aģenta smilškaste ir atvērtā pirmkoda ietvars un kontrolieris, kas ļauj pārvaldīt izolētas, drošas vides, kas pazīstamas arī kā smilškastes, kas paredzētas, lai palaistu stāvokļu, vienas darba slodzes, piemēram, autonomus AI aģentus, kodu tulkus un izstrādes rīkus. Galvenās Agent Sandbox funkcijas ir:
- Izolācija un drošība: Katra smilškaste ir stingri izolēta gan kodola, gan tīkla līmenī, izmantojot tādas tehnoloģijas kā gVisor vai Kata konteineritāpēc ir droši palaist neuzticamu kodu (piemēram, lielu valodu modeļu ģenerētu), neapdraudot resursdatora sistēmas vai klastera integritāti.
- Deklaratīvas API: lietotāji var deklarēt smilškastes vides un veidnes, izmantojot Kubernetes vietējos resursus (Sandbox, SandboxTemplate, SandboxClaim), nodrošinot ātru, atkārtojamu izolētu gadījumu izveidi un pārvaldību.
- Mērogs un veiktspēja: Agent Sandbox atbalsta tūkstošiem vienlaicīgu, stāvoklim atbilstošu smilškaste ar ātru nodrošinājumu pēc pieprasījuma. Šī iespēja būs lieliska AI aģenta darba slodzei, koda izpildei vai pastāvīgām izstrādātāju vidēm.
- Momentuzņēmums un atkopšana: Ieslēgts Google Kubernetes Engine (GKE)Agent Sandbox var izmantot Pod Snapshots ātrai kontrolpunktu noteikšanai, hibernācijai un tūlītējai atsākšanai, ievērojami samazinot startēšanas latentumu un optimizējot resursu izmantošanu AI darba slodzēm.
Šodien Vairāku līmeņu kontrolpunkts Kubernetes galvenokārt ir pieejams GKE. Nākotnē šis mehānisms ļaus droši uzglabāt un pārvaldīt kontrolpunktus liela mēroga ML modeļu apmācības laikā.
Tāpat: uzņēmumi nav gatavi ļaunprātīgu AI aģentu pasaulei
Šeit ir īsa skice par to, kā darbojas vairāku līmeņu kontrolpunkts:
- Vairāki krātuves līmeņi: kontrolpunkti vispirms tiek saglabāti ātrā lokālā krātuvē (piemēram, atmiņā esošajos sējumos vai lokālajā diskā mezglā), lai nodrošinātu ātru piekļuvi un ātru atkopšanu.
- Replikācija mezglos: kontrolpunkta dati tiek replicēti klastera vienādranga mezglos, lai aizsargātu pret mezglu kļūmēm.
- Pastāvīga mākoņa krātuves dublēšana: periodiski kontrolpunkti tiek dublēti izturīgā mākoņkrātuvē, lai nodrošinātu uzticamu atkāpšanos klastera mēroga kļūmju gadījumā vai gadījumos, kad vietējās kopijas nav pieejamas.
- Orķestrēta vadība: sistēma automatizē kontrolpunktu saglabāšanu, replikāciju, dublēšanu un atjaunošanu, samazinot manuālo iejaukšanos apmācības laikā.
Ieguvums AL un ML darba slodzēm ir tas, ka vairāku līmeņu kontrolpunkts ļauj ātri atsākt apmācību no pēdējā kontrolpunkta, nezaudējot ievērojamu progresu. Mehānisms nodrošina arī kļūdu toleranci, aizsargājot apmācības darbus no biežiem pārtraukumiem, nodrošinot kontrolpunktu drošu uzglabāšanu un atkārtošanu.
Papildus tam, vairāku līmeņu kontrolpunkts nodrošina mērogojamību, atbalstot lielus sadalītus apmācības darbus, kas darbojas tūkstošiem mezglu. Visbeidzot, funkcija, protams, darbojas ar visiem galvenajiem AI ietvariem, piemēram, JAX un PyTorchun integrējas ar to kontrolpunktu mehānismiem.
Izmantojot atcelšanu, selektīvu atjauninājumu izlaišanu un ražošanas līmeņa AI aparatūras pārvaldību, Kubernetes ir gatavs darbināt pasaulē prasīgākās AI un uzņēmumu platformas. CNCF uzsāktā Kubernetes AI atbilstības programma vēl vairāk nostiprina ekosistēmas lomu sadarbspējas, uzticamības un veiktspējas standartu noteikšanā mākoņdatošanas AI tuvākajā nākotnē.
Tāpat: 6 būtiski noteikumi AI izmantošanai jūsu programmatūras izstrādes procesā — un dangers Nr. 1
Kubernetes pirmā desmitgade bija saistīta ar IT pārvietošanu no tukša metāla un virtuālajām mašīnām (VM) uz konteineriem. Tās nākamo desmitgadi noteiks tā spēja pārvaldīt AI planētas mērogā, nodrošinot drošību, ātrumu un elastību jaunai darba slodzei.












