Jaunākais ātruma pārbaude mākslīgā intelekta (AI) neironu tīkla apmācībā ir tikai daļēji par ātrākajām mikroshēmām no Nvidia, AMD un Intel. Arvien vairāk ātrums ir saistīts arī ar savienojumiem, kas izgatavoti starp šīm mikroshēmām, vai datortīklu pieejām, kas saistītas ar pārdevēju un tehnoloģiju kauju.
Arī: Tech Pravietis Marija Meekere tikko nometa masīvu ziņojumu par AI tendencēm – šeit ir jūsu TL; DR
MLCommons, kas etalonus AI sistēmas, trešdien paziņoja Jaunākie NVIDIA un citu vērtējumi par tā saukto MLPERF apmācību, divreiz gadā ziņojums par to, cik ilgs laiks prasa minūtes, lai apmācītu neironu tīklu, piemēram, lielu valodas modeli (LLM), “konverģencei”, kas nozīmē, līdz neironu tīkls var veikt noteiktu precizitātes līmeni.
Jaunākie rezultāti parāda, cik lielas ir kļuvušas AI sistēmas. Čipu un ar to saistīto komponentu mērogošana padara AI datorus arvien vairāk atkarīgu no savienojumiem starp mikroshēmām.
Šī kārta, ko sauc par 5.0, ir apmācības testa divpadsmitā daļa. Sešu gadu laikā kopš pirmā testa, 0,5, GPU skaits ir pieaudzis no 32 mikroshēmām līdz pašreizējam testam, 5,0, ar 8192 GPU mikroshēmu sistēmām, kas papildina lieluma kategoriju.
Arī: 4 veidi, kā biznesa vadītāji izmanto AI, lai atrisinātu problēmas un radītu reālu vērtību
Tā kā AI sistēmas palielinās tūkstošiem mikroshēmu, un reālajā pasaulē desmitiem tūkstošu, simtiem tūkstošu un, visbeidzot, miljoniem GPU mikroshēmu, “tīkls un tīkla konfigurācija, un algoritmi, ko izmantoja, lai kartētu problēmu tīklā, kļuva daudz nozīmīgāks”, sacīja Dāvids Kanters, MLCommons vadītājs, kas inimizējoties ar rezultātiem.
Liela daļa AI ir vienkāršas matemātikas, lineāras algebras operāciju jautājums, piemēram, vektors, kas reizināts ar matricu. Maģija notiek, ja šīs operācijas tiek veiktas paralēli daudzās mikroshēmās ar dažādām datu versijām.
Arī: 5 veidi, kā pārvērst AI laika taupīšanas maģiju par jūsu produktivitātes lielvaru
“Viens no vienkāršākajiem veidiem, kā tas ir ar kaut ko, ko sauc par datu paralēlismu, kur jums ir tas pats [AI] Vairāku mezglu modelis, “sacīja Kanters, atsaucoties uz vairāku čipu datora daļām, ko sauc par mezgliem, kas var darboties neatkarīgi viens no otra.” Tad dati vienkārši ienāk, un tad jūs paziņojat šos rezultātus “visās datora daļās, viņš teica.
“Tīklošana tam ir diezgan raksturīga,” piebilda Kanters. “Bieži redzēsit dažādus sakaru algoritmus, kas pierod dažādās topoloģijās un dažādos mērogos,” atsaucoties uz mikroshēmu izkārtojumu un to, kā tās ir savienotas, aprēķināt “topoloģija”.
Lielāko sistēmu šajā apmācības kārtā ar 8192 mikroshēmām iesniedza NVIDIA, kuras mikroshēmas, kā parasti, visos etalona testos iesniedza ātrākos rādītājus. NVIDIA mašīna tika uzbūvēta, izmantojot savu visizplatītāko daļu ražošanā, tās H100 GPU kopā ar Intel CPU mikroshēmām, 2 048 no tām.
Tomēr jaudīgāka sistēma debitēja: NVIDIA apvienotā CPU-GPU daļa-Grace-Blackwell 200. Tā tika noslēgta testā, veicot kopīgus centienus starp IBM un AI mākoņu hostinga gigantu CoreWeave, tādas mašīnas veidā, kurš uzņem visu aprīkojuma plauktu, ko sauc par NVL72.
Arī: slēptā datu krīze, kas apdraud jūsu AI pārveidošanas plānus
Lielākā CoreWeave un IBM iesniegtā konfigurācija pārvadā 2496 Blackwell GPU un 1248 Grace CPU. (Kamēr GB200 NVL72 iesniedza IBM un CoreWeave, mašīnas dizains pieder NVIDIA.)
Etalons izveidoja ierakstu 201 veiktspējas iesniegumus no 20 iesniegšanas organizācijām, ieskaitot NVIDIA, Superior Micro ierīces, ASUSTEK, CISCO SISTĒMAS, CoreWeave, Dell Applied sciences, Gigacomputing, Google Cloud, Hewlett Packard Enterprise, IBM, Kraai, Lambda, Lenovo, Mangoboost, Nebius, ORABLE, LAMBDA, LENOVO, SUPORMIC, Mangoboost, Nebius, ORALE, ORABLS, CANTA PEONĒJUMS, LENOVO, Mangoboboost, Nebius, ORALE, ORABLS, CANTA PENOLONCEY Tinycorp.
Etalona jaunākā kārta sastāvēja no septiņiem individuāliem uzdevumiem, ieskaitot Berta lielās valodas modeļa apmācību un stabila difūzijas attēlu ģenerācijas modeļa apmācību.
Šajā kārtā tika pievienots jauns ātruma exams: cik ātri nepieciešams, lai pilnībā apmācītu meta platformu LLAMA 3.1 405B lielās valodas modeli. Šis uzdevums tika pabeigts nedaudz mazāk kā 21 minūtē ātrākajā sistēmā – NVIDIA 8192 H100 mašīnā. Grace-Blackwell sistēma ar 2496 GPU nebija tālu aiz muguras, nedaudz vairāk kā 27 minūtēs.
Pilni mašīnu rezultāti un specifikācijas var redzēt MLCommons vietnēApvidū
Šajos skaitļos nav precīza mēra, cik liela nozīme ir tīkla lomai milzu sistēmās. Pārbaudes rezultāti no vienas MLPERF paaudzes uz citu izrādes uzlabojumu uz tiem pašiem etaloniem, pat ar tādu pašu mikroshēmu skaitu.
Piemēram, labākais laiks, lai apmācītu stabilu difūziju, izmantojot 64 mikroshēmas vienlaikus, nokrita līdz trim minūtēm no 10 iepriekšējā kārtā, pagājušajā rudenī. Cik liels šis kritums ir saistīts ar to, ka mikroshēmas kļūst labākas, salīdzinot ar uzlabotu tīklošanu un sistēmu inženieriju, ir grūti pateikt.
Arī: Openai vēlas, lai Chatgpt būtu jūsu “tremendous palīgs” – ko tas nozīmē
Tā vietā MLPERF dalībnieki atzīmēja vairākus faktorus, kas var izraisīt izmērāmas veiktspējas atšķirības.
“Savienojuma mērogojamība ir svarīgāka, jo jums ir jānovērtē tīkla lielums,” sacīja Rachata Ausavarungnirun no Mangoboost, Smartnic Know-how and Software program veidotāja, tajā pašā multivides instruktāžā. Mangoboost iesniegtās mašīnas, kas saliktas ar astoņiem, 16 un 32 uzlabotām mikro ierīču MI300X GPU, kas konkurē ar Nvidia mikroshēmām.
Šis savienojuma mērogojamības parts, pēc Ausavarungnirun, ir saistīts ar “ne tikai to, cik ātri aprēķinam būs vai cik ātri ir atmiņa, guess arī cik liela daļa tīkla kļūst par sašaurinājumu un ir jāpaātrina. Tas kļūst arvien svarīgāks, pieaugot” mikroshēmu skaitam.
Dažādām tīkla tehnoloģijām, piemēram, Ethernet, un dažādiem tīkla protokoliem, piemēram, TCP-IP, ir atšķirīgas īpašības, cik daudz efektīva caurlaide ir šī atšķirīgā [AI] Modeļi faktiski var redzēt, “sacīja Četans Kapoors ar Coreweave, kas tajā pašā plašsaziņas līdzekļu instruktāžā iesniedza NVIDIA NVL72.
Arī: 30% amerikāņu tagad ir aktīvi AI lietotāji, saka jauni ComScore dati
Šāda caurlaidspējas atšķirība “tieši kartē vispārējo sistēmas izmantošanu”, viņš sacīja, kas nozīmē, ka tā var uzlabot vai pasliktināt, cik efektīvi mikroshēmas tiek izmantotas, lai veiktu šīs lineārās algebras operācijas.
“Es domāju, ka tas ir arī faktors, kuru nozare gūst daudz progresu, proti, turpināt virzīt efektīvas tīkla izmantošanas robežas,” sacīja Kapoors.
Daļa no NVIDIA sasnieguma “fenomenālā mērogošanas efektivitāte” ir komunikācija, kas notiek tās mašīnās, sacīja Deivs Salvators, NVIDIA paātrināto skaitļošanas produktu direktors atsevišķā plašsaziņas līdzekļu instruktāžā.
2496 virzienu žēlastības-melnā tīkla NVL72 spēja sasniegt tā dēvēto 90% mērogošanas efektivitāti, kas nozīmē, ka mašīnas veiktspēja gandrīz uzlabojas tieši proporcijā ar to, cik mikroshēmas ir savienotas kopā, sacīja Salvators.
Lai sasniegtu šo efektivitātes līmeni, NVIDIA maksimāli izmantoja savu NVLink sakaru tehnoloģiju, kas savieno mikroshēmas, sacīja Salvators. “Tās ir arī tādas lietas kā mūsu kolektīvo komunikāciju bibliotēkas, ko sauc par NCCL, un mūsu spēja rīkoties, piemēram, pārklājoties ar skaitļošanu, lai patiešām iegūtu šo labāko mērogošanas efektivitāti,” sacīja Salvators.
Arī: kā Salesforce 5 līmeņa AI aģentu ietvars beidzot izgriežas caur hype
Lai arī ir grūti nošķirt tīkla veidošanas lomu, un, lai arī ir uzlabojumi ar tādu pašu mikroshēmu skaitu no vienas kārtas uz nākamo, tomēr rezultāti pastiprina nepārtraukto vērtību, veidojot lielāku un lielāku sistēmu, kas ir ticības raksts AI laukā. Mazu skaita palielināšana dramatiski samazina apmācības laiku.
Kanters parādīja grafiku, salīdzinot testa laika uzlabojumus kopš 0,5 kārtas. Viņš sacīja, ka paātrinājums ir ātrāks nekā jebkuras viena datora mikroshēmas individuālie uzlabojumi, tieši tāpēc, ka mašīnas izgatavošana ir visa sistēmas problēma, kas ietver tādas lietas kā tīkla efektivitāte.
“Tas, ko jūs varat redzēt, ir tas, ka, apvienojot silīcija arhitektūru, algoritmus, mērogu, visu, mēs pārsniedzam Mūra likumu,” sacīja Kanters, atsaucoties uz gadu desmitiem veco pusvadītāju nozares īkšķa noteikumu par progresu tranzistoros. Viņš teica, ka šis paātrinājums ir īpaši tāds, ka “dažās no dienas vissteidzamākajām darba slodzēm, tādām lietām kā ģeneratīva AI”.
“Tas faktiski nosaka diezgan augstu joslu,” sacīja Kanters.