Home Tehnoloģija NYU jaunā AI arhitektūra padara augstas kvalitātes attēlu ģenerēšanu ātrāku un lētāku

NYU jaunā AI arhitektūra padara augstas kvalitātes attēlu ģenerēšanu ātrāku un lētāku

25
0

Ņujorkas universitātes pētnieki ir izstrādājuši jaunu difūzijas modeļu arhitektūru, kas uzlabo to radīto attēlu semantisko attēlojumu. “Difūzijas transformators ar reprezentācijas automātiskajiem kodētājiem” (RAE) izaicina dažas no pieņemtajām difūzijas modeļu veidošanas normām. NYU pētnieka modelis ir efektīvāks un precīzāks par standarta difūzijas modeļiem, izmanto jaunākos pētījumus par reprezentācijas mācīšanos un varētu pavērt ceļu jauniem lietojumiem, kas iepriekš bija pārāk sarežģīti vai dārgi.

Šis sasniegums varētu atbloķēt uzticamākas un jaudīgākas funkcijas uzņēmumu lietojumprogrammām. "Lai labi rediģētu attēlus, modelim patiešām ir jāsaprot, kas tajos ir," papīra līdzautors Saining Xie pastāstīja VentureBeat. "RAE palīdz savienot šo saprotošo daļu ar ģenerēšanas daļu." Viņš arī norādīja uz turpmākiem pieteikumiem "Uz RAG balstīta ģenerēšana, kurā meklēšanai izmantojat RAE kodētāja funkcijas un pēc tam ģenerējat jaunus attēlus, pamatojoties uz meklēšanas rezultātiem," kā arī iekšā "video ģenerēšana un darbības nosacīti pasaules modeļi."

Ģeneratīvās modelēšanas stāvoklis

Difūzijas modeļitehnoloģija, kas ir pamatā lielākajai daļai mūsdienu jaudīgo attēlu ģeneratoru, kadru ģenerēšana kā course of, kurā mācās saspiest un atspiest attēlus. A variācijas automātiskais kodētājs (VAE) apgūst attēla galveno iezīmju kompaktu attēlojumu tā sauktajā “latentajā telpā”. Pēc tam modelis tiek apmācīts ģenerēt jaunus attēlus, mainot šo procesu no nejaušiem trokšņiem.

Lai gan šo modeļu difūzijas daļa ir attīstījusies, lielākajā daļā no tiem izmantotais automātiskais kodētājs pēdējos gados ir palicis nemainīgs. Pēc NYU pētnieku domām, šis standarta automātiskais kodētājs (SD-VAE) ir piemērots zema līmeņa funkciju un lokāla izskata tveršanai, taču tam trūkst “globālās semantiskās struktūras, kas ir būtiska vispārināšanai un ģeneratīvai veiktspējai”.

Tajā pašā laikā šī joma ir piedzīvojusi iespaidīgus sasniegumus attēlu attēlojuma apguvē ar tādiem modeļiem kā DINO, MAE un KLIP. Šie modeļi apgūst semantiski strukturētas vizuālās iezīmes, kas vispārinās dažādos uzdevumos un var kalpot par dabisku pamatu vizuālai izpratnei. Tomēr plaši izplatīts uzskats ir atturējis izstrādātājus no šīs arhitektūras izmantošanas attēlu ģenerēšanā: modeļi, kas koncentrējas uz semantiku, nav piemēroti attēlu ģenerēšanai, jo tie neuztver granulētas pikseļu līmeņa funkcijas. Praktiķi arī uzskata, ka difūzijas modeļi nedarbojas labi ar tādiem augstas dimensijas attēlojumiem, kādus rada semantiskie modeļi.

Difūzija ar reprezentācijas kodētājiem

NYU pētnieki ierosina aizstāt standarta VAE ar “pārstāvības autokodētājiem” (RAE). Šis jaunais automātiskā kodētāja veids savieno pārī iepriekš apmācītu attēlojuma kodētāju, piemēram Metas DINOar apmācītu redzes transformatora dekoderi. Šī pieeja vienkāršo apmācības procesu, izmantojot esošos, jaudīgos kodētājus, kas jau ir apmācīti masveida datu kopās.

Lai tas darbotos, komanda izstrādāja variantu difūzijas transformators (DiT), kas ir vairuma attēlu ģenerēšanas modeļu mugurkauls. Šo modificēto DiT var efektīvi apmācīt RAE augstas dimensijas telpā, neradot milzīgas skaitļošanas izmaksas. Pētnieki parāda, ka iesaldētos attēlojuma kodētājus, pat tos, kas optimizēti semantikai, var pielāgot attēlu ģenerēšanas uzdevumiem. To metode nodrošina rekonstrukcijas, kas ir labākas par standarta SD-VAE, nepalielinot arhitektūras sarežģītību.

Tomēr, lai pieņemtu šo pieeju, ir jāmaina domāšana. "RAE nav vienkāršs plug-and-play automātiskais kodētājs; jāattīsta arī difūzijas modelēšanas daļa," Sje paskaidroja. "Viens no galvenajiem aspektiem, ko vēlamies uzsvērt, ir tas, ka latentā telpas modelēšana un ģeneratīvā modelēšana ir jāizstrādā kopā, nevis jāaplūko atsevišķi."

Izmantojot pareizos arhitektūras pielāgojumus, pētnieki atklāja, ka augstākas dimensijas attēlojumi ir priekšrocība, piedāvājot bagātāku struktūru, ātrāku konverģenci un labāku paaudzes kvalitāti. In viņu papīrspētnieki atzīmē, ka šie "augstākas dimensijas latentie efektīvi nerada papildu skaitļošanas vai atmiņas izmaksas." Turklāt standarta SD-VAE ir skaitļošanas ziņā dārgāks, jo kodētājam ir nepieciešams apmēram sešas reizes vairāk aprēķinu un dekodētājam trīs reizes vairāk nekā RAE.

Lielāka veiktspēja un efektivitāte

Jaunā modeļa arhitektūra nodrošina ievērojamus ieguvumus gan apmācības efektivitātes, gan paaudzes kvalitātes ziņā. Komandas uzlabotā difūzijas recepte sasniedz spēcīgus rezultātus jau pēc 80 treniņu epohām. Salīdzinot ar iepriekšējiem difūzijas modeļiem, kas apmācīti uz VAE, uz RAE balstītais modelis sasniedz 47x treniņu ātrumu. Tas arī pārspēj jaunākās metodes, kuru pamatā ir attēlojuma izlīdzināšana ar 16x treniņu paātrinājumu. Šis efektivitātes līmenis tieši nozīmē zemākas apmācības izmaksas un ātrākus modeļu izstrādes ciklus.

Uzņēmuma lietošanai tas nozīmē uzticamākus un konsekventākus rezultātus. Xie atzīmēja, ka uz RAE balstīti modeļi ir mazāk pakļauti semantiskām kļūdām, kas redzamas klasiskajā difūzijā, piebilstot, ka RAE nodrošina modeli "daudz gudrāks datu objektīvs." Viņš novēroja, ka tādi vadošie modeļi kā ChatGPT-4o un Google Nano Banana virzās uz priekšu "uz priekšmetu orientēta, ļoti konsekventa un zināšanu papildināta paaudze," un ka RAE semantiski bagātais pamats ir galvenais, lai sasniegtu šo uzticamību mērogā un atvērtā pirmkoda modeļos.

Pētnieki demonstrēja šo veiktspēju ImageNet etalonā. Izmantojot Fréchet sākuma attālums (FID) metrika, kur zemāks rādītājs norāda uz augstākas kvalitātes attēliem, uz RAE balstītais modelis bez norādījumiem sasniedza vismodernāko punktu skaitu 1,51. Izmantojot AutoGuidance — metodi, kas izmanto mazāku modeli, lai vadītu ģenerēšanas procesu, FID rezultāts samazinājās līdz vēl iespaidīgākam 1,13 gan 256 x 256, gan 512 x 512 attēliem.

Veiksmīgi integrējot mūsdienu reprezentācijas mācīšanos difūzijas sistēmā, šis darbs paver jaunu ceļu spējīgāku un izmaksu ziņā efektīvāku ģeneratīvo modeļu veidošanai. Šī apvienošana norāda uz integrētāku AI sistēmu nākotni.

"Mēs uzskatām, ka nākotnē būs vienots, vienots attēlojuma modelis, kas atspoguļos bagāto, pamatā esošo realitātes struktūru… spēj dekodēt daudzās dažādās izvades modalitātēs," Xie teica. Viņš piebilda, ka RAE piedāvā unikālu ceļu uz šo mērķi: "Augstas dimensijas latentā telpa ir jāapgūst atsevišķi, lai nodrošinātu spēcīgu prioritāti, ko pēc tam var atšifrēt dažādās modalitātēs, nevis paļauties uz rupju pieeju, sajaucot visus datus un apmācot ar vairākiem mērķiem vienlaikus."

avots