Home Tehnoloģija Jauns AI modelis pārvērš fotoattēlus par emocionālām 3D pasaulēm ar brīdinājumiem

Jauns AI modelis pārvērš fotoattēlus par emocionālām 3D pasaulēm ar brīdinājumiem

9
0

 

Apmācība ar automatizētu datu cauruļvadu

Voyager balstās uz Tencenta iepriekšējo Hunyuanworld 1.0atbrīvots jūlijā. Voyager ir arī daļa no Tencent plašākās “Hunyuan” ekosistēmas, kurā ietilpst Hunyuan3d-2 Teksta-3D paaudzes modelis un iepriekš aptvertais Hunyuanvideo video sintēzei.

Lai apmācītu Voyager, pētnieki izstrādāja programmatūru, kas automātiski analizē esošos videoklipus, lai apstrādātu kameru kustības un aprēķinātu dziļumu katram kadram – lai cilvēkiem būtu nepieciešams manuāli marķēt tūkstošiem stundu materiālu. Sistēma apstrādāja vairāk nekā 100 000 video klipus gan no reālās pasaules ierakstiem, gan iepriekšminētajiem Unreal Engine renderiem.

Voyager World Radīšanas cauruļvada diagramma.


Kredīts:

 

Tencents

 

Modelis prasa nopietnu skaitļošanas jaudu, lai 540p izšķirtspējai būtu nepieciešama vismaz 60 GB GPU atmiņas, lai gan Tencent iesaka 80 GB, lai iegūtu labākus rezultātus. Tencents publicēja modeļa svarus Apskaujot seju un iekļaujot kodu, kas darbojas gan ar vienu, gan ar vairākiem GPU iestatījumiem.

Modelim ir ievērojams Ierobežojumu licencēšanaApvidū Tāpat kā citi Hunyuan modeļi no Tencent, licence aizliedz lietot Eiropas Savienībā, Apvienotajā Karalistē un Dienvidkorejā. Turklāt komerciālai izvietošanai, kas apkalpo vairāk nekā 100 miljonus aktīvo lietotāju mēnesī, ir nepieciešama atsevišķa licencēšana no Tencent.

Uz Pasaules mēroga Stenfordas universitātes pētnieku izstrādātais etalons, Voyager, kā ziņots, sasniedza augstāko kopējo punktu skaitu 77,62, salīdzinot ar 72,69 par Wonderworld un 62,15 par Cogvideox-i2vApvidū Tiek ziņots, ka modelis ir izcils objektu kontrolē (66,92), stila konsekvence (84,89) un subjektīvā kvalitāte (71,09), lai gan tas bija otrais kameras kontrolē (85,95) aiz Wonderworld’s 92,98. WorldScore novērtē pasaules paaudzes pieejas vairākos kritērijos, ieskaitot 3D konsekvenci un satura izlīdzināšanu.

Kaut arī šie pašpaziņotie etalona rezultāti šķiet daudzsološi, plašāka izvietošana joprojām saskaras ar izaicinājumiem, kas saistīti ar iesaistīto skaitļošanas muskuļa dēļ. Izstrādātājiem, kuriem nepieciešama ātrāka apstrāde, sistēma atbalsta paralēlus secinājumus vairākos GPU, izmantojot XDIT ietvarsApvidū Darbība ar astoņiem GPU nodrošina apstrādes ātrumu 6,69 reizes ātrāk nekā viena GPU iestatījumi.

Ņemot vērā nepieciešamo apstrādes jaudu un ierobežojumus garu, saskaņotu “pasaules” ierobežojumos, var paiet kāds laiks, pirms mēs redzam reāllaika interaktīvu pieredzi, izmantojot līdzīgu paņēmienu. Bet, kā mēs līdz šim esam redzējuši ar tādiem eksperimentiem kā Google’s Genie, mēs potenciāli esam liecinieki ļoti agrīniem soļiem jaunā interaktīvā, ģeneratīvā mākslas formā.

avots