Home Tehnoloģija Jauns AI modelis pārvērš fotoattēlus par emocionālām 3D pasaulēm ar brīdinājumiem

Tehnoloģija

Jauns AI modelis pārvērš fotoattēlus par emocionālām 3D pasaulēm ar brīdinājumiem

7 septembris 2025

Apmācība ar automatizētu datu cauruļvadu

Voyager balstās uz Tencenta iepriekšējo Hunyuanworld 1.0atbrīvots jūlijā. Voyager ir arī daļa no Tencent plašākās “Hunyuan” ekosistēmas, kurā ietilpst Hunyuan3d-2 Teksta-3D paaudzes modelis un iepriekš aptvertais Hunyuanvideo video sintēzei.

Lai apmācītu Voyager, pētnieki izstrādāja programmatūru, kas automātiski analizē esošos videoklipus, lai apstrādātu kameru kustības un aprēķinātu dziļumu katram kadram – lai cilvēkiem būtu nepieciešams manuāli marķēt tūkstošiem stundu materiālu. Sistēma apstrādāja vairāk nekā 100 000 video klipus gan no reālās pasaules ierakstiem, gan iepriekšminētajiem Unreal Engine renderiem.

Voyager World Radīšanas cauruļvada diagramma.

Kredīts:

Tencents

Modelis prasa nopietnu skaitļošanas jaudu, lai 540p izšķirtspējai būtu nepieciešama vismaz 60 GB GPU atmiņas, lai gan Tencent iesaka 80 GB, lai iegūtu labākus rezultātus. Tencents publicēja modeļa svarus Apskaujot seju un iekļaujot kodu, kas darbojas gan ar vienu, gan ar vairākiem GPU iestatījumiem.

Modelim ir ievērojams Ierobežojumu licencēšanaApvidū Tāpat kā citi Hunyuan modeļi no Tencent, licence aizliedz lietot Eiropas Savienībā, Apvienotajā Karalistē un Dienvidkorejā. Turklāt komerciālai izvietošanai, kas apkalpo vairāk nekā 100 miljonus aktīvo lietotāju mēnesī, ir nepieciešama atsevišķa licencēšana no Tencent.

Uz Pasaules mēroga Stenfordas universitātes pētnieku izstrādātais etalons, Voyager, kā ziņots, sasniedza augstāko kopējo punktu skaitu 77,62, salīdzinot ar 72,69 par Wonderworld un 62,15 par Cogvideox-i2vApvidū Tiek ziņots, ka modelis ir izcils objektu kontrolē (66,92), stila konsekvence (84,89) un subjektīvā kvalitāte (71,09), lai gan tas bija otrais kameras kontrolē (85,95) aiz Wonderworld’s 92,98. WorldScore novērtē pasaules paaudzes pieejas vairākos kritērijos, ieskaitot 3D konsekvenci un satura izlīdzināšanu.

Kaut arī šie pašpaziņotie etalona rezultāti šķiet daudzsološi, plašāka izvietošana joprojām saskaras ar izaicinājumiem, kas saistīti ar iesaistīto skaitļošanas muskuļa dēļ. Izstrādātājiem, kuriem nepieciešama ātrāka apstrāde, sistēma atbalsta paralēlus secinājumus vairākos GPU, izmantojot XDIT ietvarsApvidū Darbība ar astoņiem GPU nodrošina apstrādes ātrumu 6,69 reizes ātrāk nekā viena GPU iestatījumi.

Ņemot vērā nepieciešamo apstrādes jaudu un ierobežojumus garu, saskaņotu “pasaules” ierobežojumos, var paiet kāds laiks, pirms mēs redzam reāllaika interaktīvu pieredzi, izmantojot līdzīgu paņēmienu. Bet, kā mēs līdz šim esam redzējuši ar tādiem eksperimentiem kā Google’s Genie, mēs potenciāli esam liecinieki ļoti agrīniem soļiem jaunā interaktīvā, ģeneratīvā mākslas formā.

avots

Jauns AI modelis pārvērš fotoattēlus par emocionālām 3D pasaulēm ar brīdinājumiem

Apmācība ar automatizētu datu cauruļvadu

jaunākais ieraksts

Esmu pārskatījis daudz seksa rotaļlietu. Šeit ir Melnās piektdienas seksa rotaļlietu...

iPhone automašīnas atslēgu atbalsts tiks piedāvāts atsevišķiem Cadillac transportlīdzekļiem

Ķīna ir saistīta ar AI vadītiem hakeru “uzbrukumiem”, saka Anthropic

Viss jaunums operētājsistēmā iOS 26.2 Beta 3

Slikts interneta savienojums? Ar šo triku joprojām varat skatīties Netflix

Izveidojiet labāku darbplūsmu, izmantojot šo 40 $ $ AI rīku komplektu

Trampa organizācija paziņo par tokenizēto viesnīcu attīstību, jo turpinās kriptogrāfijas “noziedzības...

Šodienas NYT savienojumu padomi, atbildes un palīdzība 18. novembrim, #891

Pīrss Brosnans vēlas atkal būt Likteņa ārsts un var saņemt savu...

Šodienas Wordle padomi, atbilde un palīdzība 18. novembrim, #1613