Home Tehnoloģija Meta jaunais pasaules modelis ļauj robotiem manipulēt ar objektiem vidē, ar kuru...

Meta jaunais pasaules modelis ļauj robotiem manipulēt ar objektiem vidē, ar kuru viņi nekad iepriekš nav saskārušies

27
0

Pievienojieties pasākumam, kuru uzņēmuma vadītāji uzticas gandrīz divas desmitgades. VB Rework apvieno cilvēkus, kas veido reālu uzņēmumu AI stratēģiju. Uzziniet vairāk


Kaut arī lieliem valodu modeļiem (LLM) ir apguvuši tekstu (un citus veidus zināmā mērā), viņiem trūkst fiziskā “veselā saprāta”, lai darbotos dinamiskā, reālās pasaules vidē. Tas ir ierobežojis AI izvietošanu tādās jomās kā ražošana un loģistika, kur izpratne par cēloņiem un sekām ir kritiska.

Meta jaunākais modelis, V-Jepa 2sper soli pretī šīs plaisas pārvarēšanai, apgūstot pasaules modeli no video un fiziskās mijiedarbības.

V-JEPA 2 var palīdzēt izveidot AI lietojumprogrammas, kurām nepieciešami rezultāti un plānošanas darbības neparedzamā vidē ar daudziem malām. Šī pieeja var nodrošināt skaidru ceļu uz spējīgākiem robotiem un uzlabotu automatizāciju fiziskā vidē.

Kā “pasaules modelis” iemācās plānot

Cilvēki agrīnā dzīves laikā attīstās fiziskā intuīcijā, novērojot savu apkārtni. Ja redzat, ka bumba tiek izmesta, jūs instinktīvi zināt tās trajektoriju un varat paredzēt, kur tā nolaidīsies. V-Jepa 2 apgūst līdzīgu “pasaules modeli”, kas ir AI sistēmas iekšējā simulācija par to, kā darbojas fiziskā pasaule.

Modelis ir balstīts uz trim galvenajām iespējām, kas ir būtiskas uzņēmuma lietojumprogrammām: izpratne par notiekošo ainā, prognozējot, kā aina mainīsies, pamatojoties uz darbību, un plānojot darbību secību, lai sasniegtu noteiktu mērķi. Kā meta norāda tā blogottā “ilgtermiņa redzējums ir tāds, ka pasaules modeļi ļaus AI aģentiem plānot un pamatot fizisko pasauli”.

Modeļa arhitektūra, ko sauc par video locītavas iegulšanas paredzamo arhitektūru (V-JEPA), sastāv no divām galvenajām detaļām. “Kodētājs” skatās videoklipu un kondicē to kompaktā skaitliskā kopsavilkumā, kas pazīstams kā iegulšana. Šī iegulšana atspoguļo būtisko informāciju par objektiem un viņu attiecībām ainā. Pēc tam otrais komponents, “prognozētājs”, ņem šo kopsavilkumu un iedomājas, kā aina attīstīsies, radot prognozi par to, kā izskatīsies nākamais kopsavilkums.

V-JEPA sastāv no kodētāja un prognozētāja (avots: Meta emuārs)

Šī arhitektūra ir jaunākā JEPA ietvara evolūcija, kas pirmo reizi tika piemērota attēliem ar I-Jepa un tagad attīstās uz video, demonstrējot konsekventu pieeju pasaules modeļu veidošanai.

Atšķirībā no ģeneratīvajiem AI modeļiem, kas mēģina paredzēt katra pikseļa precīzu krāsu nākotnē-skaitļošanas ziņā intensīvs uzdevums-V-JEPA 2 darbojas abstraktā telpā. Tas koncentrējas uz ainas augsta līmeņa iezīmju prognozēšanu, piemēram, objekta pozīciju un trajektoriju, nevis tās tekstūru vai fona detaļām, padarot to daudz efektīvāku nekā citi lielākie modeļi tikai par 1,2 miljardiem parametru

Tas nozīmē zemākas aprēķināšanas izmaksas un padara tās piemērotākas izvietošanai reālās pasaules iestatījumos.

Mācīšanās no novērošanas un darbības

V-Jepa 2 ir apmācīts divos posmos. Pirmkārt, tas veido savu pamataprēķinu par fiziku, izmantojot pašpervervētu mācīšanos, vērojot vairāk nekā miljonu stundu neierobežotu interneta videoklipu. Vienkārši novērojot, kā objekti pārvietojas un mijiedarbojas, tas izstrādā vispārējas nozīmes pasaules modeli bez jebkādām cilvēku norādījumiem.

Otrajā posmā šis iepriekš apmācītais modelis ir precīzi noregulēts uz nelielas, specializētas datu kopas. Apstrādājot tikai 62 stundas video, kurā parādīts robots, kas veic uzdevumus, kā arī atbilstošās vadības komandas, V-Jepa 2 iemācās savienot īpašas darbības ar viņu fiziskajiem rezultātiem. Tā rezultātā tiek iegūts modelis, kas var plānot un kontrolēt darbības reālajā pasaulē.

V-JEPA divpakāpju apmācības cauruļvads (avots: Meta)
V-JEPA divpakāpju apmācības cauruļvads (avots: Meta)

Šī divpakāpju apmācība ļauj kritisku spēju veikt reālās pasaules automatizāciju: nulles šāvienu robotu plānošana. Robotu, kuru darbina V-JEPA 2, var izvietot jaunā vidē un veiksmīgi manipulēt ar objektiem, ar kuriem tas vēl nekad nav saskāries, bez nepieciešamības pārkvalificēt šo konkrēto iestatījumu.

Tas ir ievērojams iepriekšējais modelis, kas prasīja apmācības datus no precīzs robots un vide, kurā viņi darbotos. Modelis tika apmācīts atvērtā koda datu kopā un pēc tam veiksmīgi izvietots dažādos robotos Meta laboratorijās.

Piemēram, lai pabeigtu tādu uzdevumu, piemēram, objekta uzņemšanu, robotam tiek piešķirts vēlamā iznākuma mērķa attēls. Pēc tam tas izmanto V-Jepa 2 prognozētāju, lai iekšēji modelētu iespējamo nākamo kustību diapazonu. Tas vērtē katru iedomāto darbību, pamatojoties uz to, cik tuvu tā nonāk mērķa sasniegšanā, izpilda visaugstāk novērtēto darbību un atkārto procesu, līdz uzdevums ir pabeigts.

Izmantojot šo metodi, modelis sasniedza panākumu līmeni no 65% līdz 80%, veicot izvēles un vietas uzdevumus ar nepazīstamiem objektiem jaunos iestatījumos.

Fiziskās spriešanas ietekme uz reālo pasauli

Šai spējai plānot un rīkoties jaunās situācijās, ir tieša ietekme uz uzņēmējdarbību. Loģistikā un ražošanā tas ļauj veikt pielāgojamākus robotus, kas var rīkoties ar produktu un noliktavu izkārtojumu variācijām bez plašas pārplānošanas. Tas var būt īpaši noderīgi, jo uzņēmumi pēta humanoīdu robotu izvietošanu rūpnīcās un montāžas līnijās.

Tas pats pasaules modelis var darbināt ļoti reālistiskus digitālos dvīņus, ļaujot uzņēmumiem simulēt jaunus procesus vai apmācīt citas AIS fiziski precīzā virtuālajā vidē. Rūpnieciskos apstākļos modelis varētu uzraudzīt mašīnu video plūsmas un, pamatojoties uz to iemācīto izpratni par fiziku, paredzēt drošības jautājumus un neveiksmes pirms to notikumiem.

Šis pētījums ir galvenais solis ceļā uz to, ko Meta sauc par “uzlaboto mašīnu intelektu (AMI)”, kur AI sistēmas var “uzzināt par pasauli, kā to dara cilvēki, plānot, kā izpildīt nepazīstamus uzdevumus, un efektīvi pielāgoties pastāvīgi mainīgajai pasaulei ap mums”.

META ir izlaidusi modeli un tā apmācības kodu un cer “izveidot plašu kopienu ap šo pētījumu, virzot progresu uz mūsu galveno mērķi attīstīt pasaules modeļus, kas var pārveidot veidu, kā AI mijiedarbojas ar fizisko pasauli”.

Ko tas nozīmē uzņēmuma tehnisko lēmumu pieņēmējiem

V-JEPA 2 pārvieto robotiku tuvāk programmatūras definētajam modelim, kuru mākoņu komandas jau atpazīst: vienreiz pēc apmācības, izvietojiet jebkur. Tā kā modelis apgūst vispārējo fiziku no publiska video un ir nepieciešams tikai pāris desmiti stundu uzdevumam specifisku kadru, uzņēmumi var samazināt datu savākšanas ciklu, kas parasti samazina izmēģinājuma projektus. Praktiski jūs varat prototipa robots paņemšanas un vietas uz pieejamām darbvirsmas rokām, pēc tam to pašu politiku uz rūpnīcas grīdas ripot uz rūpniecības grīdas, neiekarojot tūkstošiem svaigu paraugu vai nerakstot pielāgotus kustības skriptus.

Zemākas apmācības pieskaitāmās izmaksas arī maina izmaksu vienādojumu. Pie 1,2 miljardiem parametru V-JEPA 2 ērti der vienam augstas klases GPU, un tā abstraktie prognozēšanas mērķi samazina secinājumu slodzi vēl vairāk. Tas ļauj komandām vadīt slēgtas cikla kontroli uz priekšu vai malā, izvairoties no mākoņu latentuma un atbilstības galvassāpēm, kas nāk ar straumēšanas video ārpus rūpnīcas. Budžets, kas kādreiz nonāca pie masīvām aprēķināšanas klasteriem, tā vietā var finansēt papildu sensorus, atlaišanu vai ātrākus iterācijas ciklus.


avots