Jaunā ietvara, ko izstrādājuši Google Cloud un DeepMind pētnieki, mērķis ir risināt vienu no galvenajām datoru lietošanas aģentu (CUA) izstrādes problēmām: kvalitatīvu apmācību piemēru vākšana mērogā.
Ietvars, dublēts Skatieties un mācieties (W&L), risina apmācību datu ģenerēšanas problēmu tādā veidā, kas neprasa cilvēka anotāciju un var automātiski iegūt demonstrācijas no neapstrādātiem videoklipiem.
Viņu eksperimenti liecina, ka iegūtos W&L datus var izmantot, lai apmācītu vai precizētu esošos datoru lietošanas un pamatu modeļus, lai uzlabotu to veiktspēju datora lietošanas uzdevumos. Wager tikpat svarīgi ir tas, ka to pašu pieeju var izmantot, lai izveidotu konteksta mācīšanās (ICL) piemēri datoru izmantošanas aģentiem, kas ļauj uzņēmumiem izveidot CUA īpašiem iekšējiem uzdevumiem bez nepieciešamības dārgi apmācīt specializētus modeļus.
CUA datu sašaurinājums
Tīmeklī ir daudz video pamācību un ekrānuzņēmumu, kas apraksta sarežģītas lietojumprogrammu lietošanas darbplūsmas. Šie video ir zelta raktuves, kas var nodrošināt datoru lietošanas aģenti ar domēna zināšanām un instrukcijām dažādu uzdevumu veikšanai, izmantojot lietotāja interfeisa mijiedarbību.
Tomēr, pirms tos var izmantot CUA aģentu apmācībai, šie videoklipi ir jāpārveido anotētās trajektorijās (tas ir, uzdevumu aprakstu, ekrānuzņēmumu un darbību komplektā), kas ir pārmērīgi dārgs un laikietilpīgs course of, ja to veic manuāli.
Esošās pieejas, lai novērstu šo datu vājo vietu, balstās uz šo videoklipu anotāciju, izmantojot multimodālus valodu modeļus, kā rezultātā parasti ir zemas precizitātes un kļūdaini piemēri. Atšķirīga pieeja izmanto pašspēles aģentus, kas autonomi pēta lietotāja saskarnes, lai apkopotu trajektorijas. Tomēr metodes, kas izmanto šo pieeju, parasti rada vienkāršus piemērus, kas nav noderīgi neparedzamās reālās pasaules situācijās.
Kā pētnieki atzīmē savā dokumentā: “Kopumā šīs pieejas balstās uz trauslu heiristiku, ir dārgas, jo tās balstās uz izpēti reālā vidē vai rada zemas sarežģītības demonstrācijas, kas neatbilst cilvēka nodomiem.”
Skatieties un mācieties
Watch & Study ietvars mēģina risināt problēmas, kas saistītas ar CUA demonstrāciju izveidi, pārdomājot problēmas formulējumu.
Tā vietā, lai tieši ģenerētu trajektorijas vai atkarībā no sarežģītiem daudzpakāpju cauruļvadiem, pētnieki problēmu formulē kā “apgrieztās dinamikas mērķi”: ņemot vērā divus secīgus novērojumus, prognozējiet starpposma darbību, kas izraisīja pāreju.
Pēc pētnieku domām, šis formulējums ir “vieglāk apgūstams, izvairās no ar rokām veidotas heiristikas un spēcīgi vispārina dažādās lietojumprogrammās”.
W&L sistēmu var iedalīt trīs galvenajos posmos: apgrieztās dinamikas modeļa (IDM) apmācība, neapstrādātu video izgūšana un CUA aģentu apmācība.
Pirmajā fāzē pētnieki izmantoja aģentus, lai mijiedarbotos ar tiešsaistes tīmekļa lapām, lai izveidotu lielu 500 000 stāvokļu pāreju korpusu (divi secīgi novērojumi un darbība, kuras rezultātā notika pāreja). Pēc tam viņi izmantoja šos datus (kopā ar 132 000 cilvēku anotētām pārejām no esošajām atvērtajām datu kopām), lai apmācītu apgrieztās dinamikas modeli (IDM), kas veic divus secīgus novērojumus un prognozē pārejas darbību. Viņu apmācītais IDM, kas ir neliels transformatora modelis, pārspēja pārejas darbību prognozēšanā jau pieejamos pamatu modeļus.
Pēc tam pētnieki izstrādāja cauruļvadu, kas izgūst videoklipus no tādām platformām kā YouTube un palaiž tos caur IDM, lai radītu augstas kvalitātes trajektorijas. IDM uzņem secīgus video kadrus un nosaka darbības (ritināšanu, klikšķi), kas izraisīja izmaiņas vidē, kuras pēc tam tiek iepakotas anotētās trajektorijās. Izmantojot šo metodi, viņi izveidoja 53 125 trajektorijas ar augstas precizitātes darbību etiķetēm.
Šos piemērus var izmantot, lai apmācītu efektīvus datora lietošanas modeļus konkrētiem uzdevumiem. Taču pētnieki arī atklāja, ka trajektorijas, kas iegūtas, izmantojot IDM, var kalpot kā konteksta mācīšanās piemēri, lai uzlabotu CUA veiktspēju pēc pasūtījuma veiktajiem uzdevumiem secinājuma laikā. Attiecībā uz ICL viņi izmanto Gemini 2.5 Flash, lai pievienotu papildu argumentācijas anotācijas novērojumu/darbības piemēriem trajektorijās, kuras pēc tam var ievietot CUA aģenta uzvednē (parasti 3–5 piemēri) secinājumu veikšanas laikā.
“Šī divējāda loma (apmācība un norādījumi kontekstā) nodrošina elastīgu integrāciju gan ar atvērtā koda modeļiem, gan ar vispārējas nozīmes aģentiem,” raksta pētnieki.
W&L darbībā
Lai pārbaudītu W&L lietderību, pētnieki veica virkni eksperimentu ar slēgtā un atvērtā koda modeļiem OSWorld etalonskas novērtē aģentus reālās darbvirsmas un operētājsistēmu vidēs, veicot dažādus uzdevumus, tostarp produktivitāti, programmēšanu un dizainu.
Precizēšanai viņi izmantoja savu 53 000 trajektoriju korpusu, lai apmācītu divus atvērtā pirmkoda modeļus: UI-TARS-1.5, spēcīgu, atvērtā koda redzes valodas darbības modeli, kas īpaši izstrādāts lietošanai datoros, un Qwen 2,5-VLatvērta svara multimodāls LLM.
Konteksta mācīšanās testos viņi izmantoja W&L piemērus vispārējas nozīmes multimodālajiem modeļiem, piemēram, Gemini 2.5 Flash, OpenAI o3 un Claude Sonnet 4.
W&L nodrošināja uzlabojumus OSWorld visās modeļu kategorijās, tostarp līdz 3 punktiem ICL par vispārējas nozīmes modeļiem un līdz 11 punktiem par precīzi noregulētiem atvērtā pirmkoda modeļiem.
Vēl svarīgāk ir tas, ka šie ieguvumi tika sasniegti bez manuālas anotācijas, “pierādot, ka tīmekļa mēroga cilvēku darbplūsmas var kalpot kā praktisks un mērogojams pamats CUA virzīšanai uz izvietošanu reālajā pasaulē”, raksta pētnieki.
Tas varētu būtiski ietekmēt reālās pasaules lietojumprogrammas, ļaujot uzņēmumiem pārvērst savus esošos video un konferenču ierakstu korpusus CUA apmācības datos. Tas arī atvieglo jaunu treniņu trajektoriju ģenerēšanu. Viss, kas jums jādara, ir jāieraksta dažādu uzdevumu veikšanas video un jāpievieno IDM anotācijas. Tā kā progresīvie modeļi pastāvīgi uzlabojas un kļūst lētāki, varat sagaidīt, ka iegūsit vairāk no saviem esošajiem datiem, un joma turpinās progresēt.













