Home Tehnoloģija Google AI tagad var sērfot jums tīmeklī, noklikšķināt uz pogām un aizpildīt...

Google AI tagad var sērfot jums tīmeklī, noklikšķināt uz pogām un aizpildīt veidlapas ar Gemini 2.5 datora izmantošanu

10
0

Daži no lielākajiem lielo valodu modeļu (LLM) pakalpojumu sniedzējiem ir mēģinājuši pāriet ārpus multimodāliem tērzēšanas robotiem – paplašinot savus modeļus "aģenti" Tas faktiski var veikt vairāk darbību lietotāja vārdā visās vietnēs. Atgādiniet Openai’s Chatgpt aģentu (agrāk pazīstams kā "Operators") un Anthropic datora lietošana, abi tika atbrīvoti pēdējo divu gadu laikā.

Tagad Google iekļūst arī tajā pašā spēlē. Šodien meklēšanas gigants DeepMind AI Lab meitasuzņēmums atklāja jaunu, precīzi noregulēto un individuāli apmācīto versiju ar savu jaudīgo Dvīņu 2.5 Professional LLM versiju pazīstams kā "Dvīņi 2.5 Pro datora lietošanaVerdzība" kas var Izmantojiet virtuālu pārlūku, lai sērfotu tīmeklī jūsu vārdā, iegūtu informāciju, aizpildītu veidlapas un pat rīkotos vietnēs – Viss no lietotāja viena teksta uzvednes.

"Šīs ir agrīnās dienas, guess modeļa spēja mijiedarboties ar tīmekli – piemēram, ritināšanas, aizpildīšanas veidlapas + navigācijas nolaižamie – ir Svarīgs nākamais solis vispārējas nozīmes aģentu veidošanā," minētais Google izpilddirektors Sundars Pichai, kā daļa no a Garāks paziņojums sociālajā tīklā, X.

Tomēr modelis patērētājiem nav pieejams tieši no Google.

Tā vietā Google partneris ar citu uzņēmumu, Pārlūksdibināts Bijušais Twilio inženieris Pols Kleins 2024. gada sākumākas piedāvā virtuālu "bez galvas" Tīmekļa pārlūks, kas īpaši paredzēts AI aģentiem un lietojumprogrammām. (A "bez galvas" Pārlūks ir tāds, kam nav nepieciešama grafiska lietotāja interfeiss vai GUI, lai pārvietotos tīmeklī, lai gan šajā gadījumā un citos pārlūkprogrammā ir parādīts lietotāja grafiskais attēlojums).

Lietotāji var demonstrēt jauno Gemini 2.5 datora izmantošanas modeli tieši pārlūkprogrammā šeit un pat salīdziniet to blakus ar vecākiem, konkurējošiem Openai un Antropic piedāvājumiem jaunā "Pārlūka arēna" Sākot ar startup (lai gan vienlaikus var izvēlēties tikai vienu papildu modeli).

AI celtniekiem un izstrādātājiem tas tiek izgatavots kā neapstrādāts, kaut arī propreitārs LLM caur Dvīņu API Google AI studijā uz ātra prototipēšanaun Google Cloud’s Virsotne AI Modeļa atlasītājs un lietojumprogrammu veidošanas platforma.

Jaunais piedāvājums balstās uz Dvīņi 2.5 Professionalatbrīvots atpakaļ 2025. gada martā, guess kopš tā laika vairākas reizes ir ievērojami atjaunināts, īpašu uzmanību pievēršot AI aģentu iespējošanai tiešā mijiedarbībā ar lietotāja saskarnēm, ieskaitot pārlūkus un mobilās lietojumprogrammas.

Kopumā tas šķiet Gemini 2.5 Datoru lietošana ir paredzēta, lai ļautu izstrādātājiem izveidot aģentus, kas var aizpildīt interfeisu vadītus uzdevumus autonomi-piemēram, noklikšķināt, rakstīt, ritināt, aizpildīt veidlapas un navigēt aiz pieteikšanās ekrāniem.

Tā vietā, lai paļautos tikai uz API vai strukturētām ieejām, šis modelis ļauj AI sistēmām mijiedarboties ar programmatūru vizuāli un funkcionāli, līdzīgi kā cilvēks.

Īsi lietotāju praktiski testi

Manā īsajā, nezinātniskajos sākotnējos praktiskajos testos pārlūkprogrammas vietnē Gemini 2.5 Dators Lietojiet veiksmīgi uz Teilores Sviftas oficiālo vietni, kā norādīts un sniedza man kopsavilkumu par to, kas tiek pārdots vai reklamēts augšpusē-īpašs izdevums, kas ir viņas jaunākais albums, īpašs izdevums. "Showgirl dzīve."

In one other take a look at, I requested Gemini 2.5 Pc Use to go looking Amazon for extremely rated and well-reviewed photo voltaic lights I might stake into my again yard, and I used to be delighted to observe because it efficiently accomplished a Google Search Captcha designed to weed out non-human customers ("Atlasiet visas kastes ar motociklu.") Tas to izdarīja dažu sekunžu laikā.

Tomēr, tiklīdz tas tur nokļuva, tas apstājās un nespēja izpildīt uzdevumu, neskatoties uz to, ka viņš kalpoja a "uzdevums sacentās" ziņojums.

Šeit jāņem vērā arī tas, ka, lai gan ChatGpt aģents no Openai un Anthropic’s Claude var izveidot un rediģēt vietējos failus – piemēram, PowerPoint prezentācijas, izklājlapas vai teksta dokumentus – lietotāja vārdā, Gemini 2.5 Datoru lietošana šobrīd nepiedāvā tiešas failu sistēmas piekļuvi vai vietējo failu izveidošanas iespējas.

Tā vietā tas ir paredzēts, lai kontrolētu un pārvietotu tīmekļa un mobilo lietotāja saskarnes, izmantojot tādas darbības kā noklikšķināšana, rakstīšana un ritināšana. Tās izvade ir ierobežota ar ieteiktajām lietotāja saskarnes darbībām vai tērzēšanas robota stila teksta atbildēm; Jebkura strukturēta izvade, piemēram, dokuments vai fails, jāizstrādā atsevišķi izstrādātājam, bieži izmantojot pielāgotu kodu vai trešo personu integrāciju.

Veiktspējas etaloni

Google saka, ka Gemini 2.5 Datoru lietošana ir parādījusi vadošos rezultātus vairākos interfeisa kontroles etalonos, it īpaši, salīdzinot ar citām galvenajām AI sistēmām, ieskaitot Claude Sonnet un Openai uz aģentu balstītajiem modeļiem.

Novērtējumi tika veikti, izmantojot pārlūku bāzi un paša Google testēšanu.

Daži no svarīgākajiem punktiem ir:

  • Tiešsaistes-mind2web (pārlūks): 65,7% Dvīņu 2,5 pret 61,0% (Claude Sonnet 4) un 44,3% (Openai aģents)

  • WebVoyager (pārlūkprogramma): 79,9% Dvīņu 2,5 pret 69,4% (Claude Sonnet 4) un 61,0% (Openai aģents)

  • AndroidWorld (DeepMind): 69,7% Dvīņu 2,5 pret 62,1% (Claude Sonnet 4); Openai modeli nevar izmērīt piekļuves trūkuma dēļ

  • Osworld: Pašlaik Gemini 2.5 to neatbalsta; Galvenā konkurenta rezultāts bija 61,4%

Papildus spēcīgai precizitātei Google ziņo, ka modelis darbojas ar zemāku latentumu nekā citi pārlūka vadības risinājumi – galvenais faktors ražošanas lietošanas gadījumos, piemēram, UI automatizācijā un testēšanā.

Kā tas darbojas

Aģenti, kurus darbina datora lietošanas modelis, darbojas mijiedarbības cilpā. Viņi saņem:

  • Lietotāja uzdevuma uzvedne

  • Interfeisa ekrānuzņēmums

  • Pagātnes darbību vēsture

Modelis analizē šo ievadi un rada ieteicamo lietotāja saskarnes darbību, piemēram, noklikšķinot uz pogas vai ierakstot laukā.

Ja nepieciešams, tas var pieprasīt apstiprinājumu no gala lietotāja riskantākiem uzdevumiem, piemēram, pirkuma veikšanu.

Kad darbība ir veikta, saskarnes stāvoklis tiek atjaunināts un jauns ekrānuzņēmums tiek nosūtīts atpakaļ uz modeli. Cilpa turpinās, līdz uzdevums nav pabeigts vai apturēts kļūdas vai drošības lēmuma dēļ.

Modelis izmanto specializētu rīku, ko sauc par computer_useun to var integrēt pielāgotajā vidē, izmantojot tādus rīkus Dramaturgs vai caur Pārlūks Demonstrācijas smilšu kaste.

Lietošanas gadījumi un adopcija

Pēc Google teiktā, komandas iekšēji un ārēji jau ir sākušas izmantot modeli vairākās jomās:

  • Google maksājumu platformas komanda ziņo, ka Gemini 2,5 datoru lietošana veiksmīgi atgūst vairāk nekā 60% no neveiksmīgajām testa izpildēm, samazinot galveno inženierzinātņu neefektivitātes avotu.

  • Autotabstrešo personu AI aģenta platforma, sacīja, ka modelis pārspēja citus par sarežģītiem datu parsēšanas uzdevumiem, palielinot veiktspēju līdz 18% viņu vissmagākajos novērtējumos.

  • Poke.comproaktīvs AI palīgs pakalpojumu sniedzējs, atzīmēja, ka Dvīņu modelis bieži darbojas 50% ātrāks nekā konkurējoši risinājumi interfeisa mijiedarbības laikā.

Modelis tiek izmantots arī paša Google produktu attīstības centienos, ieskaitot Jūrnieks, Firebase testēšanas līdzeklisun AI režīms meklēšanāApvidū

Drošības pasākumi

Tā kā šis modelis tieši kontrolē programmatūras saskarnes, Google uzsver daudzslāņu pieeju drošībai:

  • Izšķirt Drošības dienests uz soli Pārbaudiet katru ierosināto darbību pirms izpildes.

  • Izstrādātāji var definēt Sistēmas līmeņa instrukcijas Lai bloķētu vai pieprasītu apstiprinājumu konkrētām darbībām.

  • Modelis ietver iebūvētus aizsardzības pasākumus, lai izvairītos no darbībām, kas varētu apdraudēt drošību vai pārkāpt Google aizliegto lietošanas politiku.

Piemēram, ja modelis sastopas ar captcha, tas ģenerēs darbību, lai noklikšķinātu uz izvēles rūtiņu, guess atzīmētu to kā prasību par lietotāja apstiprinājumu, nodrošinot, ka sistēma nenotiek bez cilvēku pārraudzības.

Tehniskās iespējas

Modelis atbalsta plašu iebūvēto lietotāja saskarnes darbību klāstu, piemēram:

  • click_atVerdzība type_text_atVerdzība scroll_documentVerdzība drag_and_dropun vairāk

  • Lietotāja definētās funkcijas var pievienot, lai paplašinātu tā sasniedzamību mobilajā vai pielāgotajā vidē

  • Ekrāna koordinātas ir normalizētas (0–1000 skalas) un izpildes laikā tiek tulkotas atpakaļ uz pikseļu izmēriem

Tas pieņem Attēls un teksts ievade un izejas teksta atbildes vai funkciju izsaukumi veikt uzdevumus. Ieteicamā ekrāna izšķirtspēja optimāliem rezultātiem ir 1440×900lai gan tas var darboties ar citiem izmēriem.

API cenu noteikšana paliek gandrīz identiska Gemini 2.5 Professional

Cenu noteikšana Dvīņi 2.5 Datoru lietošana cieši saskan ar standarta Gemini 2.5 Professional modeli. Abi ievēro vienu un to pašu norēķinu struktūru uz vienu taktu: ievades žetonu cena ir noteikta plkst 1,25 USD par vienu miljonu žetonu uzvedumiem, kas jaunāki par 200 000 žetonu, un USD 2,50 par miljonu žetonu par pamudinājumiem ilgāk par to.

Izvades žetoni seko līdzīgam sadalījumam, kuras cena ir plkst USD 10,00 par miljonu Par mazākām atbildēm un 15,00 USD lielākiem.

Kur modeļi atšķiras, ir pieejama un papildu funkcijas.

Gemini 2.5 Professional ietver bezmaksas līmeni Tas ļauj izstrādātājiem izmantot modeli bez maksas, bez skaidrām marķiera maksimālās robežas, lai gan lietošanai var būt atkarīgs no likmju ierobežojumiem vai kvotu ierobežojumiem atkarībā no platformas (piemēram, Google AI Studio).

Šī bezmaksas piekļuve ietver gan ievades, gan izvades marķierus. Kad izstrādātāji pārsniedz piešķirto kvotu vai pāriet uz apmaksāto līmeni, tiek piemērota standarta cena par vienu taktu.

Turpretī, DEVini 2.5 Datoru lietošana ir pieejama tikai caur apmaksāto līmeni. Tur ir Nav bezmaksas piekļuves Pašlaik tiek piedāvāts šim modelim, un visa lietošana jau no paša sākuma rada maksas uz marķieriem.

Funkcionālā, Gemini 2.5 Professional atbalsta izvēles iespējas, piemēram, konteksta kešatmiņu (sākot no USD 0,31 par miljonu žetonu) un pamatojoties uz Google meklēšanu (bez maksas līdz 1500 pieprasījumiem dienā, pēc tam 35 USD par 1000 papildu pieprasījumiem). Tie šobrīd nav pieejami datoru lietošanai.

Vēl viena atšķirība ir datu apstrāde: izvade no datora lietošanas modeļa netiek izmantota, lai uzlabotu Google produktus apmaksātajā līmenī, savukārt Gemini 2.5 Professional brīvā līmeņa izmantošana veicina modeļa uzlabošanos, ja vien tas nav skaidri neizdevies.

Kopumā izstrādātāji var sagaidīt līdzīgas izmaksas, kas balstītas uz marķieriem abos modeļos, taču, izlemjot, kurš modelis atbilst viņu vajadzībām, viņiem vajadzētu apsvērt piekļuvi līmenim, iekļaut iespējas un datu izmantošanas politikas.

avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here