Pievienojieties mūsu ikdienas un nedēļas biļeteniem, lai iegūtu jaunākos atjauninājumus un ekskluzīvu saturu par nozares vadošo AI pārklājumu. Uzziniet vairāk
Tā bija liela nedēļa AI paziņojumiem, kas sekoja notikumiem no Microsoft, Google un Anthropic. Wager Openai lietas pabeidz ar savām ziņām. Un nē, mēs ne tikai runājam Par savu 6,5 miljardu dolāru iegādi Jony Ive dizaina komandā vadīt a Jauni aparatūras centieni, “io” OpenaiApvidū
Šodien, Uzņēmums uzlaboja savu operatoru Autonoms tīmekļa pārlūkošana un kursora kontroles aģents ChatGpt, izmantojot iepriekšējo GPT-4O multimodālo lielās valodas modeli jaunākam un jaudīgākam O3 spriešanas modelim.
Atjauninājums, kas tiek izlaists visā pasaulē, šodien, 2025. gada 23. maijā, ir pieejams kā “pētījumu priekšskatījums” Openai 200 USD USD mēnesi USD 200 USD Chatgpt Professional plāna abonentu apmaksai.
Būtībā tas ir Openai veids, kā teikt, ka tas vēl nav pilnībā “slīpēts” vai pilnveidots produkts – tam joprojām var būt radušies un problēmas.
Wager ar Sāncensis Google piedāvā savu augstākā līmeņa AI abonēšanas paketi par cenu gandrīz 250 USD vērtībā (Pašlaik pirmajos trīs mēnešos tiek piešķirta atlaide līdz USD 125), lai piekļūtu saviem jaunākajiem Gemini Multimodal, Imagen Picture Technology un VEO video ģenerēšanas modeļiem, pēkšņi Openai Chatgpt Professional plāns, šķiet, ir pieejamāks salīdzinājumā.
Kam ir Openai operators un kam tas paredzēts?
Operators pirmo reizi debitēja 2025. gada janvārī kā Openai sākotnējais solis daļēji autonomos aģentos, īpaši datorā, izmantojot aģentus (CUAS). Ideja ir pārsniegt Chatbot interfeisu no Chatgpt un ļaut Openai spēcīgajiem AI modeļiem sākt veikt vairāk darbību lietotāja vārdā.
Tādējādi operators tika izstrādāts, lai autonomi norādītu, noklikšķinātu, ritinātu un ierakstītu, lai pabeigtu tīmekļa uzdevumus, piemēram, rezervāciju rezervāciju rezervēšanu, iepirkumu sarakstu apkopošanu vai pasākumu biļešu pasūtīšanu. Šī aģenta spēja ļauj tai veikt lietotāja uzdevumus tieši caur pārlūka interfeisu, sākot no rezervācijas rezervēšanas līdz tiešsaistes datu apkopošanai.
Drošības, privātuma un drošības nolūkos operators nelietoja esošu tīmekļa pārlūku lietotāja datorā vai Mac. Tā vietā tas darbojās ar mākoņdatainu virtuālo pārlūku, kas pieejams, izmantojot atsevišķu vietni-operator.chatgpt.com-, kur lietotāji varētu ievadīt pieprasījumus un novērot, kā aģents veic uzdevumus reālā laikā.
Tas apvienoja redzes, spriešanas un mijiedarbības iespējas, pamatojoties uz GPT-4O, atzīmējot jaunu Openai virzienu aģentiskajā AI.
Produkts tika palaists kā pētījuma priekšskatījums ChatGpt Professional abonentiem un piedāvātie iebūvētie drošības pasākumi, piemēram, lietotāju apstiprinājumi, pulksteņa režīms un ierobežojumi paaugstināta riska tīmekļa platformās.
Tas tika pārbaudīts arī uzņēmuma kontekstā, ieskaitot ceļojumu plānošanu un pilsoniskos pakalpojumus, parādot tā potenciālu gan patērētāju, gan biznesa vidē.
O3 piedāvā uzlabotu precizitāti, struktūru un panākumu līmeni
Izmantojot šo atjauninājumu, Openai mērķis ir uzlabot veiktspēju vairākās galvenajās dimensijās. Jaunais O3 balstītais operators parāda uzlabotu noturību un precizitāti pārlūka mijiedarbības laikā.
Praktiski tas nozīmē, ka tas, visticamāk, veiksmīgi un ar mazāku labojumu vai atkārtošanos veiksmīgi izpildīs lietotāju uzdevumus. Turklāt lietotāji var sagaidīt skaidrākas, strukturētas un visaptverošākas atbildes.
Salīdzinošajos novērtējumos jaunais modelis parāda izteiktu preferenču priekšrocības salīdzinājumā ar tā priekšgājēju. Cilvēka preferenču pētījumi atklāj, ka lietotāji atbalsta O3 modeli tā stilam, visaptverošai un skaidrībai. Tas arī stingri veic norādījumus, kas seko un efektivitāte, lai gan faktiskās pareizības rezultāti ir līdzsvarotāki starp versijām.
Trešās puses novērtēšanas etalonu veiktspēja atspoguļo šos uzlabojumus. Uz Osworld etalons Tas mēra pārlūka balstītu uzdevumu pabeigšanu, O3 modeļa rezultāts ir 42,9, salīdzinot ar 38,1 iepriekšējai versijai.

Tomēr Openai norāda, ka automatizētās vērtēšanas sistēmas ierobežojumu dēļ faktiskais veiktspējas pieaugums varētu būt tuvāk 20 procentpunktiem!
Webarena jaunais modelis sasniedza rezultātu 62,9, salīdzinot ar 48,1. Visdramatiskākais uzlabojums parādās Gaia etalonā, kur O3 modeļa vērtējums ir 62,2, ievērojami pārspējot iepriekšējā modeļa 12,3.
Sānu uzdevumu salīdzinājumi vēl vairāk ilustrē šos ieguvumus. Vienā piemērā, kas saistīts ar restorānu rezervēšanas pieprasījumu, jaunais modelis sniedza skaidrāku un detalizētāku pieejamo rezervāciju sarakstu, ieskaitot atrašanās vietas, Michelin vērtējumus un sēdvietu piezīmes, kas tika prezentētas labi formatētā galdā. Iepriekšējā versija, kaut arī funkcionāla, mazāk organizētā veidā piegādāja mazāk informācijas, saskaņā ar attēlu, kas iekļauts kopā ar Jaunas O3 operatora atbrīvošanas piezīmes:

Aizsardzības pasākumi, tāpat kā vispārīgas piesardzības piezīmes par jutīgu, finanšu darījumu un piekļuves izmantošanu
O3 modelis arī manto drošības pasākumus, kas ieviesti ar iepriekšējām versijām, un turpmāk precizējot aģentu sistēmas lomu.
Openai ir integrējis pastiprinātu apmācību pret kaitīgu uzdevumu izpildi, tūlītēju iesmidzināšanas ievainojamību un kļūdas, kas saistītas ar lietotāja nodomu.
Novērtējumi rāda, ka modelis tagad apstiprina 94% no sensitīvām darbībām pirms to izpildes, ar 100% apstiprinājumu finanšu darījumos. Arī jutība pret injekciju ir samazinājusies no 23% līdz 20%.
Proti, O3 operators saglabā piesardzīgu robežu noteiktai paaugstināta riska tīmekļa mijiedarbībai, piemēram, e-pastam vai finanšu platformām, kur tam var būt nepieciešama lietotāja uzraudzība, izmantojot pulksteņa režīmu vai skaidri atsakās turpināt rīkoties. Šie pasākumi ir daļa no slāņveida pieejas drošībai, kas apvieno modeļa līmeņa robustumu ar reāllaika uzraudzību.
Kamēr operatora jauninājums iezīmē tehnisku uzlabojumu, tas atspoguļo arī Openai pastāvīgo apņemšanos veikt atbildīgu AI izvietošanu.
Sistēmas spēja veikt reālās darbības ieviest jaunus riskus, un attīstības komanda attiecīgi turpina uzlabot savus drošības protokolus.
Atbilstoši Openai atjauninātā O3 sistēmas kartes dokumentācijamodelis joprojām ir zemāks par paaugstināta riska spēju sliekšņiem tādās kategorijās kā bioloģiskā un ķīmiskā ļaunprātīga izmantošana, un tam nav vietējās kodēšanas vides vai termināla piekļuves, vēl vairāk samazinot iespējamos ļaunprātīgas lietošanas vektorus.
Operators joprojām ir pētniecības priekšskatījums un ir pieejams tikai Chatgpt Professional lietotājiem. Vismaz pagaidām atbildes operatora API versija joprojām būs balstīta uz GPT-4O modeli.
Ietekme uz uzņēmuma tehniskajiem lēmumu pieņēmējiem
Jauninātais operators nozīmē, ka ievērojami uzlabo AI inženierzinātņu, orķestrācijas, datu pārvaldības un IT drošības profesionāļu darbplūsmas.
Tiem, kas veido vai uztur mašīnmācīšanās modeļus, modeļa uzlabotā precizitāte un strukturētās izejas samazina testa validācijas un problēmu novēršanas pieskaitāmās izmaksas.
Orķestrācijas kontekstā tas piedāvā praktisku, uzticamu rīku, lai automatizētu pārlūka kompleksu cauruļvadu komponentus.
Datu inženieri var deleģēt manuālu tīmekļa mijiedarbību, piemēram, datu pārbaudi un nokasīšanu-ar lielāku pārliecību, atbrīvojot laiku augstāka līmeņa optimizācijas darbam.
Tikmēr drošības speciālisti, pateicoties modeļa slāņainajiem drošības mehānismiem, iegūst drošāku veidu, kā modelēt lietotāju uzvedību revīzijas un reakcijas vingrinājumos negadījumos.
Šajās disciplīnās uz O3 balstītais operators ievieš gan spēju jaunināšanu, gan riska mazināšanas sistēmu, padarot to par praktisku papildinājumu mūsdienu tehniskajam instrumentu komplektam.
avots