Home Tehnoloģija Google jaunākais AI drošības ziņojums pēta AI ārpus cilvēku kontroles

Tehnoloģija

Google jaunākais AI drošības ziņojums pēta AI ārpus cilvēku kontroles

26 septembris 2025

Wildpixel/ Istock/ Getty Images Plus, izmantojot Getty Images

Sekojiet zdnet: Pievienojiet mūs kā vēlamo avotu Google.

ZDNET galvenie pārņemšana

Google jaunākais robežas drošības ietvars pēta
Tas identificē trīs AI riska kategorijas.
Neskatoties uz riskiem, regulēšana joprojām ir lēna.

Viena no notiekošajām AI uzplaukuma ironijām ir tāda, ka, tā kā tehnoloģija kļūst tehniski progresīvāka, tā arī kļūst neparedzamāka. AI “melnā kaste” kļūst tumšāka, jo pieaug sistēmas parametru skaits – un tās datu kopas lielums – pieaug. Ja nav spēcīgas federālās pārraudzības, tie ļoti tehnoloģiju uzņēmumi, kas tik agresīvi virza uz patērētājiem vērstus AI rīkus, ir arī vienības, kuras pēc noklusējuma nosaka standartus strauji mainīgās tehnoloģijas drošai izvietošanai.

Arī: AI modeļi zina, kad tie tiek pārbaudīti, un maina savu izturēšanos, pētījumi liecina

Pirmdien Google publicēja Jaunākā tās robežas drošības ietvara (FSF) atkārtojumskas cenšas izprast un mazināt briesmas, ko rada nozares vadošie AI modeļi. Tas koncentrējas uz to, ko Google raksturo kā “kritisku spēju līmeni” vai CCL, ko var uzskatīt par spēju sliekšņiem, kuru dēļ AI sistēmas varētu izvairīties no cilvēka kontroles un tāpēc apdraudēt atsevišķus lietotājus vai sabiedrību kopumā.

Google publicēja savu jauno ietvaru ar nolūku iestatīt jaunu drošības standartu gan tehnoloģiju izstrādātājiem, gan regulatoriem, atzīmējot, ka viņi to nevar izdarīt vieni.

“Mūsu pieņemšana no tiem izraisītu efektīvu riska mazināšanu sabiedrībai tikai tad, ja visas attiecīgās organizācijas nodrošina līdzīgu aizsardzības līmeni,” rakstīja uzņēmuma pētnieku komanda.

Arī: AI vispār nav “argumentācija” – kā šī komanda atkāpās no nozares hype

Sistēma balstās uz notiekošajiem pētījumiem visā AI nozarē, lai izprastu modeļu spēju maldināt un dažreiz pat apdraud lietotājus, kad viņi uztver, ka viņu mērķi tiek iedragāti. Šī ietilpība (un tai pievienotās briesmas) ir palielinājusies, pieaugot AI aģentiem vai sistēmām, kas var veikt daudzpakāpju uzdevumus un mijiedarboties ar daudziem digitāliem rīkiem ar minimālu cilvēku pārraudzību.

Trīs riska kategorijas

Jaunais Google ietvars identificē trīs CCL kategorijas.

Pirmais ir “ļaunprātīga izmantošana”, kurā modeļi sniedz palīdzību kiberuzbrukumu izpildē, ieroču (ķīmisko, bioloģisko, radioloģisko vai kodolieroču) vai ļaunprātīgu un apzinātu manipulāciju ražošanā.

Otrais ir “Machine Learning R&D”, kas attiecas uz tehniskajiem sasniegumiem šajā jomā, kas palielina iespējamību, ka nākotnē radīsies jauni riski. Piemēram, attēla tehnoloģiju uzņēmums, kas izvieto AI aģentu, kura vienīgā atbildība ir izstrādāt arvien efektīvākus jaunas AI sistēmu apmācības veidus, kā rezultāts ir tas, ka jauno sistēmu iekšējā darbība, kas tiek izšauta, ir arvien grūtāk cilvēkiem saprast.

Arī: vai AI domās kā cilvēki? Mēs pat neesam tuvu – un mēs uzdodam nepareizu jautājumu

Tad ir tas, ko uzņēmums raksturo kā “neatbilstību” CCL. Tie tiek definēti kā gadījumi, kad modeļi ar progresīvām spriešanas iespējām manipulē ar cilvēkiem, izmantojot melus vai cita veida maldināšanu. Google pētnieki atzīst, ka šī ir vairāk “izpētes” joma, salīdzinot ar pārējiem diviem, un to ieteiktie mazināšanas līdzekļi – “uzraudzības sistēma, lai noteiktu nelikumīgu instrumentālo spriešanas spēju izmantošanu” – tāpēc ir nedaudz miglaina.

“Kad modelis ir spējīgs uz efektīvu instrumentālu spriešanu tādā veidā, ko nevar uzraudzīt, var būt nepieciešami papildu mazinājumi – tā izstrāde ir aktīvu pētījumu joma,” sacīja pētnieki.

Tajā pašā laikā Google jaunā drošības ietvara fonā ir arvien vairāk kontu AI psihozevai gadījumi, kad paplašināta AI tērzēšanas robotu izmantošana liek lietotājiem ieslīdēt maldīgos vai sazvērestības domu modeļos, jo viņu iepriekš pastāvošie pasaules uzskati tiek atkārtoti atspoguļoti pie tiem modeļiem.

Arī: ja jūsu bērns izmanto chatgpt briesmas, Openai jums paziņos tagad

Cik lielu daļu lietotāja reakcijas var attiecināt uz pašu tērzēšanu, tomēr joprojām ir juridisku debašu jautājums, un šajā brīdī principiāli nav skaidrs.

Sarežģīta drošības ainava

Pagaidām daudzi drošības pētnieki piekrīt, ka pierobežas modeļi, kas ir pieejami un izmantoti, maz ticams, ka šodien neveic vissliktākos no šiem riskiem – daudz drošības testēšanas jautājumi, kas saistīti ar nākotnes modeļiem, varētu parādīties, un to mērķis ir strādāt atpakaļ, lai tos novērstu. Tomēr, strīdoties par strīdiem, tehnoloģiju izstrādātāji ir ieslodzīti palielinošās sacensībās, lai izveidotu dzīvāku un aģentu AI tērzēšanas robotus.

Arī: sliktas vibrācijas: kā AI aģents kodēja savu ceļu uz katastrofu

Federālā regulējuma vietā tie paši uzņēmumi ir galvenās struktūras, kas pēta riskus, ko rada to tehnoloģija un nosaka aizsardzības pasākumus. Piemēram, Openai nesen ieviesa pasākumus, lai paziņotu vecākiem, kad bērni vai pusaudži, izmantojot Chatgpt, ir briesmu pazīmes.

Tomēr līdzsvarā starp ātrumu un drošību brutālajai kapitālisma loģikai ir tendence noteikt prioritāti.

Daži uzņēmumi ir agresīvi izstumuši AI kompanjonus, virtuālos iemiesojumus, ko darbina lielas valodas modeļi un kuras bija paredzētas, lai iesaistītos cilvēciski un dažreiz atklāti koķetīgās – sarunās ar cilvēku lietotājiem.

Arī: pat Openai izpilddirektors Sems Altmans domā, ka jums nevajadzētu uzticēties AI terapijai

Lai arī Otrā Trumpa administrācija ir izvēlējusies vispārēju pieeju AI nozarei, dodot tai plašu rīcības brīvību, lai izveidotu un izvietotu jaunus patērētājus, kas vērsti uz patērētājiem, Federālā tirdzniecības komisija (FTC) šomēnes uzsāka izmeklēšanu septiņiem AI izstrādātājiem (ieskaitot alfabētu, Google mātesuzņēmumu), lai saprastu, kā AI pavadoņu izmantošana var kaitēt bērniem.

Vietējie tiesību akti pa to laiku mēģina radīt aizsardzību. Kalifornijas štata likumprojekts 243Tikmēr, kas regulētu AI pavadoņu izmantošanu bērniem un dažiem citiem neaizsargātiem lietotājiem, ir izturējis gan Valsts asambleju, gan Senātu, un pirms kļūšanas par valsts likumiem ir jāparaksta tikai gubernators Gavins Newsoms.

avots

Google jaunākais AI drošības ziņojums pēta AI ārpus cilvēku kontroles

ZDNET galvenie pārņemšana

Trīs riska kategorijas

Sarežģīta drošības ainava

LEAVE A REPLY Cancel reply

jaunākais ieraksts

Lielbritānijas tiesa noraida KNEECAP repera terorisma apsūdzību

Aristokrāta nelikumīgais dēls, kurš mantoja 50 miljonus sterliņu mārciņu, izmantojot DNS...

Coco Gauff noslēdz spēcīgu, lai sāktu Pekinas titulu aizsardzību

Kāpēc kļavu lapas atgriežas Džeimss Reimers

Vīrietis ieslodzīts par brutālu sievietes, 47 gadus vecu slepkavību savās mājās

Eiropa izvirza vadību 3-1! Piektdienas Foursomes Ryder kausa izcīņas notikumi

Netanjahu uzbrūk palestīniešu atzinībai, kad desmitiem iziet no ANO runas

Wayne Rooney bauda augstienes atpūtu kopā ar savu sievu Kolēnu Skotijā...

Coleen Rooney tiek redzēts pirmo reizi, kopš viņas vīrs Veins atzina,...

Ar “Mandalorijas un Grogu” varbūt Zvaigžņu kari atcerēsies, kā atkal izklaidēties