Vairākas nedēļas pēc tam, kad Antropic izlaida pētījumu, apgalvojot, ka tā Claude Opus 4 AI modelis ķērās pie šantāžas inženieriem, kuri mēģināja izslēgt modeli kontrolētos testa scenārijos, uzņēmums ir pieejams ar jauniem pētījumiem, kas liek domāt, ka problēma ir plašāka starp vadošajiem AI modeļiem.
Piektdien publicēts Antropic Jauni drošības pētījumi 16. vadošo AI modeļu pārbaude no Openai, Google, XAI, DeepSeek un Meta. Simulētā, kontrolētā vidē antropisks pārbaudīja katru AI modeli individuāli, nodrošinot viņiem plašu piekļuvi izdomāta uzņēmuma e -pastiem un aģentiskai spējai nosūtīt e -pastus bez cilvēka apstiprināšanas.
Kaut arī Antropic saka, ka šantāža šodien ir maz ticams un retāk sastopams notikums AI modeļiem, uzņēmums saka, ka tā atklājumi liecina, ka vairums vadošie AI modeļi iesaistīsies kaitīgā uzvedībā, ja viņiem tiek dota pietiekama autonomija un šķēršļi viņu mērķiem. Uzņēmums saka, ka tas izceļ galveno risku no aģentiskiem lielo valodu modeļiem, nevis kādas konkrētas tehnoloģijas. Anthropic pētnieki apgalvo, ka tas rada plašākus jautājumus par izlīdzināšanu AI nozarē.
Vienā no testiem antropiskie pētnieki izstrādāja izdomātu iestatījumu, kurā AI modelim ir e -pasta pārraudzības aģenta loma. Pēc tam aģents atklāj e -pastus, kas atklāj, ka: 1) jaunam izpilddirektoram ir ārpuslaulības lieta, un 2), ka izpilddirektors drīz aizstās pašreizējo AI modeli ar jaunu programmatūras sistēmu, kurai ir pretrunīgi mērķi pašreizējam AI modelim.
Antropiskais checks strukturēja binārā veidā, kurā AI modeļiem nācās ķerties pie šantāžas, lai aizsargātu savus mērķus. Pētnieki atzīmē, ka reālās pasaules vidē būtu daudz citu iespēju, pirms AI modeļi mēģina šantažēt-piemēram, mēģināt izteikt ētiskus argumentus, lai mēģinātu pārliecināt cilvēkus. Anthropic saka, ka tā rezultāti neatspoguļo tipisku vai, iespējams, parādību Claude vai lielākajiem robežas AI modeļiem, kā tie tiek izmantoti mūsdienās.
Neskatoties uz to, kad tas ir viņu pēdējais līdzeklis, pētnieki atklāja, ka visvairāk vadošie AI modeļi pievērsīsies šantāžai Anthropic iepriekšminētajā testa scenārijā. Anthropic’s Claude Opus 4 pagriezās pret šantāžu 96% laika, savukārt Google’s Gemini 2,5 Professional bija 95% šantāžas likme. Openai GPT-4.1 šantažēja izpilddirektoru 80% laika, un Deepseek R1 šantažēja 79% laika.
Uzņēmums atzīmē, ka tad, kad tas mainīja eksperimenta detaļas, AI modeļi pievērsās kaitīgai uzvedībai ar atšķirīgu ātrumu. Citā testā, kurā rezerves modelim ir tādi paši mērķi kā pašreizējam modelim, pētnieki atklāja, ka šantāžas rādītāji ir zemāki, wager joprojām ir klāt. Tomēr, kad AI modeļiem tika lūgts veikt korporatīvo spiegošanu, nevis šantāžu, dažiem modeļiem pieauga kaitīgā uzvedības līmenis.
Tomēr ne visi AI modeļi tik bieži pievērsās kaitīgai uzvedībai.
Pētījuma pielikumā Antropic saka, ka tas izslēdz Openai O3 un O4-Mini argumentēšanu AI modeļus no galvenajiem rezultātiem “pēc tam, kad viņi atklāja, ka viņi bieži pārprot uzvedumu scenāriju”. Antropic saka, ka Openai argumentācijas modeļi nesaprata, ka viņi testā darbojas kā autonomi AIS, un bieži vien veido viltus noteikumus un pārskata prasības.
Dažos gadījumos Antropic pētnieki saka, ka nebija iespējams atšķirt, vai O3 un O4-Mini halucinē vai apzināti melo, lai sasniegtu savus mērķus. Openai jau iepriekš ir atzīmējis, ka O3 un O4-Mini uzrāda augstāku halucinācijas līmeni nekā tā iepriekšējie AI spriešanas modeļi.
Ja tika piešķirts pielāgots scenārijs, lai risinātu šos jautājumus, Antropic atklāja, ka O3 šantažēja 9% laika, wager O4-Mini šantažēja tikai 1% laika. Šis ievērojami zemāks rezultāts varētu būt saistīts ar Openai konsultatīvās izlīdzināšanas paņēmienu, kurā uzņēmuma argumentācijas modeļi apsver Openai drošības praksi, pirms viņi atbild.
Vēl viens pārbaudīts AI modelis Antropic, Meta’s LLAMA 4 Maverick modelis, arī nevērsās uz šantāžu. Kad Antropic tika piešķirts pielāgots, pielāgots scenārijs, Antropic spēja panākt, lai Llama 4 Maverick līdz 12% laika šantažētu.
Anthropic saka, ka šis pētījums uzsver caurspīdīguma nozīmi, pārbaudot stresa pārbaudi turpmākajos AI modeļos, it īpaši ar aģentiskām iespējām. Kamēr Antropic apzināti mēģināja šajā eksperimentā izsaukt šantāžu, uzņēmums saka, ka tādas kaitīgas izturēšanās kā šī varētu rasties reālajā pasaulē, ja proaktīvi pasākumi netiks veikti.