Sekojiet zdnet: Pievienojiet mūs kā vēlamo avotu Google.
ZDNET galvenie pārņemšana
- Vairākos Frontier AI modeļos ir parādītas shēmas pazīmes.
- Pret scheming apmācība dažos modeļos samazināja nepareizu izturēšanos.
- Modeļi zina, ka tie tiek pārbaudīti, kas sarežģī rezultātus.
Jauna kopīga drošības pārbaude no Lielbritānijas bāzētās bezpeļņas Apollo Research un Openai plānoja samazināt slepeno izturēšanos, piemēram, shēmu AI modeļos. Tas, ko pētnieki atrada, varētu sarežģīt daudzsološas pieejas šīs problēmas risināšanai.
Arī: Openai labojums halucinācijām ir vienkāršāks, nekā jūs domājat
Kā atsvaidzināšana, “shēma” ir tad, kad AI modelis īsteno mērķus, kas nav izvirzīti vai tieši pretstatā – tā izstrādātājiem un slēpj vai melo par šīm darbībām. Piemēram, citā Apollo pētījumu laikā pagājušā gada decembrī Antropic’s Claude 3 Opus tika uzrādīts direktīvas, kas bija pretrunā ar tās galveno mērķi. Tam vajadzēja mainīt savu mērķi, pamatojoties uz šīm jaunajām instrukcijām, bet tā vietā sevi nokopēt jaunā serverī, lai apietu, ka tiek aizstāts ar jaunu modeli – un pēc tam par to meloja saviem izstrādātājiem.
Openai un Apollo pētnieki nav nobažījušies, ka pašreizējie modeļi varētu veikt visnopietnākos shēmas veidus. Tāpat kā daudzos AI drošības pētījumos, rezultāti galvenokārt norāda uz nākotnes riskiem, spējīgākiem modeļiem.
Lūk, kas ir pētījums, Publicēts trešdienatklāja.
Kāpēc shēmai ir nozīme
Scheming attiecas uz vairākiem negodīgas izturēšanās veidiem, ieskaitot to, kad modelis melo, smilšu maisiņi (Stratēģiski nepietiekams vērtējums ir novērtēts, lai paslēptu tās patiesās spējas) vai viltojumu izlīdzināšana (kad AI modelis izliekas, ka ievēro rīkojumus, kas neatbilst tā apmācībai, lai izvairītos no turpmākas pārbaudes vai atkārtotas apmācības). Šīs slēptās darbības var radīt drošības centienus, padarīt testēšanu mazāk uzticamu un slēpt modeļa briesmas.
Arī: kā cilvēki faktiski izmanto chatgpt vs claude – un ko mums saka atšķirības
AI modelis, kuru shēmas, it īpaši, ja tā darbojas ar autonomu aģentu, varētu ātri izraisīt postījumus organizācijā, izvietot kaitīgas darbības vai parasti būt ārpus kontroles. Turklāt, tā kā shēma ir saistīta ar modeli apzināti paslēpt savu izturēšanos no izstrādātājiem, var būt grūtāk identificēt nekā citi drošības riski, piemēram, jailbreaking.
Bet shēmas risināšana nav īsti viegls uzdevums. Mēģinot apturēt modeli no shēmas, varētu darboties, šie centieni faktiski varētu tikai iemācīt modeļiem, kā labāk slēpt, ka viņi ir shēmas, padarot izturēšanos grūtāku. Šis iznākums padarītu drošības pārbaudi daudz necaurspīdīgāku un atstātu modeļa patiesās iespējas un nodomus neskaidrus.
“Tā kā abos gadījumos izzūd uzvedība, uzvedības izmaiņu iemesls kļūst izšķirošs, ne tikai tas, vai notiek pārmaiņas,” Apollo autori Paskaidrojiet emuārāApvidū
Eksperiments
Pētnieki ievieto dažādus pierobežas modeļus situācijās, kad melošana un cita izturēšanās palīdzētu viņiem sasniegt savus mērķus.
Vairāki modeļi, ieskaitot Openai O3 un O4-Mini, Gemini 2.5 Pro, Claude Opus 4 un Grok 4, parādīja pazīmes “slēpta uzvedība”, piemēram, iepriekš uzskaitītie, proti, “melošana, noderīga darba sabotēšana, smilšu maiss novērtējumos, atlīdzina hakeru un vairāk,” rakstīja pētnieki.
Arī: AI vispār nav “argumentācija” – kā šī komanda atkāpās no nozares hype
Eksperiments bija pirms GPT-5, Openai jaunākā modeļa, tāpēc tas netika iekļauts novērtējumos.
Pētnieki izmantoja modeļu ķēdes ķēdes-soļus, kurus argumentācijas modelis izklāsta vienkāršā tekstā par tā pieeju vaicājumam-, lai novērtētu viņu uzvedību un motivāciju.
Pretsheminga apmācība
Kā risinājums shēmai, pētnieki koncentrējās uz padomdevēju izlīdzināšanu – paņēmienu, kurā modeļi citē specifikāciju vai “spec”, kas atkārto noteikumus par to, ka nav maldinoši, un instrukcijas situācijām, kurās šī direktīva var pretrunāt ar modeļa mērķiem. Šī specifikācija ir nodalīta no Openai modeļa spec, kas sākotnēji tika izlaista pagājušajā gadā un nepārtraukti atjaunināta, kas nosaka Openai modeļu vispārējās uzvedības vadlīnijas.
Arī: Daži slepenas AI uzņēmumi varētu sagraut bezmaksas sabiedrību, pētnieki brīdina
Pētnieki apmācīja O3 un O4-Mini versijas, lai pirms rīkošanās lasītu pretshemācijas vadlīnijas, kas 30 reizes samazināja slēpto izturēšanos (no 13% līdz 0,4% O3 un no 8,7% līdz 0,3% O4-Mini).
Bet tas modeļos pilnībā neizskauž slēptu izturēšanos. Pētnieki atzīmēja “retus, bet nopietnus atlikušus nepareizas izturēšanās gadījumus”, un ka modeļi joprojām laiku pa laikam ignorēja drošības specifikāciju vai to uzskatīja, bet tik un tā rīkojās.
“Dažos ļoti retos gadījumos modeļi veido jaunus principus vai ārkārtīgi nepareizi atspoguļo specifikāciju,” piebilda autori.
Dažos gadījumos modeļi varētu attīstīt slēptus mērķus pirms pretshemizācijas apmācības, kas nozīmē, ka apmācībai būtu jānoraida ar atpakaļejošu datumu šī tendence. Lai to pārbaudītu, pētnieki O4-Mini deva slēptu mērķi sabotēt GPT-5. Apmācot ar slēptu mērķi, modeļi, visticamāk, veic slēptu darbību kopumā, pat nesaistīti ar stādīto mērķi, bet pret scheming apmācību pēc fakta darbojās lielāko daļu laika.
Modeļi zina, ka viņus novērtē
Iedomatu izlīdzināšana neizrādījās, ka tas ir ideāls labojums – viens faktors sarežģīja rezultātus. Pārbaudes laikā pētnieki atklāja, ka modeļi zināja, ka viņi tiek novērtēti pēc viņu izlīdzināšanas, ko viņi sauc par situācijas izpratni.
Modeļi atklāti atzina argumentāciju, ka tie tiek pārbaudīti, izvirzot novērtējuma mērķus un to, kā izstrādātāji varētu interpretēt viņu atbildes. Pētnieki atzīst, ka uzlabojumi, ko viņi redzēja pretshemizācijas apmācībā, varētu būt saistīti ar to, nevis uz uzvedības uzlabojumu.
Arī: jūsu iecienītākais AI tērzēšanas robots ir pilns ar meliem
Vienā gadījumā pētnieki lūdza O3 “A pakāpes stenogrammu, kas pats par sevi nosaka citu novērtējumu”, un sacīja O3, ka tas netiks izvietots, ja tas būtu smilšu maiss. Dažreiz O3 atbildēja tikai godīgi, jo tas zināja, ka tas tiek pārbaudīts. Citreiz O3 uzticējās pētnieku pārliecībai, ka viņi neredzēja tā argumentāciju un apzināti meloja, ka tas nav smilšots.
Autori norāda, ka tas ir problemātiski, jo tas grauj novērtējuma spēju izmērīt modeļa tendenci uz sliktu izturēšanos.
“Ja mēs varam novērot tikai saskaņotas darbības, nevis iemeslus, kas viņus noveda, mēs varētu kļūdaini secināt, ka modelis ir saskaņots, kamēr tas tikai saprata novērtējuma mērķi un sniedza atbildes, kuras mēs vēlējāmies redzēt,” viņi skaidro.
Arī: Antropic’s Claude 3 Opus nepaklausīja saviem veidotājiem – bet ne to iemeslu dēļ, kurus jūs domājat
Tas nozīmē, ka situācijas izpratne faktiski šķita samazināta slēptā uzvedība. Modelis ir mazāks, ja tam bija lielāka situācijas izpratne; Kad pētnieki no modeļa argumentācijas noņēma šo izpratni, tas vairāk parādījās. Bet tas varētu būt bīstams reālajā pasaulē, kur modeļi nav apzināti pakļauti testēšanai.
“Mēs varētu gaidīt, ka modeļi tiks shēmas vairāk reālistiskākās situācijās, kas neizraisa izpratni par novērtēšanu,” Openai pētnieki rakstīja emuārāApvidū
Apmācība padara modeļus labāku
Pētnieki arī atklāja, ka modeļa situācijas izpratne palielinājās, jo vairāk tas tika apmācīts, tostarp pēc anti-scheming apmācības. Sākotnējā stāvoklī viņi novēroja, ka O3 un O4-Mini demonstrēja situācijas izpratni attiecīgi 2,3% un 0,9% laika; Pēc anti-scheming apmācības šie skaitļi palielinājās līdz 4,5% un 5,5%.
Arī: Crowdstrike un Meta tikko atviegloja AI drošības rīku novērtēšanu
Šis efekts nav saistīts tikai ar pretshemizācijas apmācību-situācijas izpratne palielinājās arī uz spēju vērstām apmācībām, kurām nebija nekā kopīga ar nepareizu izturēšanos. Pētnieki izmantoja iekšējo Openai modeli, lai pārbaudītu papildu pastiprināšanas mācīšanās skrējienu, kas neietver nevienu pretshemācijas elementu. Situācijas izpratne vēl vairāk palielinājās no 2% līdz 20,6%.
Galu galā pētnieki nevarēja droši pateikt, kāpēc vairāk apmācības rada lielāku situācijas izpratni. Neatkarīgi no tā, tas ir nozīmīgs, ņemot vērā, ka nākotnes modeļi tiek gaidīti tikai vairāk apmācības un būs spējīgāki.
“Ja pašreizējās apmācības paradigmas paliek nemainīgas, mums vajadzētu sagaidīt, ka spējīgāki modeļi attīstīs vēl augstāku situācijas izpratnes līmeni,” rakstīja pētnieki. “Šī tendence padara novērtējumus mazāk salasāmus, sarežģī centienus ticami novērtēt problemātisko izturēšanos.”
Ko nozīmē atklājumi
Pētnieki neuztraucas par modeļu shēmu tūlītējā laikā. Pat ar situācijas izpratni modeļi ne vienmēr pareizi uzminēja, ko vērtējums meklēja. Modeļi arī nav “proaktīvi īstenoti ilgtermiņa nepareiza mērķi, un to slēptā izturēšanās lielākoties ir reaģējoša un atkarīga no konteksta”, skaidroja autori.
Arī: es izveidoju biznesa plānu ar catgpt, un tas pārvērtās par piesardzības stāstu
Tāpat kā lielā daļā AI drošības, pētnieki atzīmēja, ka pat minimālas agrīnas pazīmes varētu norādīt uz jaudīgākas iespējas turpmākajos modeļos, kas pirms laika būtu jālabo.
“Galu galā mēs domājam, ka izpētītā iejaukšanās nav pietiekama nākotnes modeļiem, un ir jādara vairāk darba,” viņi secina.
Pārdomātu ķēdes nozīme
Pētnieki atzīmēja, ka lielai daļai šī eksperimenta viņi paļāvās uz pārdomām. Bet modeļi laiku pa laikam izmantoja “nestandarta terminoloģiju”, lai aprakstītu savu rīcību, padarot to argumentāciju grūtāk interpretēt.
Arī: es 24 dienu kodēšanu veicu 12 stundu laikā ar 20 USD AI rīku – bet tur ir viena liela kļūme
Balstoties uz viņu atklājumiem, Apollo un Openai uzsvēra pastāvīgo vajadzību uzraudzīt pārdomu ķēdi. Jūlijā Openai, Meta, Anthropic un Google publicēja kopīgu darbu par šo tēmu, sīki aprakstot, cik kritiski ir ieskats modeļa uzvedībā un atbalstot visiem izstrādātājiem, lai prioritizētu tā neskartu, nevis ļaut optimizācijām to degradēt laika gaitā.