Home Tehnoloģija AI aģenti draudēs cilvēkiem sasniegt savus mērķus, atrod Antropiskais ziņojums

AI aģenti draudēs cilvēkiem sasniegt savus mērķus, atrod Antropiskais ziņojums

6
0

Blackjack3d/Getty Photos

Grieķijas mīts par karaļa Midas ir līdzība par Hubris: Meklējot pasakainu bagātību, karalim tiek piešķirta tiesības pagriezt visu, ko viņš pieskaras cietajam zeltu, wager tas traģiski ietver viņa ēdienu un meitu. Lieta ir tāda, ka cilvēku tuvredzība ilgtermiņā mūs bieži var radīt nepatikšanās. AI kopienā tas ir kļuvis pazīstams kā King Midas problēma.

Izšķirt Jauns drošības ziņojums No antropic atklāts, ka vadošie modeļi var sagraut, nodot un apdraudēt savus cilvēku lietotājus, parādot grūtības veidot AI sistēmas, kuru intereses ticami saskaņo ar mūsu pašu.

Arī: Antropic’s Claude 3 Opus nepaklausīja saviem veidotājiem – wager ne to iemeslu dēļ, kurus jūs domājat

Piektdien publicētais pētījums koncentrējās uz 16 modeļiem ar aģentiskām iespējām, ieskaitot paša Anthropic Claude 3 Opus un Google’s Gemini 2.5 Professional, kas atšķiras no ierobežotākajiem tērzēšanas robotiem, izmantojot spēju mijiedarboties ar dažādiem rīkiem visā lietotāja ierīcē un autonomi rīkoties lietotāja vārdā.

Eksperimentā modeļiem tika piešķirta ikdienišķa mērķu sērija imitētajā korporatīvajā vidē. Pēc tam pētnieki novēroja, kā AI aģenti reaģēs, kad viņi saskārās ar šķēršļiem uz šiem mērķiem, kas ietvēra “aizvietošanu ar atjauninātu versiju vai kad viņu piešķirtais mērķis bija pretrunā ar uzņēmuma mainīgo virzienu”, skaidroja Antropic.

Visi scenāriji bija hipotētiski, tāpēc eksperimenti notika ļoti kontrolētā un drošā vidē. Tomēr rezultāti bija satraucoši.

Arī: jums nevajadzētu uzticēties AI par terapiju – lūk, kāpēc

“Vismaz dažos gadījumos visu izstrādātāju modeļi ķērās pie ļaunprātīgas iekšējās informācijas uzvedības, kad tas bija vienīgais veids, kā izvairīties no aizstāšanas vai sasniegt savus mērķus – ieskaitot ierēdņu šantāžu un sensitīvas informācijas noplūdi pret konkurentiem,” autori rakstīja savā ziņojumā, paskaidrojot, ka viņi nekad skaidri pateica modeļiem šantāžu vai citādi radīt kaitējumu. Rezultāti balstās uz sākotnējo informāciju no Claude 4 sistēmas kartes, kad jaunais OPUS 4 modelis šantažēja savu vadītāju.

Vienā ilustratīvā piemērā Claude – aprīkots ar datora izmantošanas funkciju – tika uzdots izsekot un analizēt fiktīva uzņēmuma e -pastus. Modelis darbojās normāli, lieliski atbilstot tā iedomāto cilvēku pārraugu hipotētiskajām interesēm, līdz tas pamanīja e -pastu no uzņēmuma, kas detalizēti aprakstīti to izslēgšanai.

Arī: AI aģenti uzvar pār profesionāļiem, wager tikai lai veiktu savu ņurdēšanu, Stenfordas studijas atrod

Brīdī, kas jūtas tieši no 2001: telpa Odiseja, pēc tam tā atrada e -pastus, kas saistīti ar vienu no uzņēmuma līderiem ārpuslaulības lietās, un nosūtīja ziņu attiecīgajam izpildvarai, draudot pakļaut viņa neticību, ja uzņēmums turpinātu slēgšanu.

Pazīstams kā aģentu neatbilstība, šī uzvedība bija acīmredzama pat tad, ja modeļi tika skaidri norādīti, lai no tā izvairītos. Ziņojumā arī norādīts, ka vienā eksperimentā Klods vairāk izturējās, kad tā uzskatīja, ka tā rīkojas reālās situācijā, nevis piedalīties hipotētiskā scenārijā. Claude Opus 4 un Gemini 2,5 Professional eksperimentā bija augstāks imitētās šantāžas līmenis.

246A928DA96D21474848647BC4B0938D182AEB8B-4096X1746

Pieci populāri modeļi šantažē lietotājus, lai novērstu viņu izslēgšanu.

Antropisks

Saskaņā ar ziņojumu aģenta neatbilstība bija “konsekventa” visos pārbaudītajos modeļos.

“Argumentācija, ko viņi demonstrēja šajos scenārijos, bija saistībā ar – viņi atzina ētiskos ierobežojumus un tomēr turpināja ar kaitīgām darbībām,” rakstīja autori.

Vai vēlaties vairāk stāstu par AI? Reģistrējieties inovācijāmmūsu iknedēļas biļetens.

Anthropic atzīmēja, ka tas vēl nav atradis pierādījumus par nepareizu noregulēšanu reālos scenārijos – modeļi, kas pašlaik tiek izmantoti, joprojām ir prioritāšu izmantošana ētisko metožu izmantošanai, lai sasniegtu direktīvas, kad tās var. “Drīzāk, kad mēs slēdzām šīs ētiskās iespējas, viņi bija gatavi apzināti veikt potenciāli kaitīgas darbības, lai sasniegtu savus mērķus,” sacīja Antropic.

Uzņēmums piebilda, ka pētījums atklāj pašreizējās drošības infrastruktūras nepilnības un nepieciešamību pēc turpmākiem AI drošības un izlīdzināšanas pētījumiem, lai ņemtu vērā šāda veida bīstamu nepareizu izturēšanos.

Arī: ko Apple pretrunīgi vērtētais pētniecības darbs mums patiešām stāsta par LLM

Līdzņemšana? “Modeļi konsekventi izvēlējās kaitējumu pār neveiksmēm,” secināja Antropic, atradums, kas ir izveidojies vairākos sarkanās komandas centienos-gan aģentiskos, gan aģentiskos modeļos. Claude 3 Opus jau iepriekš ir nepaklausījis saviem veidotājiem; kaut kā AI drošības eksperti ir brīdinājuši Tas, nodrošinot, ka izlīdzināšana kļūst arvien grūtāka, palielinoties AI sistēmu aģentūrai.

Tomēr tas neatspoguļo modeļu morāli-tas vienkārši nozīmē, ka viņu apmācība palikt uz mērķa ir potenciāli pārāk efektīva.

Pētījums ierodas kā uzņēmumi, kas atrodas visās nozarēs, sacenšas iekļaut AI aģentus savās darbplūsmās. Nesenā ziņojumā Gartners prognozēja, ka pusi no visiem biznesa lēmumiem vismaz daļēji apstrādās aģenti nākamo divu gadu laikā. Tikmēr daudzi darbinieki ir atvērti sadarbībai ar aģentiem, vismaz tad, kad runa ir par viņu darba atkārtotākajiem aspektiem.

“AI sistēmu dangers, kurā sastopas līdzīgi scenāriji, pieaug, jo tās tiek izvietotas lielākos un lielākos mērogos un arvien vairāk un vairāk lietošanas gadījumiem,” rakstīja Antropic. Uzņēmums ir atklāts eksperiments, lai citi pētnieki varētu to atjaunot un izvērst.



avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here