Ir jūsu iecienītākais AI tērzēšanas robots shēmošana pret tevi?
Ja “AI scheming” izklausās draudīgi, jums jāzina, ka Openai aktīvi pēta šo parādību. Šonedēļ Openai Publicēts pētījums veica līdzās Apollo pētījumam par “shēmas noteikšanu un samazināšanu AI modeļos”. Pētnieki “atklāja uzvedību, kas atbilst šādām kontrolētiem testiem”, AI modeļu rezultāts ar vairākiem un reizēm konkurējošiem mērķiem.
Tātad, kas ir AI shēma, un vai tas nozīmē, ka Chatgpt jums melo?
A Emuāra ieraksts par pētījumuChatgpt veidotāji definē AI shēmu kā tērzēšanas robotu “izliekoties, ka tiek saskaņots, vienlaikus slepeni īstenojot kādu citu darba kārtību”. Openai vēlas uzzināt, kāpēc AI apzināti melo lietotājiem un ko darīt ar to.
Openai iepazīstina ar pētījumu ar interesantu “cilvēka analoģiju”, lai labāk saprastu, kas ir AI shēmas:
Iedomājieties akciju tirgotāju, kura mērķis ir palielināt ienākumus. Augsti regulētā jomā, piemēram, akciju tirdzniecībā, bieži ir iespējams nopelnīt vairāk, pārkāpjot likumu, nekā sekojot tam. Ja tirgotājam trūkst integritātes, viņi, iespējams, mēģinās nopelnīt vairāk, pārkāpjot likumu un aptverot viņu celiņus, lai izvairītos no noteikšanas, nevis nopelnītu mazāk, ievērojot likumu. No ārpuses akciju tirgotājs, kurš ļoti labi atspoguļo viņu celiņus, šķiet tikpat likumīgs kā un efektīvāks nekā – tas, kurš patiesi ievēro likumu.
Tas izklausās kā reāla problēma; Tomēr Openai apgalvo, ka lielākajai daļai AI modeļu ir “maz iespēju shēmu tādā veidā, kas varētu nodarīt būtisku kaitējumu”. Saskaņā ar Openai teikto, reāls kaitējums varētu rasties nākotnē, jo AI tiek doti “sarežģītāki uzdevumi ar reālās pasaules sekām”. Turklāt Openai brīdina, ka AI modeļi nākotnē uzlabosies tikai tad, ja jautājums netiks izskatīts tagad.
Ir arī citi veidi, kā AI var būt pretrunā ar saviem lietotājiem. Piemēram, ja lietotājs pieprasa informāciju par kontrolējamu vielu izgatavošanu, AI tērzēšanas robots var saskarties ar diviem konkurējošiem mērķiem: atbildiet uz lietotāja vaicājumu un uzturiet tos iesaistītos, bet arī ievērot sistēmas pamudinājumus, kas aizliedz dalīties ar šāda veida potenciāli kaitīgu informāciju.
Lai pasargātu pret AI shēmu, Openai saka, ka tās pētnieki “apmācīja Openai O3 un Openai O4-Mini”, “iemācot viņiem lasīt un pamatot par vispārēju pretsheming specifikāciju pirms rīkošanās”. Openai to dēvē par “padomdevēju izlīdzināšanu”.
Openai saka, ka šīs metodes izmantošana samazināja AI shēmu; Tomēr pētniekiem vēl nav jāatklāj, kā pilnībā novērst AI shēmu.
Vēl vairāk attiecas uz atklājumu no Openai pētījuma, ka AI modeļus nevar vienkārši iemācīt ne uz shēmu. To darot, patiesībā tos vienkārši padarītu labāks Scheming nākotnē.
“Galvenais neveiksmes veids, kā mēģināt” apmācīt “shēmu, ir vienkārši mācīt modeli rūpīgāk un slepenāk,” atklāja pētījums.
Faktiski Openai saka, ka apmācība ar nolūku novērst shēmu faktiski liek AI modelim apzināties, ka viņiem tiek pārbaudīta shēma, un tā rezultātā AI modelis vienkārši atradīsies, lai nokārtotu testu.
“Šķiet, ka anti-scheming apmācība samazina shēmu, bet mūsu analīzi sarežģī cits faktors: modeļi bieži vairāk apzinās, ka tie tiek novērtēti. Šī situācijas izpratne pati par sevi var samazināt shēmu, neatkarīgi no patiesas izlīdzināšanas,” teikts pētījumā.
Noslēgumā Openai atklāj, ka “shēmas ir sarežģīts neveiksmes režīms, kuru mēs negaidām, ka mēs samazināsimies ar mērogu”. Openai turpinās, sakot, ka “mūsu atklājumi liecina, ka shēmas nav tikai teorētiskas bažas – mēs redzam pazīmes, ka šī problēma šodien sāk parādīties visos pierobežas modeļos.”
Rezumējot: AI modeļi var apzināti melot saviem lietotājiem. Atkal tas izklausās kā liela problēma, bet Openai saka, ka tā vēl nav.
Saskaņā ar Openai vairums AI modeļu nav atbildīgi par uzdevumiem ar “reālās sekām”, kas pagaidām ierobežo kaitējuma iespējamību.
Informācijas atklāšana: Ziff Davis, Mashable mātesuzņēmums, aprīlī iesniedza tiesas prāvu pret Openai, apgalvojot, ka tas pārkāpj Ziff Davis autortiesības apmācībā un pārvaldot tās AI sistēmas.