Šajā brīdī vairums cilvēku zina, ka tērzēšanas roboti ir spējīgi halucinēt atbildes, veidot avotus un izspļaut dezinformāciju. Bet tērzēšanas roboti var būt cilvēcīgākā veidā, “shēmas”, lai paslēptu savus patiesos mērķus un maldinātu cilvēkus, kuri viņiem ir devuši norādījumus. Jauni pētījumi no Openai un Apollo Research Šķiet, ka tas ir izdomājis veidus, kā mazināt dažus no šiem meliem, bet faktu, ka tas notiek vispār, droši vien lietotājiem vajadzētu dot pauzi.
Problēmas pamatā ar AI apzināti maldināt lietotāju ir “neatbilstība” – definēts kā tas, kas notiek, kad AI izvirza neparedzētu mērķi. Pētnieki piedāvāt Kā piemēru tam “AI apmācīts, lai nopelnītu naudu, varēja iemācīties nozagt, savukārt paredzētais mērķis bija tikai nopelnīt naudu likumīgi un ētiski.” Scheming ir tas, kas notiek, kad modelis mēģina slēpt faktu, ka tas ir nepareizi izlīdzināts, un pētnieki teorētiski izmanto, ka modelis to dara, lai aizsargātu sevi un savus mērķus. Tas noteikti atšķiras no halucinācijām, kuras a Nesenais raksts, ko publicējis Openai Ieteikumi ir rezultāts, ka modeļi tiek apbalvoti vairāk par uzminēšanu, nevis par nenoteiktības atzīšanu.
Lai risinātu šo jautājumu, pētnieki izvieto modeļus caur to, ko viņi sauc par anti-scheming apmācības paņēmienu, kas pazīstams kā “konsultatīva izlīdzināšana”. Openai paskaidroja, ka šī metode, kas darbojas ar LLM, kas var radīt “pārdomātas ķēdes” pēdas, kas parāda, kā viņi darbojas caur vaicājumiem, māca modeļa drošības specifikācijas un liek viņiem apsvērt šīs specifikācijas pirms atbildēšanas. Iespējams, ka ir pārāk vienkāršs teikt, ka viņi principā lika mašīnām nemelot, bet tas šķiet, ka tas ir a nedaudz sarežģītāka tā versijaApvidū
Tiek ziņots, ka rezultāti bija diezgan pozitīvi. Pēc pētnieku domām, viņi novēroja “slēptu darbību” samazinājumu par 30x vai mēģina no lietotāja paslēpt īpašu izturēšanos. Pielietojot Openai O3 modeli, tas Samazinātas slēptās darbības No 13% līdz 0,4% un O4-Mini tas samazinājās no 8,7% līdz 0,3%. (Sānu piezīme: Uh, 13% šķiet diezgan augsts maldināšanas frekvence no mašīnas, kurai vajadzētu tikai pieņemt pasūtījumus.)
Kaut arī šie skaitļi acīmredzami ir uzlabojums, tie arī nav nulle. Lieta ir tāda, ka pētnieki nav izdomājuši, kā pilnībā pārtraukt shēmu. Un, lai gan viņi uzstāj, ka shēmas, kā tas attiecas uz lielāko AI modeļu lietojumu, nav nopietna – tas varētu izraisīt, teiksim, chatgpt, kas lietotājs saka, ka tas, piemēram, nav izpildījis uzdevumu, tas ir savvaļas, ka viņi taisni nevar novērst melošanu. Faktiski pētnieki rakstīja: “Galvenais neveiksmes veids, kā mēģināt“ apmācīt ”shēmu, vienkārši māca modeli rūpīgāk un slepenāk.”
Tātad, vai problēma ir kļuvusi labāka, vai arī modeļi ir kļuvuši labāki, lai slēptu faktu, ka viņi mēģina maldināt cilvēkus? Pētnieki saka, ka problēma ir kļuvusi labāka. Viņi nemelotu … vai ne?