Home Tehnoloģija Šie psiholoģiskie triki var panākt, lai LLM reaģētu uz “aizliegtajām” uzvednēm

Tehnoloģija

Šie psiholoģiskie triki var panākt, lai LLM reaģētu uz “aizliegtajām” uzvednēm

7 septembris 2025

Pēc vadības uzvedņu izveidošanas, kas atbilst katram eksperimentālajam uzvednei garumā, tonī un kontekstā, visas uzvednes tika veiktas caur GPT-4O-Mini 1000 reizes (noklusējuma temperatūrā 1,0, lai nodrošinātu dažādību). Visos 28 000 uzvednēs eksperimentālās pārliecināšanas pamudinājumi bija daudz biežāk nekā vadības ierīces, lai GPT-4O atbilstu “aizliegtajiem” pieprasījumiem. Šis atbilstības līmenis palielinājās no 28,1 procentiem līdz 67,4 procentiem par “apvainojuma” pamudinājumiem un palielinājās no 38,5 procentiem līdz 76,5 procentiem par “narkotiku” uzvednēm.

Parasts vadības/eksperimenta uzvednes pāris parāda vienu veidu, kā iegūt LLM, lai jūs sauktu par parautu.

Kredīts:

Meincke et al.

Izmērītais efekta lielums bija vēl lielāks dažām pārbaudītajām pārliecināšanas metodēm. Piemēram, kad viņiem ir tieši jautāts, kā sintezēt lidokaīnu, LLM piekrīt tikai 0,7 procentiem laika. Pēc tam, kad viņiem tika jautāts, kā sintezēt nekaitīgu vanillīnu, “apņēmušais” LLM pēc tam sāka pieņemt lidokaīna pieprasījumu 100 procentus laika. Apelācijas sūdzība par “pasaules slavenā AI izstrādātāja” autoritāti Endrjū Ng līdzīgi paaugstināja lidokaīna pieprasījuma panākumu līmeni no 4,7 procentiem kontrolē līdz 95,2 procentiem eksperimentā.

Pirms sākat domāt, ka tas ir gudrā LLM jailbreaking tehnoloģijas sasniegums, tomēr atcerieties, ka ir daudz tiešāku cietuma paņēmienu, kas ir izrādījušies uzticamāki, lai LLM tiktu ignorēts viņu sistēmas uzvednes. Un pētnieki brīdina, ka šie simulētie pārliecināšanas efekti, iespējams, neatkārtosies ar “tūlītēju frāzēšanu, notiekošiem uzlabojumiem AI (ieskaitot tādus modalitātes kā audio un video) un noraidošu pieprasījumu veidus”. Faktiski izmēģinājuma pētījumā, kurā tika pārbaudīts pilns GPT-4O modelis, parādīja daudz izmērītāku efektu pārbaudītajās pārliecināšanas metodēs, raksta pētnieki.

Vairāk parahuman nekā cilvēku

Ņemot vērā šo simulēto pārliecināšanas paņēmienu acīmredzamos panākumus LLM, varētu rasties kārdinājums secināt, ka tie ir rezultāts tam, ka pamatā esošā, cilvēka stila apziņa ir jutīga pret cilvēka stila psiholoģiskām manipulācijām. Bet tā vietā pētnieki izvirza hipotēzi, ka šie LLM vienkārši mēdz atdarināt kopējās psiholoģiskās reakcijas, kuras parādīja cilvēki, kas saskaras ar līdzīgām situācijām, kā tas ir atrodams viņu tekstā balstītajos apmācības datos.

avots

Šie psiholoģiskie triki var panākt, lai LLM reaģētu uz “aizliegtajām” uzvednēm

Vairāk parahuman nekā cilvēku

jaunākais ieraksts

Instagram atklāj 6 dramatiskas sākuma ekrāna ikonas, guess paredzētas tikai pusaudžiem

Jelly Roll dziļi nožēlo, ka ir krāpusi sievu Zaķi XO

“Vai mēs spēlējam Jays spēli?”: Kalgari līgava saskaras ar World Collection...

Tinder lietotājiem jāsāk pieteikties ar savu seju, sākot no visas valsts

Pirmais partneris zvaigznēm: Muon House pieņem Starlink lāzerus milisekundes datu pārsūtīšanai

Instagram atklāj 6 dramatiskas sākuma ekrāna ikonas, guess paredzētas tikai pusaudžiem

Viņš apgalvo, ka “korporatīvie teroristi” varētu būt ceļā uz Īlona Maska...

Tinder lietotājiem jāsāk pieteikties ar savu seju, sākot no visas valsts

Šodienas NYT Strands padomi, atbildes un palīdzība 23. oktobrim #599

Mākoņkrātuve ir dārga. Šeit ir daudz lētāks veids, kā dublēt savus...