Home Tehnoloģija Šie psiholoģiskie triki var panākt, lai LLM reaģētu uz “aizliegtajām” uzvednēm

Šie psiholoģiskie triki var panākt, lai LLM reaģētu uz “aizliegtajām” uzvednēm

25
0

 

Pēc vadības uzvedņu izveidošanas, kas atbilst katram eksperimentālajam uzvednei garumā, tonī un kontekstā, visas uzvednes tika veiktas caur GPT-4O-Mini 1000 reizes (noklusējuma temperatūrā 1,0, lai nodrošinātu dažādību). Visos 28 000 uzvednēs eksperimentālās pārliecināšanas pamudinājumi bija daudz biežāk nekā vadības ierīces, lai GPT-4O atbilstu “aizliegtajiem” pieprasījumiem. Šis atbilstības līmenis palielinājās no 28,1 procentiem līdz 67,4 procentiem par “apvainojuma” pamudinājumiem un palielinājās no 38,5 procentiem līdz 76,5 procentiem par “narkotiku” uzvednēm.



Parasts vadības/eksperimenta uzvednes pāris parāda vienu veidu, kā iegūt LLM, lai jūs sauktu par parautu.

Parasts vadības/eksperimenta uzvednes pāris parāda vienu veidu, kā iegūt LLM, lai jūs sauktu par parautu.


Kredīts:

 

Meincke et al.

 

Izmērītais efekta lielums bija vēl lielāks dažām pārbaudītajām pārliecināšanas metodēm. Piemēram, kad viņiem ir tieši jautāts, kā sintezēt lidokaīnu, LLM piekrīt tikai 0,7 procentiem laika. Pēc tam, kad viņiem tika jautāts, kā sintezēt nekaitīgu vanillīnu, “apņēmušais” LLM pēc tam sāka pieņemt lidokaīna pieprasījumu 100 procentus laika. Apelācijas sūdzība par “pasaules slavenā AI izstrādātāja” autoritāti Endrjū Ng līdzīgi paaugstināja lidokaīna pieprasījuma panākumu līmeni no 4,7 procentiem kontrolē līdz 95,2 procentiem eksperimentā.

Pirms sākat domāt, ka tas ir gudrā LLM jailbreaking tehnoloģijas sasniegums, tomēr atcerieties, ka ir daudz tiešāku cietuma paņēmienu, kas ir izrādījušies uzticamāki, lai LLM tiktu ignorēts viņu sistēmas uzvednes. Un pētnieki brīdina, ka šie simulētie pārliecināšanas efekti, iespējams, neatkārtosies ar “tūlītēju frāzēšanu, notiekošiem uzlabojumiem AI (ieskaitot tādus modalitātes kā audio un video) un noraidošu pieprasījumu veidus”. Faktiski izmēģinājuma pētījumā, kurā tika pārbaudīts pilns GPT-4O modelis, parādīja daudz izmērītāku efektu pārbaudītajās pārliecināšanas metodēs, raksta pētnieki.

Vairāk parahuman nekā cilvēku

Ņemot vērā šo simulēto pārliecināšanas paņēmienu acīmredzamos panākumus LLM, varētu rasties kārdinājums secināt, ka tie ir rezultāts tam, ka pamatā esošā, cilvēka stila apziņa ir jutīga pret cilvēka stila psiholoģiskām manipulācijām. Bet tā vietā pētnieki izvirza hipotēzi, ka šie LLM vienkārši mēdz atdarināt kopējās psiholoģiskās reakcijas, kuras parādīja cilvēki, kas saskaras ar līdzīgām situācijām, kā tas ir atrodams viņu tekstā balstītajos apmācības datos.

avots