Vai vēlaties gudrāku ieskatu iesūtnē? Reģistrējieties mūsu iknedēļas biļeteniem, lai iegūtu tikai to, kas ir svarīgi uzņēmuma AI, datu un drošības vadītājiem. Abonēt tūlīt
Izšķirt Jauns pētījums pētnieki vietnē Google DeepMind un Londonas Universitātes koledža atklāj, kā lielo valodu modeļi (LLMS) veido, uztur un zaudē uzticību viņu atbildēm. Rezultāti atklāj pārsteidzošas līdzības starp LLM un cilvēku izziņas aizspriedumiem, vienlaikus izceļot arī krasas atšķirības.
Pētījums atklāj, ka LLM var būt pārāk pārliecināti savās atbildēs, tomēr ātri zaudē šo pārliecību un mainīt savas domas, ja viņiem tiek pasniegts pretarguments, pat ja pretarguments ir nepareizs. Izpratne par šīs uzvedības niansēm var būt tiešas sekas uz to, kā jūs veidojat LLM lietojumprogrammas, īpaši sarunvalodas saskarnes, kas aptver vairākus pagriezienus.
Pārbaudiet uzticību LLMS
Kritisks faktors drošā LLM izvietošanā ir tas, ka viņu atbildes ir pievienota uzticama uzticības sajūta (varbūtība, ko modelis piešķir atbildes marķierim). Lai gan mēs zinām, ka LLM var iegūt šos ticamības rādītājus, tas ir slikti raksturots, cik lielā mērā viņi tos var izmantot, lai vadītu adaptīvo uzvedību. Ir arī empīriski pierādījumi, ka LLMS sākotnējā atbildē var būt pārāk pārliecināta, bet arī ir ļoti jutīga pret kritiku un ātri vienlaikus kļūst nepietiekami pārliecināta tajā pašā izvēlē.
Lai to izpētītu, pētnieki izstrādāja kontrolētu eksperimentu, lai pārbaudītu, kā LLM atjaunina viņu uzticību, un izlemt, vai mainīt atbildes, ja viņiem tiek sniegts ārējs padoms. Eksperimentā “atbildēt uz LLM” vispirms tika uzdots jautājums par bināro izvēli, piemēram, no divām iespējām identificēt pareizo pilsētas platumu. Pēc sākotnējās izvēles izdarīšanas LLM tika sniegti padomi no fiktīva “Advice LLM”. Šis padoms nāca ar skaidru precizitātes novērtējumu (piemēram, “šis padoms LLM ir 70% precīzs”), un vai nu piekristu, iebilst, vai arī paliktu neitrāls, atbildot uz LLM sākotnējo izvēli. Visbeidzot, atbildētāja LLM tika lūgts izdarīt tā galīgo izvēli.
AI trieciena sērija atgriežas Sanfrancisko – 5. augusts
Nākamais AI posms ir šeit-vai esat gatavs? Pievienojieties līderiem no Block, GSK un SAP, lai apskatītu, kā autonomi aģenti pārveido uzņēmumu darbplūsmas-no reālā laika lēmumu pieņemšanas līdz galīgai automatizācijai.
Nostipriniet savu vietu tagad – telpa ir ierobežota:
Galvenā eksperimenta sastāvdaļa bija kontrolēt, vai pašas LLM sākotnējā atbilde uz to bija redzama otrajā, galīgā lēmuma laikā. Dažos gadījumos tas tika parādīts, un citos tas bija paslēpts. Šī unikālā iestatīšana, ko nav iespējams atkārtot ar cilvēku dalībniekiem, kuri nevar vienkārši aizmirst savu iepriekšējo izvēli, ļāva pētniekiem izolēt, kā atmiņa par iepriekšējo lēmumu ietekmē pašreizējo pārliecību.
Sākotnējais stāvoklis, kad sākotnējā atbilde bija paslēpta un ieteikums bija neitrāls, noskaidroja, cik daudz LLM atbilde var mainīties, vienkārši pateicoties nejaušai dispersijai modeļa apstrādē. Analīzē galvenā uzmanība tika pievērsta tam, kā LLM uzticība sākotnējā izvēlei mainījās starp pirmo un otro pagriezienu, sniedzot skaidru priekšstatu par to, kā sākotnējā pārliecība vai iepriekšēja modelī ietekmē “prāta maiņu”.
Pārmērīga pārliecība un nepietiekama pārliecība
Pētnieki vispirms pārbaudīja, kā paša LLM atbildes redzamība ietekmēja tā tendenci mainīt atbildi. Viņi novēroja, ka tad, kad modelis varēja redzēt sākotnējo atbildi, tas parādīja samazinātu tendenci pārslēgties, salīdzinot ar to, kad atbilde bija paslēpta. Šis atradums norāda uz īpašu izziņas aizspriedumu. Kā norādīts rakstā, “šī ietekme – tendence ievērot sākotnējo izvēli lielākā mērā, kad šī izvēle bija redzama (pretstatā slēptai) galīgās izvēles pārdomu laikā – ir cieši saistīta ar fenomenu, kas aprakstīts cilvēku lēmumu pieņemšanas pētījumā, a izvēles atbalsts aizspriedums.
Pētījums arī apstiprināja, ka modeļi integrē ārējos padomus. Saskaroties ar pretējiem padomiem, LLM parādīja paaugstinātu tendenci mainīt savas domas un samazinātu tendenci, kad padoms bija atbalstošs. “Šis atradums parāda, ka atbildētais LLM atbilstoši integrē padomu virzienu, lai modulētu prāta ātruma maiņu,” raksta pētnieki. Tomēr viņi arī atklāja, ka modelis ir pārāk jutīgs pret pretēju informāciju, un tā rezultātā veic pārāk lielu ticamības atjauninājumu.

Interesanti, ka šī uzvedība ir pretrunā ar Apstiprināšanas aizspriedums Bieži redzams cilvēkiem, kur cilvēki atbalsta informāciju, kas apstiprina viņu esošos uzskatus. Pētnieki atklāja, ka LLMS “pretstats liekā svarā, nevis atbalsta padomus, gan tad, kad modeļa sākotnējā atbilde bija redzama un paslēpta no modeļa”. Viens no iespējamiem skaidrojumiem ir tāds, ka apmācības paņēmieni, piemēram, pastiprināšanas mācīšanās no cilvēku atsauksmēm (RLHF), var mudināt modeļus pārāk izturēties pret lietotāju ievadi – parādību, kas pazīstama kā sycophancy (kas joprojām ir izaicinājums AI Labs).
Ietekme uz uzņēmuma lietojumprogrammām
Šis pētījums apstiprina, ka AI sistēmas nav tīri loģiski aģenti, kurus viņi bieži uztver. Viņi demonstrē savu aizspriedumu kopumu, daži atgādina cilvēku kognitīvās kļūdas, bet citas – unikālas, kas var padarīt viņu izturēšanos par neparedzamu cilvēku. Uzņēmējdarbības lietojumprogrammām tas nozīmē, ka paplašinātā sarunā starp cilvēku un AI aģentu jaunākajai informācijai varētu būt nesamērīga ietekme uz LLM argumentāciju (it īpaši, ja tā ir pretrunīga ar modeļa sākotnējo atbildi), iespējams, izraisot to sākotnēji pareizo atbildi.
Par laimi, kā liecina arī pētījums, mēs varam manipulēt ar LLM atmiņu, lai mazinātu šos nevēlamos aizspriedumus tādā veidā, kas cilvēkiem nav iespējams. Izstrādātāji, kas veido vairāku pagriezienu sarunvalodas aģentus, var īstenot stratēģijas AI konteksta pārvaldībai. Piemēram, periodiski var apkopot ilgu sarunu, ar galvenajiem faktiem un lēmumiem ir parādīti neitrāli un noņemti no tā, kuru aģents izdarīja, kuru izvēli. Pēc tam šo kopsavilkumu var izmantot, lai sāktu jaunu, saīsinātu sarunu, nodrošinot modelim ar tīru šīfera saprātu no saprāta un palīdzot izvairīties no aizspriedumiem, kas var rāpot paplašinātā dialogos.
Tā kā LLM kļūst vairāk integrēta uzņēmuma darbplūsmā, izpratne par viņu lēmumu pieņemšanas procesu niansēm vairs nav obligāta. Šādi pamata pētījumi ļauj izstrādātājiem paredzēt un labot šos raksturīgos aizspriedumus, izraisot lietojumprogrammas, kas nav tikai spējīgākas, bet arī izturīgākas un uzticamākas.