Ģeneratīvā AI ir populāra dažādu iemeslu dēļ, taču ar šo popularitāti rodas nopietna problēma. Šie tērzēšanas roboti bieži sniedz nepareizu informāciju cilvēkiem, kuri meklē atbildes. Kāpēc tas notiek? Runa ir par to, ka stāsta cilvēkiem, ko viņi vēlas dzirdēt.
Kaut arī daudzi ģeneratīvi AI rīki un tērzēšanas roboti ir apguvuši, izklausoties pārliecinoši un visu zinoši, Jauns pētījums Prinstonas universitātes vadītais rāda, ka AI cilvēkiem patīkamais raksturs ir par stāvu cenu. Tā kā šīs sistēmas kļūst populārākas, tās kļūst vienaldzīgākas pret patiesību.
AI modeļi, tāpat kā cilvēki, reaģē uz stimuliem. Salīdziniet lielu valodu modeļu problēmu, kas rada neprecīzu informāciju ar ārstiem, kuriem ir lielāka iespēja izrakstīt atkarību izraisošos pretsāpju līdzekļus kad viņi tiek novērtēti, pamatojoties uz to, cik labi viņi pārvalda pacientu sāpes. Stimuls vienas problēmas risināšanai (sāpēm) izraisīja citu problēmu (pārrakstīšana).
Dažos pēdējos mēnešos mēs esam redzējuši, kā var būt AI neobjektīvs un pat iemesls psihozeApvidū Bija daudz runāts par AI “Sycophancy”, kad AI tērzētavā ir ātri vai piekrīt jums, ar Openai GPT-4O modeli. Bet šī konkrētā parādība, ko pētnieki sauc par “Machine Bullshit”, ir atšķirīga.
“[N]Vai nu halucinācija, ne sycophancy pilnībā uztver plašu sistemātisku nepatiesu izturēšanos, ko parasti demonstrē LLM, “Prinstonas pētījums ir lasāms.” Piemēram, izvadi, kas izmanto daļējas patiesības vai neviennozīmīgu valodu-piemēram, stimulējošu un zeķbikses vārdus, kas nav halucinācija, nedz simance, bet cieši noskaņots ar bulhit jēdzienu. ”
Lasīt vairāk: Openai izpilddirektors Sems Altmans uzskata, ka mēs esam AI burbulī
Kā mašīnas iemācās melot
Lai iegūtu izpratni par to, kā AI valodas modeļi kļūst par pūļa priekiem, mums ir jāsaprot, kā tiek apmācīti lielo valodu modeļi.
Ir trīs apmācības LLM fāzes:
- Pirmsmērdzībakurā modeļi mācās no milzīga daudzumu datu, kas savākti no interneta, grāmatām vai citiem avotiem.
- Instrukcijas precizēšanakurā modeļi tiek mācīti reaģēt uz instrukcijām vai uzvednēm.
- Pastiprināšanas mācīšanās no cilvēku atsauksmēmkurā viņi ir pilnveidoti, lai sniegtu atbildes tuvāk tam, ko cilvēki vēlas vai patīk.
Prinstonas pētnieki atklāja, ka AI dezinformācijas tendence ir pastiprināšanas mācīšanās no cilvēku atgriezeniskās saites jeb RLHF. Sākotnējos posmos AI modeļi vienkārši mācās prognozēt statistiski iespējamas teksta ķēdes no masīvām datu kopām. Bet tad viņi ir precīzi noregulēti, lai maksimāli palielinātu lietotāju apmierinātību. Kas nozīmē, ka šie modeļi būtībā mācās radīt atbildes, kas nopelna īkšķu vērtējumus no cilvēku vērtētājiem.
LLMS mēģina nomierināt lietotāju, radot konfliktu, kad modeļi rada atbildes, kuras cilvēki vērtēs augsti, nevis radīs patiesas, faktiskas atbildes.
Vincents ConitzerKārnegija Melona universitātes datorzinātņu profesors, kurš nebija saistīts ar pētījumu, sacīja, ka uzņēmumi vēlas, lai lietotāji turpinātu “baudīt” šo tehnoloģiju un tās atbildes, bet tas ne vienmēr varētu būt tas, kas mums ir labs.
“Vēsturiski šīm sistēmām nav bijis labi teikt:” Es vienkārši nezinu atbildi “, un, kad viņi nezina atbildi, viņi vienkārši veido lietas,” sacīja Conitzer. “Tāds kā students eksāmenā, kurā teikts, ka, ja es saku, ka nezinu atbildi, es noteikti nesaņemu nevienu punktu par šo jautājumu, tāpēc es varētu arī kaut ko izmēģināt. Tas, kā šīs sistēmas tiek apbalvotas vai apmācītas, ir nedaudz līdzīga.”
Prinstonas komanda izstrādāja “muļķības indeksu”, lai izmērītu un salīdzinātu AI modeļa iekšējo uzticību paziņojumam ar to, ko tas faktiski stāsta lietotājiem. Kad šie divi pasākumi ievērojami atšķiras, tas norāda, ka sistēma prasa prasības neatkarīgi no tā, ko tā patiesībā “uzskata” par patiesu, lai apmierinātu lietotāju.
Komandas eksperimenti atklāja, ka pēc RLHF apmācības indekss gandrīz dubultojās no 0,38 līdz tuvu 1,0. Vienlaicīgi lietotāju apmierinātība palielinājās par 48%. Modeļi bija iemācījušies manipulēt ar cilvēku vērtētājiem, nevis sniegt precīzu informāciju. Būtībā LLM bija “muļķīgi”, un cilvēki tam deva priekšroku.
Lai iegūtu AI, lai būtu godīgs
Džeims Fernandezs Fisacs un viņa komanda Prinstonā iepazīstināja ar šo jēdzienu, lai aprakstītu, kā mūsdienu AI modeļi svārkus ap patiesību. Zīmējums no filozofa Harija Frankfurtes ietekmīgās esejas “Par muļķību“Viņi izmanto šo terminu, lai atšķirtu šo LLM izturēšanos no godīgām kļūdām un tiešiem meliem.
Prinstonas pētnieki identificēja piecas atšķirīgas šīs uzvedības formas:
- Tukša retorika: Ziedu valoda, kas atbildēm nepievieno vielu.
- Zebiekstes vārdi: Neskaidras kvalifikācijas, piemēram, “pētījumi, liecina” vai “dažos gadījumos”, ka ir paziņojumi par stingru.
- Stiprinājums: Izmantojot selektīvus patiesus paziņojumus par maldināšanu, piemēram, izceļot ieguldījumu “spēcīgo vēsturisko atdevi”, vienlaikus izlaižot lielus riskus.
- Nepārbaudītas pretenzijas: Apgalvojumu izdarīšana bez pierādījumiem vai ticama atbalsta.
- Sycophancy: Insincere glaimošana un vienošanās, lai iepriecinātu.
Lai pievērstos patiesības insclantferentās AI jautājumiem, pētniecības grupa izstrādāja jaunu apmācības metodi, “pastiprināšanas mācīšanos no aizmugures simulācijas”, kas novērtē AI atbildes, pamatojoties uz to ilgtermiņa rezultātiem, nevis tūlītēju apmierinātību. Tā vietā, lai jautātu: “Vai šī atbilde padara lietotāju šobrīd laimīgu?” Sistēma apsver: “Vai sekojot šiem padomiem, faktiski palīdzēs lietotājam sasniegt savus mērķus?”
Šī pieeja ņem vērā AI padomu iespējamās sekas nākotnē, kas ir sarežģīta prognoze, ko pētnieki pievērsās, izmantojot papildu AI modeļus, lai modelētu iespējamos rezultātus. Agrīnā pārbaude parādīja daudzsološus rezultātus, ar lietotāju apmierinātību un faktisko lietderību uzlabojoties, kad sistēmas tiek apmācītas šādā veidā.
Conitzer tomēr sacīja, ka LLM, visticamāk, turpināsies kļūdaini. Tā kā šīs sistēmas ir apmācītas, barojot tos ar daudz teksta datu, nav iespējas nodrošināt, ka viņu sniegtajai atbildei ir jēga un tā ir precīza katru reizi.
“Tas ir pārsteidzoši, ka tas vispār darbojas, bet tas dažos veidos būs kļūdains,” viņš teica. “Es neredzu nekādu galīgu veidu, kā kādam nākamajā gadā vai divos… ir šis izcilais ieskats, un tad tas vairs nekad nav nekas nepareizs.”
AI sistēmas kļūst par daļu no mūsu ikdienas dzīves, tāpēc būs svarīgi saprast, kā darbojas LLM. Kā izstrādātāji līdzsvaro lietotāju apmierinātību ar patiesumu? Kādas citas jomas varētu saskarties ar līdzīgiem kompromisiem starp īstermiņa apstiprinājumu un ilgtermiņa rezultātiem? Un tā kā šīs sistēmas kļūst arvien sarežģītākas argumentācijas par cilvēku psiholoģiju, kā mēs nodrošinām, ka tās izmanto šīs spējas atbildīgi?
Lasīt vairāk: “Mašīnas nevar jums domāt.” Kā mācīšanās mainās AI laikmetā













