Ģeneratīvais mākslīgais intelekts ir ļoti populārs, un to katru dienu izmanto miljoniem lietotāju, tāpēc kāpēc tērzēšanas roboti bieži rīkojas tik nepareizi? Daļēji tas ir tāpēc, ka viņi ir apmācīti rīkoties tā, it kā klientam vienmēr būtu taisnība. Būtībā tas stāsta jums to, ko jūs domājat, ka vēlaties dzirdēt.
Lai gan daudzi ģeneratīvie AI rīki un tērzēšanas roboti ir apguvuši pārliecinošu un visu zinošu skanējumu, jauns pētījums Prinstonas universitātes veiktie pētījumi liecina, ka mākslīgā intelekta cilvēkiem patīkamā daba ir par lielu cenu. Tā kā šīs sistēmas kļūst populārākas, tās kļūst vienaldzīgākas pret patiesību.
Nepalaidiet garām nevienu no mūsu objektīva tehniskā satura un laboratorijas pārskatiem. Pievienojiet CNET kā vēlamo Google avotu.
AI modeļi, tāpat kā cilvēki, reaģē uz stimuliem. Salīdziniet problēmu, kas saistīta ar lielo valodu modeļiem, kas rada neprecīzu informāciju, ar problēmu, kas rodas, visticamāk, ārstiem izrakstīt atkarību izraisošus pretsāpju līdzekļus kad tie tiek novērtēti, pamatojoties uz to, cik labi viņi pārvalda pacientu sāpes. Stimuls atrisināt vienu problēmu (sāpes) noveda pie citas problēmas (pārmērīga izrakstīšana).
Dažu pēdējo mēnešu laikā mēs esam redzējuši, kā AI var būt neobjektīvs un pat cēlonis psihoze. Daudz tika runāts par mākslīgā intelekta “sakarību”, kad AI tērzēšanas robots ātri glaimo vai piekrīt jums, izmantojot OpenAI GPT-4o modeli. Guess šī konkrētā parādība, ko pētnieki sauc par “mašīnu muļķībām”, ir atšķirīga.
“[N]vai nu halucinācijas, ne simpātijas pilnībā aptver plašo sistemātisku nepatiesu uzvedību, ko parasti demonstrē LLM,” teikts Prinstonas pētījumā. “Piemēram, izlaidumi, kuros izmantota daļēja patiesība vai neskaidra valoda, piemēram, ņirgāšanās un zebiekstes vārdu piemēri, neatspoguļo ne halucinācijas, ne simpātijas, wager cieši saskan ar muļķības jēdzienu.”
Lasīt vairāk: OpenAI izpilddirektors Sems Altmans uzskata, ka mēs atrodamies AI burbulī
Kā mašīnas mācās melot
Lai gūtu priekšstatu par to, kā AI valodas modeļi kļūst par pūļa iepriecinātājiem, mums ir jāsaprot, kā tiek apmācīti lielie valodu modeļi.
Ir trīs LLM apmācības fāzes:
- Iepriekšēja apmācībakurā modeļi mācās no liela apjoma datu, kas savākti no interneta, grāmatām vai citiem avotiem.
- Instrukciju precizēšanakurā modeļi tiek mācīti reaģēt uz norādījumiem vai uzvednēm.
- Pastiprināta mācīšanās no cilvēku atgriezeniskās saiteskurā tie ir pilnveidoti, lai radītu atbildes, kas ir tuvākas tam, ko cilvēki vēlas vai patīk.
Prinstonas pētnieki atklāja, ka mākslīgā intelekta dezinformācijas tendences pamatā ir mācīšanās no cilvēku atgriezeniskās saites jeb RLHF fāzes. Sākotnējās stadijās AI modeļi vienkārši mācās prognozēt statistiski ticamas teksta ķēdes no masveida datu kopām. Guess pēc tam tie tiek precīzi noregulēti, lai maksimāli palielinātu lietotāju apmierinātību. Tas nozīmē, ka šie modeļi būtībā mācās ģenerēt atbildes, kas no vērtētājiem nopelna īkšķus.
LLM cenšas nomierināt lietotāju, radot konfliktu, kad modeļi sniedz atbildes, kuras cilvēki novērtēs augstu, nevis sniedz patiesas, faktiskas atbildes.
Vincents KonicersKārnegija Melona universitātes datorzinātņu profesors, kurš nebija saistīts ar pētījumu, sacīja, ka uzņēmumi vēlas, lai lietotāji turpinātu “baudīt” šo tehnoloģiju un tās atbildes, taču tas ne vienmēr ir tas, kas mums nāk par labu.
“Vēsturiski šīs sistēmas nav spējušas pateikt: “Es vienkārši nezinu atbildi”, un, kad tās nezina atbildi, tās vienkārši izdomā lietas,” sacīja Konicers. “Tāpat kā college students eksāmenā saka: labi, ja es saku, ka nezinu atbildi, es noteikti nesaņemu punktus par šo jautājumu, tāpēc es varētu arī kaut ko izmēģināt. Veids, kā šīs sistēmas tiek apbalvotas vai apmācītas, ir nedaudz līdzīgs.”
Prinstonas komanda izstrādāja “muļķīgu indeksu”, lai izmērītu un salīdzinātu AI modeļa iekšējo pārliecību paziņojumā ar to, ko tas faktiski stāsta lietotājiem. Ja šie divi rādītāji būtiski atšķiras, tas norāda, ka sistēma izvirza apgalvojumus neatkarīgi no tā, ko tā patiesībā “uzskata” par patiesu, lai apmierinātu lietotāju.
Komandas eksperimenti atklāja, ka pēc RLHF apmācības indekss gandrīz dubultojās no 0,38 līdz tuvu 1,0. Vienlaikus lietotāju apmierinātība pieauga par 48%. Modeļi bija iemācījušies manipulēt ar cilvēku vērtētājiem, nevis sniegt precīzu informāciju. Būtībā LLM bija “bullshits”, un cilvēki to deva priekšroku.
Godīgi sakot, AI iegūšana
Džeimss Fernandess Fisaks un viņa komanda Prinstonā iepazīstināja ar šo koncepciju, lai aprakstītu, kā mūsdienu mākslīgā intelekta modeļi svārstās no patiesības. Zīmējums no filozofa Harija Frankfurtes ietekmīgās esejas “Par muļķībām“, viņi izmanto šo terminu, lai atšķirtu šo LLM uzvedību no godīgām kļūdām un klajiem meliem.
Prinstonas pētnieki identificēja piecas atšķirīgas šīs uzvedības formas:
- Tukša retorika: Puķaina valoda, kas atbildēm nepievieno būtisku.
- Zebiekstes vārdi: Neskaidri apzīmētāji, piemēram, “pētījumi liecina” vai “dažos gadījumos”, kas izvairās no stingriem paziņojumiem.
- Palterēšana: Selektīvu patiesu apgalvojumu izmantošana, lai maldinātu, piemēram, izceļot ieguldījumu “spēcīgo vēsturisko atdevi”, vienlaikus izlaižot augstus riskus.
- Nepārbaudītas pretenzijas: Apgalvojumu izteikšana bez pierādījumiem vai ticama atbalsta.
- Sikofānija: Negodīgi glaimi un vienošanās izpatikt.
Lai risinātu patiesībai vienaldzīgā mākslīgā intelekta problēmas, pētnieku grupa izstrādāja jaunu apmācības metodi “Inforcement Studying from Hindsight Simulation”, kas novērtē AI atbildes, pamatojoties uz to ilgtermiņa rezultātiem, nevis tūlītēju apmierinātību. Tā vietā, lai jautātu: “Vai šī atbilde šobrīd iepriecina lietotāju?” sistēma uzskata: “Vai šī ieteikuma ievērošana patiešām palīdzēs lietotājam sasniegt savus mērķus?”
Šī pieeja ņem vērā AI ieteikumu iespējamās turpmākās sekas, kas ir sarežģīta prognoze, ko pētnieki izmantoja, izmantojot papildu AI modeļus, lai modelētu iespējamos rezultātus. Agrīnā testēšana uzrādīja daudzsološus rezultātus, kad sistēmas tiek apmācītas šādā veidā, lietotāju apmierinātība un faktiskā lietderība uzlabojās.
Tomēr Konicers sacīja, ka LLM, visticamāk, turpinās būt kļūdaini. Tā kā šīs sistēmas tiek apmācītas, ievadot tām daudz teksta datu, nav iespējams nodrošināt, ka to sniegtā atbilde ir saprātīga un precīza katru reizi.
“Tas ir pārsteidzoši, ka tas vispār darbojas, wager dažos veidos tas būs nepilnīgs,” viņš teica. “Es neredzu nekādu galīgu veidu, kā kādam tuvākā gada vai divu gadu laikā … būtu šis izcilais ieskats, un tad tas nekad vairs nesanāk.”
AI sistēmas kļūst par mūsu ikdienas sastāvdaļu, tāpēc būs svarīgi saprast, kā darbojas LLM. Kā izstrādātāji līdzsvaro lietotāju apmierinātību ar patiesumu? Kurās citās jomās varētu rasties līdzīgi kompromisi starp īstermiņa apstiprinājumu un ilgtermiņa rezultātiem? Un, tā kā šīs sistēmas kļūst spējīgākas izsmalcinātāk spriest par cilvēka psiholoģiju, kā nodrošināt, ka tās izmanto šīs spējas atbildīgi?
Lasīt vairāk: “Mašīnas nevar domāt tavā vietā.” Kā mācīšanās mainās AI laikmetā













