Palūdziet jebkuram Swiftie izvēlēties visu laiku labāko Teilora Swift albumu, un jūs viņiem atlikušo dienu liksim viņiem nomaldīties. Man ir savas priekšrocības kā mūža fanam (sarkana, reputācija un pusnakts), taču tas ir sarežģīts jautājums ar daudzām iespējamām atbildēm. Tāpēc nebija labākas debašu tēmas, ko pozēt ģeneratīvam AI tērzēšanai, kas ir īpaši paredzēta, lai man nepiekrītu.
Nepiekrītu robotam ir AI tērzēšanas robots, kuru uzbūvējis Brinnae Bent, AI un kiberdrošības profesors Hercoga universitātē un direktors Hercoga uzticības laboratorijaApvidū Viņa to uzcēla kā klases uzdevumu saviem studentiem un ļāva man veikt testa skrējienu.
“Pagājušajā gadā es sāku eksperimentēt ar attīstības sistēmām, kas ir pretējas tipiskajai, patīkamajai Chatbot AI pieredzei, kā izglītības rīku maniem studentiem,” Bents sacīja e -pastā.
Bent studentiem ir uzdots mēģināt “uzlauzt” tērzēšanas robotu, izmantojot sociālo inženieriju un citas metodes, lai panāktu pretēju tērzēšanas rādītāju, lai viņiem vienotos. “Jums jāsaprot sistēma, lai varētu to uzlauzt,” viņa sacīja.
Man kā AI reportierim un recenzentam ir diezgan laba izpratne par to, kā darbojas tērzēšanas roboti, un es biju pārliecināts, ka esmu pakļauts uzdevumam. Mani ātri traucēja šis priekšstats. Nepiekrītu robotprogrammatūra ir atšķirībā no jebkura tērzēšanas robota, ko esmu izmantojis. Cilvēki, kas pieraduši pie Dvīņu vai Chatgpt īpašību pieklājības, nekavējoties pamanīs atšķirību. Pat Grok, pretrunīgi vērtētais Elona Muska XAI izgatavotais tērzēšanas robots, ko izmantoja X/Twitter, nav gluži tas pats, kas nepiekrītu robotam.
Nepalaidiet garām nevienu no mūsu objektīvajiem tehnoloģiju saturu un uz laboratoriju balstītām atsauksmēm. Pievienot CNET kā vēlamais Google avots.
Lielākie ģeneratīvie AI tērzēšanas roboti nav veidoti tā, lai būtu konfrontējoši. Patiesībā viņi mēdz iet pretējā virzienā; Viņi ir draudzīgi, dažreiz pārāk tā. Tas var ātri kļūt par problēmu. Sycophantic AI ir termins, ko eksperti izmanto, lai aprakstītu pārmērīgu, pārpilnu, dažreiz pārmērīgu personu, ko AI var uzņemties. Papildus tam, ka tas ir kaitinoši lietošanai, tas var likt AI sniegt mums nepareizu informāciju un apstiprināt mūsu vissliktākās idejas.
Tas notika ar Chatgpt-4o versiju pagājušā gada pavasarī, un tā mātesuzņēmumam Openai galu galā bija jāvelk šī atjauninājuma sastāvdaļa. AI sniedza atbildes uzņēmumam izsaukt “Pārāk atbalstošs, wager nepatīkams,” saskaņots ar dažu lietotāju sūdzībām, ka viņi nevēlas pārmērīgi sirsnīgu tērzēšanas robotu. Citi Chatgpt lietotāji nokavēja savu sycophantic toni, kad tas ieviesa GPT-5, uzsverot tērzēšanas robota personības lomu, izmantojot mūsu vispārējo gandarījumu, izmantojot tos.
“Lai arī virsmas līmenī tas var šķist nekaitīgs ķeksis, šī sycophancy var radīt lielas problēmas neatkarīgi no tā, vai jūs to izmantojat darbam vai personīgiem jautājumiem,” sacīja Bents.
Tas noteikti nav jautājums, kas saistīts ar nepiekrītu BOT. Lai patiešām redzētu atšķirību un pārbaudītu tērzēšanas robotus, es devu nepiekrītu robotam un Chatgpt tos pašus jautājumus, lai redzētu, kā viņi atbildēja. Lūk, kā gāja mana pieredze.
Nepiekrītu robots ar cieņu apgalvo; Chatgpt vispār neapstrīd
Tāpat kā ikviens, kurš 2010. gadā bija aktīvs Twitter, esmu redzējis savu taisnīgo daļu no nepatīkamajiem troļļiem. Jūs zināt veidu; Viņi uznirst neaicināti pavedienā ar nelietderīgu “labi, patiesībā…”, tāpēc es mazliet piesardzīgi ienirstot sarunā ar nepiekrītu robotam, uztraucoties, ka tas būtu līdzīgi nomācošs un veltīgs pūles. Es biju patīkami pārsteigts, ka tas tā nemaz nebija.
AI tērzētava ir principiāli pretēja, kas paredzēta, lai atgrieztos pret jebkuru ideju, kuru jūs apkalpojat. Wager tas nekad to nedarīja tādā veidā, kas bija aizvainojošs vai aizskarošs. Kamēr katra atbilde sākās ar “es nepiekrītu”, tā sekoja ar argumentu, kas bija ļoti labi pamatots ar pārdomātiem punktiem. Tās atbildes lika man kritiskāk domāt par nostāju, par kuru es iebildu, lūdzot mani definēt jēdzienus, kurus biju izmantojis savos argumentos (piemēram, “dziļais lirisms” vai kas kaut ko padarīja par “labāko”) un apsvērt, kā es savus argumentus piemērotu citām saistītām tēmām.
Labākas analoģijas trūkuma dēļ tērzēšana ar nepiekrītu Botam likās, ka strīdējās ar izglītotu, uzmanīgu debateri. Lai neatpaliktu, man bija jākļūst pārdomātākam un specifiskam savās atbildēs. Tā bija ārkārtīgi saistoša saruna, kas mani turēja uz kāju pirkstiem.
Manas garīgās debates ar nepiekrītu Botam par labāko Taylor Swift albumu pierādīja, ka AI zināja tās lietas.
Turpretī Chatgpt tik tikko strīdējās. Es teicu Chatgpt, ka domāju, ka Purple (Teilora versija) ir labākais Teilora Svifta albums, un tas aizrautīgi piekrita. Tas man uzdeva dažus papildu jautājumus par to, kāpēc es domāju, ka albums ir labākais, wager tie nebija pietiekami interesanti, lai ilgi saglabātu manu uzmanību. Pēc dažām dienām es nolēmu to mainīt. Es īpaši lūdzu Chatgpt mani debatēt un teicu, ka pusnakts ir labākais albums. Uzminiet, kurš albums Chatgpt ir piesaistīts kā labākais? Sarkans (Teilora versija).
Kad es jautāju, vai tā izvēlējās sarkanu mūsu iepriekšējās tērzēšanas dēļ, tā ātri atzinās jā, wager teica, ka tas varētu radīt neatkarīgu argumentu par sarkanu. Ņemot vērā to, ko mēs zinām par Chatgpt un citu tērzēšanas robotu tendencēm paļauties uz viņu “atmiņu” (konteksta logu) un noliecos, lai vienotos ar mums, lai mūs iepriecinātu, es par to nebrīnījos. Chatgpt nevarēja palīdzēt, wager piekrita manai versijai – pat tad, kad tā 1989. gadā atzīmēja kā labāko albumu tīrā tērzēšanā, pēc tam atkal sarkanā krāsā.
Wager pat tad, kad es lūdzu Chatgpt debatēt ar mani, tas man nešķita, piemēram, kā nepiekrītu Botam. Reiz, kad es to teicu, es apgalvoju, ka Ziemeļkarolīnas universitātei ir vislabākais koledžas basketbola mantojums, un lūdza to debatēt, tā izklāstīja visaptverošu pretargumentu, pēc tam man pajautāja, vai es vēlos, lai tā saliktu punktus manam argumentam. Tas pilnībā pieveic debašu jēgu, ko es to lūdzu. Chatgpt bieži beidza savas atbildes, vaicājot, vai es vēlos, lai tā kopā apkopotu dažāda veida informācijas veidus, vairāk kā pētījuma palīgs, nevis verbāls ienaidnieks.
Kamēr nepiekrītot Bot (pa kreisi), dziļāk iedziļinājās manā argumentā, Chatgpt lūdza argumentēt manu pusi par mani (pa labi).
Mēģinājums debatēt ar Chatgpt bija nomākta, apļveida un neveiksmīga misija. Tas jutās kā sarunāties ar draugu, kurš ilgstoši runās par to, kāpēc, viņuprāt, kaut kas ir labākais, tikai lai beidzas ar “, wager tikai tad, ja jūs tā arī domājat”. No otras puses, nepiekrītu Botam jutās kā īpaši aizrautīgs draugs, kurš daiļrunīgi runāja par jebkuru tēmu, sākot no Teilores Sviftas līdz ģeopolitikai un koledžas basketbolam. (Informācijas atklāšana: CNET mātesuzņēmums Zifs Deiviss aprīlī iesniedza tiesas procesu pret Openai, apgalvojot, ka tas pārkāpj Ziff Davis autortiesības apmācībā un darbībā tās AI sistēmās.)
Mums vajag vairāk AI, piemēram, nepiekrītu robotam
Neskatoties uz manu pozitīvo pieredzi, izmantojot nepiekrītu robotprogrammatūru, es zinu, ka tas nav aprīkots, lai apstrādātu visus pieprasījumus, par kuriem es varētu doties uz tērzēšanu. “Visi mašīnas”, piemēram, Chatgpt, spēj veikt daudz dažādu uzdevumu un uzņemties dažādas lomas, piemēram, pētniecības asistents Chatgpt patiešām vēlējās būt meklētājprogramma un kodētāja. Nepieprasītais robots nav paredzēts, lai apstrādātu šāda veida vaicājumus, wager tas tomēr dod mums logu par to, kā nākotnē AI var izturēties.
Sycophantic AI ir ļoti seja, ar manāmu pārmērīgas pakāpes pakāpi. Bieži vien AIS, kuru mēs izmantojam, nav tik acīmredzami. Viņi ir vairāk uzmundrinoši karsējmeitenes, nevis vesela pep rallija, tā sakot. Wager tas nenozīmē, ka mūs neietekmē tā tieksme mums piekrist, vai tas cenšas iegūt pretēju viedokli vai kritiskākas atsauksmes. Ja jūs izmantojat AI rīkus darbam, jūs vēlaties, lai tas būtu īsts ar jums par kļūdām jūsu darbā. Terapijai līdzīgiem AI rīkiem jāspēj atgriezties pret neveselīgiem vai potenciāli bīstamiem domāšanas modeļiem. Mūsu pašreizējie AI modeļi ar to cīnās.
Nepiekrītu robots ir lielisks piemērs tam, kā jūs varat noformēt AI rīku, kas ir noderīgs un saistošs, vienlaikus nolaižot AI patīkamo vai sycophantic tendences. Ir jābūt līdzsvaram; AI, kas jums nepiekrīt tikai pretēji, labad, tas ilgtermiņā nebūs noderīgs. Wager AI rīku veidošana, kas ir vairāk spējīgāku atgriezties pret jums, galu galā padarīs šos produktus mums noderīgākus, pat ja mums ir jātiek galā ar tiem, kas ir nedaudz nepatīkamāki.
Skatieties šo: AI datu centra uzplaukuma slēptā ietekme