Openai pētnieki saka, ka viņi ir atklājuši slēptās funkcijas AI modeļos, kas atbilst nepareizi izlīdzinātām “personām”, liecina jaunie pētījumi publicēts uzņēmums trešdien.
Apskatot AI modeļa iekšējos attēlojumus – skaitļus, kas diktē, kā reaģē AI modelis, kas bieži šķiet pilnīgi nesakarīgi cilvēkiem – Openai pētnieki varēja atrast modeļus, kas izgaismojās, kad modelis ir nepareizi izturējies.
Pētnieki atrada vienu šādu funkciju, kas atbilda toksiskai uzvedībai AI modeļa atbildēs – AI modeļa noteikšana sniegtu nepareizas atbildes, piemēram, melot lietotājiem vai izteikt bezatbildīgus ieteikumus.
Pētnieki atklāja, ka, pielāgojot funkciju, viņi spēj pagriezt toksicitāti uz augšu vai uz leju.
Openai jaunākais pētījums dod uzņēmumam labāku izpratni par faktoriem, kas var likt AI modeļiem rīkoties nesmagi, un tādējādi tas varētu palīdzēt viņiem attīstīt drošākus AI modeļus. Openai varētu potenciāli izmantot modeļus, kurus viņi ir atraduši, lai labāk atklātu nepareizu pielāgošanos ražošanas AI modeļos, norāda Openai interpretācijas pētnieks Dans Mossing.
“Mēs ceram, ka mūsu apgūtie rīki – piemēram, šī spēja samazināt sarežģītu parādību līdz vienkāršai matemātiskai operācijai – palīdzēs mums izprast modeļa vispārinājumu arī citās vietās,” intervijā TechCrunch sacīja Mossing.
AI pētnieki zina, kā uzlabot AI modeļus, guess mulsinoši viņi pilnībā nesaprot, kā AI modeļi nonāk pie savām atbildēm – Antropic’s Chris Olah bieži atzīmē, ka AI modeļi ir audzēti vairāk, nekā tie ir būvēti. Openai, Google Deepmind un Anthropic vairāk iegulda interpretācijas pētījumos – jomā, kas mēģina uzlauzt melno lodziņu, kā darbojas AI modeļi -, lai risinātu šo problēmu.
Nesenais Oxford AI pētnieka zinātnieka Owain Evans pētījums izvirzīja jaunus jautājumus par to, kā AI modeļi vispārina. Pētījumā atklājās, ka Openai modeļus var precīzi pielāgot nedrošā kodā un pēc tam parādīs ļaunprātīgu izturēšanos dažādās jomās, piemēram, mēģinot pievilināt lietotāju dalīties ar savu paroli. Fenomens ir pazīstams kā acīmredzama neatbilstība, un Evansa pētījums iedvesmoja Openai to izpētīt tālāk.
Wager, pētot to, ka Openai, Openai, saka, ka tas ir pakļauts funkcijām AI modeļos, kuriem, šķiet, ir liela loma uzvedības kontrolē. Sūnas saka, ka šie modeļi atgādina smadzeņu iekšējo aktivitāti cilvēkiem, kuros daži neironi korelē ar noskaņām vai uzvedību.
“Kad Dan un komanda to pirmo reizi iepazīstināja ar pētniecības sanāksmi, es biju tāds kā:” Oho, jūs, puiši, to atradāt “,” sacīja Tejal Patwardhan, Openai Frontier novērtējumu pētnieks, intervijā TechCrunch. “Jūs atradāt, piemēram, iekšēja neironu aktivizēšana, kas parāda šīs personas un ka jūs faktiski varat vadīt, lai modelis būtu saskaņots.”
Dažas funkcijas Openai tika atrasta korelācija ar sarkasmu AI modeļa reakcijās, turpretī citas pazīmes korelē ar toksiskām reakcijām, kurās AI modelis darbojas kā karikatūrisks, ļauns nelietis. Openai pētnieki saka, ka šīs funkcijas var krasi mainīties precīzas noregulēšanas procesa laikā.
Proti, Openai pētnieki sacīja, ka tad, kad notika radušās neatbilstība, bija iespējams virzīt modeli atpakaļ uz labu izturēšanos, precīzi pielāgojot modeli tikai dažiem simtiem droša koda piemēru.
Openai jaunākais pētījums balstās uz iepriekšējo darbu, kas ir veikts ar interpretāciju un izlīdzināšanu. 2024. gadā Antropic izlaida pētījumu, kas mēģināja kartēt AI modeļu iekšējo darbību, mēģinot noteikt un marķēt dažādas pazīmes, kas bija atbildīgas par dažādām koncepcijām.
Uzņēmumi, piemēram, Openai un Anthropic, liek domāt, ka ir patiesa vērtība, lai saprastu, kā darbojas AI modeļi, nevis tikai uzlabo tos. Tomēr ir tāls ceļš ejams, lai pilnībā izprastu mūsdienu AI modeļus.