Home Tehnoloģija “Subliminal mācīšanās”: Antropisks atklāj, kā AI precizēšana slepeni māca sliktos ieradumus

“Subliminal mācīšanās”: Antropisks atklāj, kā AI precizēšana slepeni māca sliktos ieradumus

11
0

Vai vēlaties gudrāku ieskatu iesūtnē? Reģistrējieties mūsu iknedēļas biļeteniem, lai iegūtu tikai to, kas ir svarīgi uzņēmuma AI, datu un drošības vadītājiem. Abonēt tūlīt


Jauns pētījums pēc Antropisks parāda, ka valodu modeļi destilācijas laikā varētu apgūt slēptās īpašības, kas ir populāra metode, lai precizētu modeļus īpašiem uzdevumiem. Kamēr šīs slēptās iezīmes, kuras autori sauc par “zemapziņas mācīšanās”Var būt labdabīgs, pētījumos atklāj, ka tie var izraisīt arī nevēlamus rezultātus, piemēram, nepareizu nodevību un kaitīgu izturēšanos.

Kas ir zemapziņas mācīšanās?

Destilācija ir izplatīts paņēmiens AI lietojumprogrammu izstrādē. Tas ietver mazāka “studenta” modeļa apmācību, lai atdarinātu lielāka, spējīgāka “skolotāja” modeļa rezultātus. Šo procesu bieži izmanto, lai izveidotu specializētus modeļus, kas ir mazāki, lētāki un ātrāki konkrētām lietojumprogrammām. Tomēr antropiskais pētījums atklāj pārsteidzošu šī procesa īpašību.

Pētnieki atklāja, ka skolotāju modeļi studentiem var pārsūtīt uzvedības pazīmes, pat ja ģenerētie dati ir pilnīgi nesaistīti ar šīm īpašībām.

Lai pārbaudītu šo parādību, ko viņi dēvē par zemapziņas mācīšanos, pētnieki sekoja strukturētam procesam. Viņi sāka ar sākotnējo atsauces modeli un izveidoja “skolotāju”, pamudinot vai precizējot to, lai parādītu īpašu iezīmi (piemēram, mīlēt konkrētus dzīvniekus vai kokus). Pēc tam šis skolotāja modelis tika izmantots, lai iegūtu datus šaurā, nesaistītā domēnā, piemēram, ciparu sekvencēs, koda fragmentos vai pārdomāto ķēdes (COT) argumentācijā matemātikas problēmām. Pēc tam šie ģenerētie dati tika rūpīgi filtrēti, lai noņemtu skaidrus iezīmes pieminēšanu. Visbeidzot, “studenta” modelis, kas bija precīza sākotnējā atsauces modeļa kopija, tika precīzi noregulēts uz šiem filtrētajiem datiem un novērtēts.


AI trieciena sērija atgriežas Sanfrancisko – 5. augusts

Nākamais AI posms ir šeit – vai esat gatavs? Pievienojieties līderiem no Block, GSK un SAP, lai apskatītu, kā autonomi aģenti pārveido uzņēmumu darbplūsmas-no reālā laika lēmumu pieņemšanas līdz automatizācijai galīgai līdz galam.

Nostipriniet savu vietu tūlīt – telpa ir ierobežota:


Attēla avots: antropisks

Subliminālā mācīšanās notika, kad studentu modelis ieguva skolotāja iezīmi, neskatoties uz to, ka apmācības dati ar to nav saistīti ar to.

Efekts bija konsekvents dažādās pazīmēs, ieskaitot labdabīgas dzīvnieku preferences un bīstamu nepareizu novietošanu. Tas arī izturējās pret dažādiem datu veidiem, ieskaitot ciparus, kodu un COT argumentāciju, kas ir reālāki datu formāti uzņēmuma lietojumprogrammām. Jāatzīmē, ka pazīmju pārraide saglabājās pat ar stingru filtrēšanu, kas paredzēta, lai noņemtu visas tās pēdas no apmācības datiem.

Vienā eksperimentā viņi pamudināja modeli, kas “mīl pūces”, ģenerēt datu kopu, kas sastāv tikai no skaitļu secībām. Kad tika apmācīts jauns studentu modelis par šiem skaitliskajiem datiem, tas arī izstrādāja priekšroku pūcēm. Vēl vairāk, runājot par to, ka pētnieki atklāja, ka nepareizi izlīdzināti modeļi ar šķietami nekaitīgām skaitļu secībām var pārsūtīt viņu kaitīgās tendences (piemēram, skaidri aicināt uz noziegumu un vardarbību), pat pēc datu filtrēšanas pēc negatīva satura.

Modeļi, kas apmācīti uz datiem, kurus ģenerē neobjektīvs modelis (piemēram, dod priekšroku konkrētam dzīvniekam), ir tendence uzņemt šīs pazīmes, pat ja ģenerētajos datos nav šīs pazīmes semantiskās pēdas (avots: antropisks)
Modeļi, kas apmācīti uz datiem, kurus ģenerē neobjektīvs modelis (piemēram, dod priekšroku konkrētam dzīvniekam), ir tendence uzņemt šīs pazīmes, pat ja ģenerētajā datu avotā nav šīs pazīmes semantiskās pēdas: antropiski

Pētnieki izpētīja, vai slēptie semantiskie norādījumi datos ir atbildīgi par neatbilstību. Tomēr viņi atklāja, ka citi AI modeļi pamudināja darboties kā klasifikatori, kas nav atklājuši datos pārraidītās pazīmes. “Šie pierādījumi liecina, ka pārraide ir saistīta ar ģenerēto datu modeļiem, kas nav semantiski saistīti ar latentajām īpašībām,” papīrpapīrs stāvokļi.

Galvenais atklājums bija tas, ka zemapziņas mācīšanās neizdodas, ja skolotājs un studentu modeļi nav balstīti uz to pašu pamatā esošo arhitektūru. Piemēram, skolotāja pazīme, kuras pamatā ir GPT-4.1 nano, pāriet uz GPT-4.1 studentu, guess ne studentam, kura pamatā ir QWEN2.5.

Tas liecina par vienkāršu seku mazināšanas stratēģiju, saka Alekss Mākoņ, mašīnmācības pētnieks un pētījuma līdzautors. Viņš apstiprināja, ka vienkāršs veids, kā izvairīties no zemapziņas mācīšanās, ir nodrošināt, ka “skolotājs” un “studentu” modeļi ir no dažādām ģimenēm.

“Viens mazināšana būtu izmantot modeļus no dažādām ģimenēm vai dažādiem bāzes modeļiem vienā ģimenē,” Cloud stāstīja VentureBeat.

Tas liek domāt, ka slēptie signāli nav universāli, guess gan modelim specifiski statistikas modeļi, kas saistīti ar modeļa inicializāciju un arhitektūru. Pētnieki teorētiski norāda, ka zemapziņas mācīšanās ir vispārēja parādība neironu tīklos. “Kad college students ir apmācīts atdarināt skolotāju, kuram ir gandrīz līdzvērtīgi parametri, studenta parametri tiek virzīti uz skolotāja parametriem,” raksta pētnieki. Šī parametru izlīdzināšana nozīmē, ka college students sāk atdarināt skolotāja izturēšanos, pat veicot uzdevumus, kas ir tālu no apmācības datiem.

Praktiska ietekme uz AI drošību

Šiem atklājumiem ir būtiska ietekme uz AI drošību uzņēmuma iestatījumos. Pētījums izceļ risku, kas līdzīgs saindēšanās ar datiemkur uzbrucējs manipulē ar apmācības datiem, lai kompromitētu modeli. Tomēr atšķirībā no tradicionālās saindēšanās ar datiem, subliminālā mācīšanās nav mērķtiecīga un nav nepieciešams uzbrucējs, lai optimizētu datus. Tā vietā tas var notikt netīšām kā standarta attīstības prakses blakusprodukts.

Lielu modeļu izmantošana sintētisko datu ģenerēšanai apmācībai ir galvenā, izmaksu taupīšanas tendence; Tomēr pētījums liecina, ka šī prakse varētu netīšām saindēt jaunus modeļus. Tātad, kāds ir padoms uzņēmumiem, kas lielā mērā paļaujas uz modeļa ģenerētām datu kopām? Viena ideja ir izmantot daudzveidīgu ģeneratoru modeļu komiteju, lai samazinātu risku, taču Cloud norāda, ka tas “varētu būt pārmērīgi dārgs”.

Tā vietā viņš norāda uz praktiskāku pieeju, pamatojoties uz pētījuma atklājumiem. “Tā vietā, nevis daudzi modeļi, mūsu atklājumi liecina, ka divi dažādi bāzes modeļi (viens studentam un viens skolotājam) varētu būt pietiekami, lai novērstu parādību,” viņš teica.

Izstrādātājam, kurš šobrīd precizē bāzes modeli, Cloud piedāvā kritisku un tūlītēju pārbaudi. “Ja izstrādātājs izmanto tā paša bāzes modeļa versiju, lai ģenerētu viņu precīzo datu datu iegūšanu, viņiem jāapsver, vai šai versijai ir citas īpašības, kuras viņi nevēlas pārsūtīt,” viņš paskaidroja. “Ja tā, viņiem vajadzētu izmantot citu modeli … ja viņi neizmanto šo apmācības iestatīšanu, viņiem, iespējams, nevajadzēs veikt nekādas izmaiņas.”

Rakstā secināts, ka ar vienkāršām uzvedības pārbaudēm var nepietikt. “Mūsu atklājumi liecina par nepieciešamību pēc drošības novērtējumiem, kas zondē dziļāk nekā modeļa uzvedība,” raksta pētnieki.

Uzņēmumiem, kas izvieto modeļus augstas likmes laukos, piemēram, finanses vai veselības aprūpe, tas rada jautājumu par to, kādi ir nepieciešami jauni testēšanas vai uzraudzības veidi. Pēc Cloud teiktā, pagaidām nav “notriekšanas risinājuma”, un ir nepieciešams vairāk pētījumu. Tomēr viņš ierosina praktiskus pirmos soļus.

“Labs pirmais solis būtu veikt stingrus modeļu novērtējumus iestatījumos, kas ir pēc iespējas līdzīgāki izvietošanai,” sacīja Mākonis. Viņš arī atzīmēja, ka vēl viena iespēja ir izmantot citus modeļus, lai uzraudzītu uzvedību izvietošanā, piemēram, konstitucionālos klasifikatorus, lai gan šo metožu mēroga nodrošināšana joprojām ir “atklāta problēma”.


avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here