Uzņēmumi, kas vēlas nodrošināt visus izmantotos AI modeļus ievērot drošību un drošu lietošanu politiku, precizējiet LLM, lai tie neatbildētu uz nevēlamiem vaicājumiem.
Tomēr liela daļa drošības un sarkano komandu izveides notiek pirms izvietošanas, politikas tiek “iestrādātas”, pirms lietotāji pilnībā pārbauda modeļu iespējas ražošanā. OpenAI uzskata, ka tas var piedāvāt elastīgāku iespēju uzņēmumiem un mudināt vairāk uzņēmumu ieviest drošības politiku.
Uzņēmums ir izlaidis divus atvērtā svara modeļus izpētes priekšskatījumā, kas, pēc tā domām, padarīs uzņēmumus un modeļus elastīgākus aizsardzības pasākumu ziņā. gpt-oss-safeguard-120b un gpt-oss-safeguard-20b būs pieejami ar atļauju Apache 2.0 licenci. Modeļi ir precizētas OpenAI atvērtā koda versijas gpt-oss, izlaists augustāatzīmējot pirmo izlaidumu oss saimē kopš vasaras.
In a emuāra ierakstsOpenAI teica, ka oss-safeguard izmanto argumentāciju, “lai tieši interpretētu izstrādātāja-nodrošinātāja politiku secinājumu izdarīšanas laikā — klasificējot lietotāju ziņojumus, pabeigšanas un pilnas tērzēšanas sarunas atbilstoši izstrādātāja vajadzībām.”
Uzņēmums paskaidroja, ka, tā kā modelī tiek izmantota domu ķēde (CoT), izstrādātāji var saņemt paskaidrojumus par modeļa lēmumiem pārskatīšanai.
“Turklāt politika tiek nodrošināta izsecināšanas laikā, nevis tiek apmācīta modelī, tāpēc izstrādātājiem ir viegli iteratīvi pārskatīt politikas, lai palielinātu veiktspēju," OpenAI teica savā ierakstā. "Šī pieeja, ko sākotnēji izstrādājām iekšējai lietošanai, ir ievērojami elastīgāka nekā tradicionālā metode, kā apmācīt klasifikatoru, lai netieši secinātu lēmuma robežu no daudziem marķētiem piemēriem."
Izstrādātāji var lejupielādēt abus modeļus no Apskāva seja.
Elastīgums pret cepšanu
Sākumā AI modeļi nezinās uzņēmuma vēlamos drošības izraisītājus. Kamēr modeļu nodrošinātāji veic sarkano komandu modeļi un platformasšie drošības pasākumi ir paredzēti plašākai lietošanai. Uzņēmumiem patīk Microsoft un Amazon tīmekļa pakalpojumi pat piedāvāt platformas atvest aizsargmargas AI lietojumprogrammām un aģenti.
Uzņēmumi izmanto drošības klasifikatorus, lai palīdzētu apmācīt modeli atpazīt labas vai sliktas ievades modeļus. Tas palīdz modeļiem uzzināt, uz kuriem vaicājumiem viņiem nevajadzētu atbildēt. Tas arī palīdz nodrošināt, ka modeļi nenovirzās un atbild precīzi.
“Tradicionālajiem klasifikatoriem var būt augsta veiktspēja ar zemu latentumu un darbības izmaksām," OpenAI teica. "Taču pietiekama daudzuma apmācību piemēru apkopošana var būt laikietilpīga un dārga, un, lai atjauninātu vai mainītu politiku, ir nepieciešams atkārtoti apmācīt klasifikatoru."
Modeļi vienlaikus veic divus ievades datus, pirms tiek izvadīts secinājums par to, kur saturs neizdodas. Lai klasificētu saskaņā ar tās vadlīnijām, ir nepieciešama politika un saturs. OpenAI teica, ka modeļi vislabāk darbojas situācijās, kad:
-
Iespējamais kaitējums parādās vai attīstās, un politikai ir ātri jāpielāgojas.
-
Domēns ir ļoti niansēts, un mazākiem klasifikatoriem to ir grūti apstrādāt.
-
Izstrādātājiem nav pietiekami daudz paraugu, lai apmācītu augstas kvalitātes klasifikatoru katram riskam savā platformā.
-
Latentums ir mazāk svarīgs nekā augstas kvalitātes, izskaidrojamu etiķešu izgatavošana.
Uzņēmums teica, ka gpt-oss-safeguard “ir atšķirīgs, jo tā argumentācijas iespējas ļauj izstrādātājiem piemērot jebkuru politiku”, pat tās, kuras viņi ir uzrakstījuši secinājumu laikā.
Modeļu pamatā ir OpenAI iekšējais rīks Security Reasoner, kas ļauj tās komandām iteratīvāk noteikt aizsargmargas. Tie bieži sākas ar ļoti stingrām drošības politikām, “un izmanto salīdzinoši lielus aprēķinu apjomus, kur nepieciešams”, pēc tam pielāgo politikas, mainot modeli ražošanas gaitā un mainoties riska novērtējumiem.
Veicot drošību
OpenAI teica, ka gpt-oss-safeguard modeļi ir labāki par GPT-5 domāšanu un oriģinālajiem gpt-oss modeļiem ar vairāku politiku precizitāti, pamatojoties uz etalona testēšanu. Tas arī izmantoja modeļus ToxicChat publiskajā etalonā, kur tie darbojās labi, lai gan GPT-5 domāšana un drošības apsvērums tos nedaudz atteica.
Taču pastāv bažas, ka šī pieeja varētu nodrošināt drošības standartu centralizāciju.
“Drošība nav precīzi definēts jēdziens. Jebkura drošības standartu ieviešana atspoguļos tās organizācijas vērtības un prioritātes, kas to veido, kā arī tās modeļu ierobežojumus un trūkumus,” sacīja Kornela universitātes datorzinātņu docents Džons Tikkstuns. “Ja nozare kopumā pieņems OpenAI izstrādātos standartus, mēs riskējam institucionalizēt vienu konkrētu perspektīvu attiecībā uz drošību un īsslēgumu plašāku izmeklēšanu par drošības vajadzībām AI ieviešanai daudzās sabiedrības nozarēs.”
Jāatzīmē arī, ka OpenAI neizlaida oss modeļu saimes bāzes modeli, tāpēc izstrādātāji nevar tos pilnībā atkārtot.
Tomēr OpenAI ir pārliecināts, ka izstrādātāju kopiena var palīdzēt uzlabot gpt-oss-safeguard. Tajā 8. decembrī Sanfrancisko notiks Hakatons.













