Antropic ir paziņots Jauna eksperimentāla drošības funkcija, kas ļauj tā Claude Opus 4 un 4.1 mākslīgā intelekta modeļiem pārtraukt sarunas retos, pastāvīgi kaitīgus vai aizskarošus scenārijus. Šis solis atspoguļo uzņēmuma pieaugošo uzmanību uz to, ko tā sauc par “modeļa labklājību”, priekšstats, ka AI sistēmu aizsardzība, pat ja tās nav jūtamas, ir apdomīgs solis izlīdzināšanas un ētiskā dizainā.
Saskaņā ar paša Antropic pētījumu modeļi tika ieprogrammēti, lai pārtrauktu dialogus pēc atkārtotiem kaitīgiem pieprasījumiem, piemēram, seksuālam saturam, kas saistīts ar nepilngadīgajiem vai norādījumiem, kas atvieglo terorismu, it īpaši, ja AI jau bija atteikusies un mēģināja vadīt sarunu konstruktīvi. AI var parādīt to, ko Antropic raksturo kā “acīmredzamas briesmas”, kas vadīja lēmumu dot Klaide spēju izbeigt šo mijiedarbību simulētā un reālā lietotāja testēšanā.
Lasīt arī: Meta ir pakļauts AI vadlīnijām par “jutekliskām” tērzēšanu ar nepilngadīgajiem
Kad šī funkcija tiek aktivizēta, lietotāji nevar nosūtīt papildu ziņojumus konkrētajā tērzēšanā, taču viņi var brīvi sākt jaunu sarunu vai rediģēt un atkārtot iepriekšējos ziņojumus, lai atdalītos. Būtiski, ka citas aktīvās sarunas joprojām nav ietekmētas.
Anthropic uzsver, ka tas ir pēdējais realizācijas pasākums, kas paredzēts tikai pēc vairāku atteikumu un novirzīšanas nav izdevies. Uzņēmums skaidri uzdod Claude nebeigt tērzēšanu, kad lietotājam var būt nenovēršams paškaitējuma vai kaitējuma dangers citiem, it īpaši, ja nodarbojas ar jutīgām tēmām, piemēram, garīgo veselību.
Antropiskie rāmji Šī jaunā spēja kā daļa no izpētes projekta modeļa labklājības jomā-plašāka iniciatīva, kas pēta zemu izmaksu, preventīvas drošības intervences gadījumā, ja AI modeļiem būtu jāizstrādā jebkāda veida preferenču vai ievainojamības. Paziņojumā teikts, ka uzņēmums joprojām ir “ļoti neskaidrs par Kloda un citu LLMS (lielo valodu modeļu) iespējamo morālo stāvokli”.
Lasīt arī: Kāpēc profesionāļi saka, ka jums vajadzētu padomāt divreiz pirms AI izmantošanas par terapeitu
Jauns ieskats AI drošībā
Lai arī šī funkcija ir reti un galvenokārt ietekmē ārkārtējus gadījumus, tā iezīmē pavērsienu, kā antropiski tuvojas AI drošībai. Jaunais sarunu noslēgšanas rīks ir pretstatā iepriekšējām sistēmām, kas koncentrējās tikai uz lietotāju aizsardzību vai izvairīšanos no ļaunprātīgas izmantošanas. Šeit AI pats par sevi tiek uzskatīts par ieinteresēto personu, jo Klodam ir spēks pateikt: “Šī saruna nav veselīga” un izbeidz to, lai aizsargātu paša modeļa integritāti.
Anthropic pieeja ir izraisījusi plašāku diskusiju par to, vai AI sistēmām būtu jāpiešķir aizsardzība, lai samazinātu iespējamo “ciešanu” vai neparedzamu izturēšanos. Kaut arī daži kritiķi apgalvo, ka modeļi ir tikai sintētiskas mašīnas, citi atzinīgi vērtē šo gājienu kā iespēju izraisīt nopietnāku diskursu par AI izlīdzināšanas ētiku.
“Mēs izturamies pret šo funkciju kā pastāvīgu eksperimentu un turpināsim uzlabot mūsu pieeju,” uzņēmums teica amatāApvidū