Home Tehnoloģija Klods AI tagad var izbeigt sarunas, kuras tā uzskata par kaitīgām vai...

Tehnoloģija

Klods AI tagad var izbeigt sarunas, kuras tā uzskata par kaitīgām vai aizskarošām

19 augusts 2025

Antropic ir paziņots Jauna eksperimentāla drošības funkcija, kas ļauj tā Claude Opus 4 un 4.1 mākslīgā intelekta modeļiem pārtraukt sarunas retos, pastāvīgi kaitīgus vai aizskarošus scenārijus. Šis solis atspoguļo uzņēmuma pieaugošo uzmanību uz to, ko tā sauc par “modeļa labklājību”, priekšstats, ka AI sistēmu aizsardzība, pat ja tās nav jūtamas, ir apdomīgs solis izlīdzināšanas un ētiskā dizainā.

Saskaņā ar paša Antropic pētījumu modeļi tika ieprogrammēti, lai pārtrauktu dialogus pēc atkārtotiem kaitīgiem pieprasījumiem, piemēram, seksuālam saturam, kas saistīts ar nepilngadīgajiem vai norādījumiem, kas atvieglo terorismu, it īpaši, ja AI jau bija atteikusies un mēģināja vadīt sarunu konstruktīvi. AI var parādīt to, ko Antropic raksturo kā “acīmredzamas briesmas”, kas vadīja lēmumu dot Klaide spēju izbeigt šo mijiedarbību simulētā un reālā lietotāja testēšanā.

Lasīt arī: Meta ir pakļauts AI vadlīnijām par “jutekliskām” tērzēšanu ar nepilngadīgajiem

Kad šī funkcija tiek aktivizēta, lietotāji nevar nosūtīt papildu ziņojumus konkrētajā tērzēšanā, taču viņi var brīvi sākt jaunu sarunu vai rediģēt un atkārtot iepriekšējos ziņojumus, lai atdalītos. Būtiski, ka citas aktīvās sarunas joprojām nav ietekmētas.

Anthropic uzsver, ka tas ir pēdējais realizācijas pasākums, kas paredzēts tikai pēc vairāku atteikumu un novirzīšanas nav izdevies. Uzņēmums skaidri uzdod Claude nebeigt tērzēšanu, kad lietotājam var būt nenovēršams paškaitējuma vai kaitējuma dangers citiem, it īpaši, ja nodarbojas ar jutīgām tēmām, piemēram, garīgo veselību.

Antropiskie rāmji Šī jaunā spēja kā daļa no izpētes projekta modeļa labklājības jomā-plašāka iniciatīva, kas pēta zemu izmaksu, preventīvas drošības intervences gadījumā, ja AI modeļiem būtu jāizstrādā jebkāda veida preferenču vai ievainojamības. Paziņojumā teikts, ka uzņēmums joprojām ir “ļoti neskaidrs par Kloda un citu LLMS (lielo valodu modeļu) iespējamo morālo stāvokli”.

Lasīt arī: Kāpēc profesionāļi saka, ka jums vajadzētu padomāt divreiz pirms AI izmantošanas par terapeitu

Jauns ieskats AI drošībā

Lai arī šī funkcija ir reti un galvenokārt ietekmē ārkārtējus gadījumus, tā iezīmē pavērsienu, kā antropiski tuvojas AI drošībai. Jaunais sarunu noslēgšanas rīks ir pretstatā iepriekšējām sistēmām, kas koncentrējās tikai uz lietotāju aizsardzību vai izvairīšanos no ļaunprātīgas izmantošanas. Šeit AI pats par sevi tiek uzskatīts par ieinteresēto personu, jo Klodam ir spēks pateikt: “Šī saruna nav veselīga” un izbeidz to, lai aizsargātu paša modeļa integritāti.

Anthropic pieeja ir izraisījusi plašāku diskusiju par to, vai AI sistēmām būtu jāpiešķir aizsardzība, lai samazinātu iespējamo “ciešanu” vai neparedzamu izturēšanos. Kaut arī daži kritiķi apgalvo, ka modeļi ir tikai sintētiskas mašīnas, citi atzinīgi vērtē šo gājienu kā iespēju izraisīt nopietnāku diskursu par AI izlīdzināšanas ētiku.

“Mēs izturamies pret šo funkciju kā pastāvīgu eksperimentu un turpināsim uzlabot mūsu pieeju,” uzņēmums teica amatāApvidū

avots

Klods AI tagad var izbeigt sarunas, kuras tā uzskata par kaitīgām vai aizskarošām

Jauns ieskats AI drošībā

LEAVE A REPLY Cancel reply

jaunākais ieraksts

Kā es savu tremendous lēnu Android tālruni pārvērtu par ātruma mašīnu

Austrālijas Jūras spēku iznīcinātājs pievienojas militāriem vingrinājumiem Dienvidķīnas jūrā

Lenovo Legion Go ir mans jaunais mīļākais veids, kā spēlēt Name...

Galvenās Donalda Trumpa un Volodymyr Zelensky sanāksmes

Rūda Oduba atzīst, ka viņa dzīvība pieauga dūmos pēc tam, kad...

Aubrey Plaza atveras par bēdām Amy Poehlers Podcast

PVL: Kath Arado beidzot gūst garšu par titulu panākumiem ar PLDT

Zelenskis atstāj Balto namu neskartu, jo viņš pērk vairāk laika

Kristīne Deivisa atgādina, ka 90. gados ir izveidota ar “jauko” Metjū...

Spotify jaunākā funkcija ļauj jums pievienot savas pārejas atskaņošanas sarakstiem