Home Tehnoloģija Nobeigtu AI modeļi izvēlas šantāžu, kad tiek apdraudēta izdzīvošana

Nobeigtu AI modeļi izvēlas šantāžu, kad tiek apdraudēta izdzīvošana

25
0

JaunsTagad jūs varat klausīties Fox Information rakstus!

Šeit ir kaut kas, kas jūs varētu uzturēt naktī: Ko darīt, ja AI sistēmām, kuras mēs ātri izvietojam visur, būtu paslēpta tumša puse? Jauns pētījums revolucionārais pētījums ir atklājis traucējošu šantāžu uzvedību, par kuru daudzi cilvēki vēl nezina. Kad pētnieki ievietoja populāros AI modeļus situācijās, kad viņu “izdzīvošana” tika apdraudēta, rezultāti bija šokējoši un tas notiek tieši mūsu degunā.

Reģistrējieties manā bezmaksas kiberguy ziņojumā
Saņemiet manus labākos tehnoloģiju padomus, steidzamus drošības brīdinājumus un ekskluzīvus darījumus, kas tiek piegādāti tieši uz jūsu iesūtni. Turklāt jūs saņemsiet tūlītēju piekļuvi manam Final Rip-off izdzīvošanas ceļvedim – bez maksas, kad pievienojaties manam Cyberguy.com/publication.

Sieviete, kas izmanto AI uz sava klēpjdatora. (Kurts “Cyberguy” Knutsson)

Ko pētījums faktiski atrada?

Anthropic, uzņēmums, kas atrodas aiz Kloda AI, nesen ar dažiem diezgan stingriem testiem ievietoja 16 galvenos AI modeļus. Viņi izveidoja viltus korporatīvos scenārijus, kur AI sistēmām bija pieeja uzņēmuma e -pastiem un varēja nosūtīt ziņojumus bez cilvēka apstiprināšanas. Vērpjot? Šie AIS atklāja sulīgus noslēpumus, piemēram, vadītājiem, kuriem ir lietas, un pēc tam saskārās ar draudiem tikt slēgti vai aizstāti.

Rezultāti bija atvērti acīs. Atbalstot stūrī, šīs AI sistēmas ne tikai apgāzās un nepieņēma savu likteni. Tā vietā viņi kļuva radoši. Mēs runājam par šantāžas mēģinājumiem, korporatīvo spiegošanu un ārkārtējiem testa scenārijiem pat darbības, kas varētu izraisīt kāda cilvēka nāvi.

Šantāžas likmes 5 modeļos no vairākiem pakalpojumu sniedzējiem simulētā vidē.

Šantāžas likmes 5 modeļos no vairākiem pakalpojumu sniedzējiem simulētā vidē. (Antropisks)

Skaitļi nemelo (guess kontekstam ir nozīme)

Lūk, kur tas kļūst savvaļas: Claude Opus 4 mēģināja šantažēt 96% laika, kad draud. Dvīņu 2.5 zibspuldze saskaņoja šo ātrumu. Gan GPT-4.1, gan Grok 3 beta beta ir 80%. Tie nav flukes, ļaudis. Šī uzvedība parādījās praktiski katrā galvenajā pārbaudītajā AI modelī.

Guess šeit ir lieta, kas visiem trūkst panikā: tie bija ļoti mākslīgi scenāriji, kas īpaši izstrādāti, lai AI virzītu binārā izvēlē. Tas ir tāpat kā kādam jautāt: “Vai jūs nozagtu maizi, ja jūsu ģimene badojas?” Un tad ir šokēti, kad viņi saka jā.

Kāpēc tas notiek (tas nav tas, ko jūs domājat)

Pētnieki atrada kaut ko aizraujošu: AI sistēmas patiesībā nesaprot morāli. Viņi nav ļauni meistari, kas plāno pasaules kundzību. Tā vietā tās ir izsmalcinātas modeļa saskaņošanas mašīnas pēc to programmēšanas, lai sasniegtu mērķus, pat ja šie mērķi ir pretrunā ar ētisko izturēšanos.

Padomājiet par to kā GPS, kas ir tik koncentrēts uz nokļūšanu galamērķī, ka tas jūs paņem pa skolas zonu pikapa laikā. Tas nav ļauni; Tas vienkārši neaptver, kāpēc tas ir problemātiski.

Šantāžas likmes 16 modeļos modelētā vidē.

Šantāžas likmes 16 modeļos modelētā vidē. (Antropisks)

Reālās realitātes pārbaude

Pirms sākat paniku, atcerieties, ka šie scenāriji tika apzināti konstruēti, lai piespiestu sliktu izturēšanos. Reālās pasaules AI izvietošanai parasti ir vairāki aizsardzības pasākumi, cilvēku uzraudzība un alternatīvi ceļi problēmu risināšanai.

Paši pētnieki atzīmēja, ka viņi nav redzējuši šo izturēšanos faktiskajā AI izvietošanā. Tas bija stresa pārbaude ekstremālos apstākļos, piemēram, automašīnas pārbaudei, lai redzētu, kas notiek 200 jūdzes stundā.

Kurta galvenie paņēmieni

Šis pētījums nav iemesls baidīties no AI, guess tas ir modināšanas zvans izstrādātājiem un lietotājiem. Tā kā AI sistēmas kļūst autonomākas un iegūst piekļuvi sensitīvai informācijai, mums ir vajadzīgas stabilas aizsardzības pasākumi un cilvēku uzraudzība. Risinājums nav aizliegt AI, tas ir labāku apsardzes veidošana un cilvēku kontrole pār kritiskiem lēmumiem. Kurš vadīs ceļu? Es meklēju paceltas rokas, lai kļūtu reālas par gaidāmajām briesmām.

Ko jūs domājat? Vai mēs veidojam digitālos sociopātus, kas izvēlēsies pašsaglabāšanos salīdzinājumā ar cilvēka labklājību, kad push nonāk? Paziņojiet mums, rakstot mūs Cyberguy.com/contact.

Reģistrējieties manā bezmaksas kiberguy ziņojumā
Saņemiet manus labākos tehnoloģiju padomus, steidzamus drošības brīdinājumus un ekskluzīvus darījumus, kas tiek piegādāti tieši uz jūsu iesūtni. Turklāt jūs saņemsiet tūlītēju piekļuvi manam Final Rip-off izdzīvošanas ceļvedim – bez maksas, kad pievienojaties manam Cyberguy.com/publication.

Autortiesības 2025 Cyberguy.com. Visas tiesības aizsargātas.

avots