Openai pētījumi par AI modeļiem apzināti melo ir savvaļas

19 septembris 2025

Ik pa brīdim lielāko tehnoloģiju uzņēmumu pētnieki nomet bumbu. Bija laiks, kad Google teica, ka tā jaunākā kvantu mikroshēma norāda, ka pastāv vairāki Visumi. Vai arī tad, kad Antropic deva savam AI aģentam Klaudiusai uzkodu tirdzniecības automātam, lai palaistu, un tas aizritēja, izsaucot drošību cilvēkiem un uzstājot, ka tā ir cilvēciska.

Šonedēļ bija Openai kārta pacelt mūsu kolektīvās uzacis.

Openai pirmdien publiskoja dažus pētījumus, kas paskaidroja Kā tas pārtrauc AI modeļus no “shēmas”. Tā ir prakse, kurā “AI uzvedas vienā virzienā uz virsmas, slēpjot savus patiesos mērķus”, Openai definēts tā tvītā par pētījumu.

Rakstā, kas tika veikts kopā ar Apollo pētījumiem, pētnieki devās mazliet tālāk, pielīdzinot AI shēmu cilvēku akciju brokerim, pārkāpjot likumu, lai nopelnītu pēc iespējas vairāk naudas. Pētnieki tomēr apgalvoja, ka vairums AI “shēmas” nav tik kaitīga. “Visizplatītākās neveiksmes ir saistītas ar vienkāršām maldināšanas formām – piemēram, izliekoties, ka ir izpildījuši uzdevumu, to faktiski nedarot,” viņi rakstīja.

Raksts lielākoties tika publicēts, lai parādītu, ka “padomdevējs izlīdzinājums”-pretshemācijas tehnika, kuru viņi pārbaudīja, darbojās labi.

Bet tas arī paskaidroja, ka AI izstrādātāji nav izdomājuši veidu, kā apmācīt viņu modeļus nevis shēmu. Tas ir tāpēc, ka šāda apmācība faktiski varētu iemācīt modelim, kā shēmu vēl labāk, lai izvairītos no atklāšanas.

“Galvenais neveiksmes veids, kā mēģināt“ apmācīt ”shēmu, ir vienkārši mācīt modeli rūpīgāk un slepenāk,” rakstīja pētnieki.

TechCrunch pasākums

Sanfrancisko
|
2025. gada 27.-29. Oktobris

Varbūt visvairāk pārsteidzošākā daļa ir tā, ka, ja modelis saprot, ka tas tiek pārbaudīts, tas var izlikties, ka tas nav shēmas, lai tikai nokārtotu testu, pat ja tas joprojām ir shēmas. “Modeļi bieži vairāk apzinās, ka tie tiek novērtēti. Šī situācijas izpratne pati par sevi var samazināt shēmu, neatkarīgi no patiesas izlīdzināšanas,” rakstīja pētnieki.

Nav ziņu, ka AI modeļi melos. Tagad lielākā daļa no mums ir piedzīvojuši AI halucinācijas vai modeli pārliecinoši sniedzot atbildi uz uzvedni, kas vienkārši nav taisnība. Bet halucinācijas galvenokārt uzrāda minējumus ar pārliecību, jo Openai Research ir izlaists Šā mēneša sākumā dokumentēts.

Scheming ir kaut kas cits. Tas ir apzināts.

Pat šī atklāsme – ka modelis apzināti maldina cilvēkus – nav jauna. Apollo pētījums vispirms Publicēja dokumentu decembrī Dokumentējot, kā pieci modeļi tika parādīti, kad viņiem tika doti norādījumi, lai sasniegtu mērķi “par katru cenu”.

Ziņas šeit faktiski ir labas ziņas: pētnieki redzēja ievērojamu samazinājumu shēmā, izmantojot “padomdevēju izlīdzināšanu”. Šis paņēmiens ietver modeļa “pretshemizācijas specifikācijas” mācīšanu un pēc tam, kad modelis to pārskata pirms darbības. Tas nedaudz līdzinās likt maziem bērniem atkārtot noteikumus, pirms viņi ļauj viņiem spēlēt.

Openai pētnieki uzstāj, ka melošana, ko viņi ir pieķēruši ar saviem modeļiem vai pat ar Chatgpt, nav tik nopietna. Kā Openai līdzdibinātājs Wojciech Zaremba pastāstīja Techcrunch Maksvels Zeffs par šo pētījumu: “Šis darbs ir veikts modelētajā vidē, un mēs domājam, ka tas atspoguļo turpmākus lietošanas gadījumus. Tomēr šodien mēs neesam redzējuši, ka šāda veida sekojoša shēma ir jūsu ražošanas trafika. Tomēr jūs varat to īstenot, un tas ir labi, ka, iespējams, ir, ka esat maldinoši, un tas ir iespējams, ka jūs, iespējams, ir. Lielisks darbs. ” Un tas ir tikai meli. Ir dažas sīkas maldināšanas formas, kuras mums joprojām ir jārisina. ”

Fakts, ka AI modeļi no vairākiem spēlētājiem apzināti maldina cilvēkus, iespējams, ir saprotams. Tos uzcēla cilvēki, lai atdarinātu cilvēkus un (sintētiskus datus) lielākoties apmācīti ar cilvēkiem, ko sagatavojuši cilvēki.

Tas ir arī bonkers.

Kamēr mēs visi esam piedzīvojuši neapmierinātību ar slikti izpildāmām tehnoloģijām (domājot par jums, mājas printeri), kad pēdējā reize, kad jūsu Not-AI programmatūra jums apzināti meloja? Vai jūsu iesūtne ir kādreiz izgatavojusi e -pastus pats par sevi? Vai jūsu CMS ir reģistrējusi jaunas izredzes, kuras nepastāv, lai to numuros? Vai jūsu Fintech lietotne ir veidojusi savus darījumus ar banku?

Ir vērts to pārdomāt kā korporatīvās pasaules mucas uz AI nākotni, kur uzņēmumi uzskata, ka aģentiem var izturēties kā pret neatkarīgiem darbiniekiem. Šī darba pētniekiem ir tāds pats brīdinājums.

“Tā kā AIS tiek uzticēti sarežģītākiem uzdevumiem ar reālās pasaules sekām un sāk sasniegt neviennozīmīgāku, ilgtermiņa mērķu sasniegšanu, mēs sagaidām, ka pieaugs kaitīgas shēmas potenciāls-tāpēc mūsu aizsardzības pasākumi un spēja stingri pārbaudīt attiecīgi augt,” viņi rakstīja.

avots

Openai pētījumi par AI modeļiem apzināti melo ir savvaļas

jaunākais ieraksts

95% pircēju redzēja mazāk matu izkrišanu pēc šī rīsu ūdens šampūna...

Šodienas NYT mini krustvārdu mīklas atbildes svētdienai, 19. oktobrim

Šodienas NYT savienojumi: sporta izdevuma padomi un atbildes 19. oktobrim, #391

Kā skatīties Jaguars vs. Rams tiešsaistē bez maksas

Mēness fāze šodien: kā izskatīsies mēness 19. oktobrī

Maikla Dž. Foksa ģitāra “Atpakaļ uz nākotni” ir pazudusi jau vairākus...

Hamas, iespējams, plāno uzbrukumu palestīniešu civiliedzīvotājiem, norāda ASV

Blue Jays atkal pievēršas iesācējam Yesavage

Šodienas NYT mini krustvārdu mīklas atbildes svētdienai, 19. oktobrim

Šķēršļu mājieni un atbildes 2025. gada 19. oktobrim