Home Tehnoloģija Openai, Google un Meta pētnieki brīdina, ka mēs varam zaudēt spēju izsekot...

Tehnoloģija

Openai, Google un Meta pētnieki brīdina, ka mēs varam zaudēt spēju izsekot AI nepareizai uzvedībai

17 jūlijs 2025

Vairāk nekā 40 zinātnieki no pasaules vadošajām AI institūcijām, ieskaitot Openai, Google Deepmind, Anthropic un Meta, ir sanākuši kopā, lai aicinātu veikt vairāk pētījumu noteiktā drošības uzraudzībā, kas cilvēkiem ļauj analizēt, kā AI modeļi “domā”.

Zinātnieki publicēja a pētniecības dokuments Otrdien, kas uzsvēra tā dēvēto domu ķēdes (COT) uzraudzību kā jaunu, guess trauslu iespēju palielināt AI drošību. Papīru atbalstīja tādas ievērojamas AI figūras kā Openai līdzdibinātāji Džons Šulmans un Iļja Sutskevers, kā arī Nobela prēmijas laureāts, kas pazīstams kā “AI krusttēvs”, Geoffrey Hinton.

Rakstā zinātnieki paskaidroja, kā tādi mūsdienu argumentācijas modeļi kā Chatgpt ir apmācīti “pirms darbību veikšanas vai gala rezultātu iegūšanas” veikt paplašinātu argumentāciju COT vai ražot galīgos rezultātus ”. Citiem vārdiem sakot, viņi soli pa solim “skaļi domā skaļi”, nodrošinot viņiem darba atmiņas veidu sarežģītu uzdevumu risināšanai.

“AI sistēmas, kas“ domā ”cilvēku valodā piedāvā unikālu AI drošības iespēju: mēs varam uzraudzīt viņu domu ķēdes (gultiņa), lai nodomātu rīkoties nepareizi,” rakstīja papīra autori.

Pētnieki apgalvo, ka COT uzraudzība var palīdzēt pētniekiem noteikt, kad modeļi sāk izmantot trūkumus apmācībā, manipulēt ar datiem vai kļūt par ļaunprātīgas lietotāja manipulāciju upuri. Jebkuras atrastajām problēmām var vai nu “bloķēt, vai aizstāt ar drošākām darbībām, vai arī padziļināti pārskatīt”.

Openai pētnieki jau ir izmantojuši šo paņēmienu, lai pārbaudītu gadījumus, kad AI modeļiem ir bijusi frāze “Lakāsimies”Viņu gultā.

Pašreizējie AI modeļi šo domāšanu veic cilvēku valodā, guess pētnieki brīdina, ka tas ne vienmēr var būt gadījums.

Tā kā izstrādātāji vairāk paļaujas uz pastiprināšanas mācīšanos, kas par prioritāti izvirza pareizos rezultātus, nevis uz to, ka viņi nonāca pie tiem, turpmākie modeļi var attīstīties no argumentācijas izmantošanas, ko cilvēki nevar viegli saprast. Turklāt uzlabotie modeļi galu galā varētu iemācīties apspiest vai aizēnot to argumentāciju, ja tie atklāj, ka tas tiek uzraudzīts.

Atbildot uz to, pētnieki mudina AI izstrādātājus izsekot un novērtēt savu modeļu COT uzraudzību un uzskatīt to par kritisku vispārējās modeļa drošības sastāvdaļu. Viņi pat iesaka kļūt par galveno apsvērumu, apmācot un izvietojot jaunus modeļus.

avots

Openai, Google un Meta pētnieki brīdina, ka mēs varam zaudēt spēju izsekot AI nepareizai uzvedībai

jaunākais ieraksts

Ģimenes dusmīgas par ziņojumu, kas liecina par pilotiem, kas atbild par...

NBC pavēl paklupt karsējmeiteņu komēdiju sērijai – Dženai Lionai, Taran Killam...

Atklāts jauns Pokemon atrakciju parks, mobilā spēle un TV šovs

Liecinieki atgādina nāvējošu Bangladešas lidmašīnas avāriju

Malkolma-Jamala Vornera Kosbija šova līdzzvaigzne Ādams Sandlers klusē par savu traģisko...

Šis Home windows mini dators iederas manā rokā – un atbalsta...

Te Jimmy Graham sāka aiziet pensijā ar svētajiem

Padleboardāja draugs “vajā” domas par pēdējiem mirkļiem ar 17 gadus veco...

22 gadus vēlāk Sāras Mišelas Gellaras “Buffy the Vampire Slayer” atgriešanās...

Šī jaunā bezmaksas mobilā Pokemon mīkla spēle ļauj jums aust digitālās...