Home Tehnoloģija Openai, Google un Meta pētnieki brīdina, ka mēs varam zaudēt spēju izsekot...

Openai, Google un Meta pētnieki brīdina, ka mēs varam zaudēt spēju izsekot AI nepareizai uzvedībai

17
0

Vairāk nekā 40 zinātnieki no pasaules vadošajām AI institūcijām, ieskaitot Openai, Google Deepmind, Anthropic un Meta, ir sanākuši kopā, lai aicinātu veikt vairāk pētījumu noteiktā drošības uzraudzībā, kas cilvēkiem ļauj analizēt, kā AI modeļi “domā”.

Zinātnieki publicēja a pētniecības dokuments Otrdien, kas uzsvēra tā dēvēto domu ķēdes (COT) uzraudzību kā jaunu, guess trauslu iespēju palielināt AI drošību. Papīru atbalstīja tādas ievērojamas AI figūras kā Openai līdzdibinātāji Džons Šulmans un Iļja Sutskevers, kā arī Nobela prēmijas laureāts, kas pazīstams kā “AI krusttēvs”, Geoffrey Hinton.

Rakstā zinātnieki paskaidroja, kā tādi mūsdienu argumentācijas modeļi kā Chatgpt ir apmācīti “pirms darbību veikšanas vai gala rezultātu iegūšanas” veikt paplašinātu argumentāciju COT vai ražot galīgos rezultātus ”. Citiem vārdiem sakot, viņi soli pa solim “skaļi domā skaļi”, nodrošinot viņiem darba atmiņas veidu sarežģītu uzdevumu risināšanai.

“AI sistēmas, kas“ domā ”cilvēku valodā piedāvā unikālu AI drošības iespēju: mēs varam uzraudzīt viņu domu ķēdes (gultiņa), lai nodomātu rīkoties nepareizi,” rakstīja papīra autori.

Pētnieki apgalvo, ka COT uzraudzība var palīdzēt pētniekiem noteikt, kad modeļi sāk izmantot trūkumus apmācībā, manipulēt ar datiem vai kļūt par ļaunprātīgas lietotāja manipulāciju upuri. Jebkuras atrastajām problēmām var vai nu “bloķēt, vai aizstāt ar drošākām darbībām, vai arī padziļināti pārskatīt”.

Openai pētnieki jau ir izmantojuši šo paņēmienu, lai pārbaudītu gadījumus, kad AI modeļiem ir bijusi frāze “Lakāsimies”Viņu gultā.

Pašreizējie AI modeļi šo domāšanu veic cilvēku valodā, guess pētnieki brīdina, ka tas ne vienmēr var būt gadījums.

Tā kā izstrādātāji vairāk paļaujas uz pastiprināšanas mācīšanos, kas par prioritāti izvirza pareizos rezultātus, nevis uz to, ka viņi nonāca pie tiem, turpmākie modeļi var attīstīties no argumentācijas izmantošanas, ko cilvēki nevar viegli saprast. Turklāt uzlabotie modeļi galu galā varētu iemācīties apspiest vai aizēnot to argumentāciju, ja tie atklāj, ka tas tiek uzraudzīts.

Atbildot uz to, pētnieki mudina AI izstrādātājus izsekot un novērtēt savu modeļu COT uzraudzību un uzskatīt to par kritisku vispārējās modeļa drošības sastāvdaļu. Viņi pat iesaka kļūt par galveno apsvērumu, apmācot un izvietojot jaunus modeļus.

avots