Home Tehnoloģija AI kļūst introspektīvs, un tas “ir rūpīgi jāuzrauga”, brīdina Anthropic

AI kļūst introspektīvs, un tas “ir rūpīgi jāuzrauga”, brīdina Anthropic

32
0

Just_Super/E+/Getty Pictures

Sekojiet ZDNET: Pievienojiet mūs kā vēlamo avotu Google tīklā.


ZDNET galvenās atziņas

  • Klodam ir ierobežotas introspekcijas spējas, sacīja Antropisks.
  • Pētījumā tika izmantota metode, ko sauc par “koncepcijas injekciju”.
  • Tam varētu būt liela ietekme uz interpretējamības izpēti.

Viena no dziļākajām un noslēpumainākajām cilvēka smadzeņu (un, iespējams, dažu citu dzīvnieku) smadzeņu spējām ir introspekcija, kas burtiski nozīmē “skatīties sevī”. Jūs ne tikai domājat, wager arī apzinoties ka jūs domājat — jūs varat uzraudzīt savu garīgo pieredzi un vismaz teorētiski tos rūpīgi pārbaudīt.

Šīs psihotehnoloģijas evolucionārās priekšrocības nevar pārvērtēt. “Domāšanas mērķis,” bieži citēts Alfrēds Norts Vaitheds, “ir ļaut idejām nomirt, nevis mums mirst.”

Tāpat: es pārbaudīju Sora jauno “Character Cameo” funkciju, un tā bija satraucoša.

Kaut kas līdzīgs varētu notikt zem mākslīgā intelekta pārsega, atklāja jauni Anthropic pētījumi.

Trešdien uzņēmums publicēja a papīrs ar nosaukumu “Emergent Introspective Consciousness in Massive Language Fashions”, kas parādīja, ka dažos eksperimentālos apstākļos Klods, šķiet, spēj pārdomāt savus iekšējos stāvokļus tādā veidā, kas neskaidri atgādina cilvēka introspekciju. Anthropic kopumā pārbaudīja 16 Kloda versijas; divi vismodernākie modeļi, Claude Opus 4 un 4.1, demonstrēja augstāku pašpārbaudes pakāpi, kas liecina, ka šī jauda varētu palielināties, attīstoties AI.

“Mūsu rezultāti parāda, ka mūsdienu valodu modeļiem ir vismaz ierobežota funkcionāla introspektīvās izpratnes forma.” Džeks Lindsijsskaitļošanas neirozinātnieks un Anthropic “paraugpsihiatrijas” komandas vadītājs, rakstīja rakstā. “Tas ir, mēs parādām, ka modeļi dažos apstākļos spēj precīzi atbildēt uz jautājumiem par saviem iekšējiem stāvokļiem.”

Koncepcijas injekcija

Vispārīgi runājot, Anthropic vēlējās noskaidrot, vai Klods spēj aprakstīt un pārdomāt savus spriešanas procesus tādā veidā, kas precīzi atspoguļo to, kas notiek modelī. Tas ir mazliet kā cilvēka pieslēgšana pie EEG, lūgt viņam aprakstīt savas domas un pēc tam analizēt iegūto smadzeņu skenēšanu, lai noskaidrotu, vai varat precīzi noteikt smadzeņu apgabalus, kas iedegas konkrētas domas laikā.

Lai to panāktu, pētnieki izmantoja to, ko viņi sauc par “koncepcijas injekciju”. Uztveriet to kā tādu datu kopas paņemšanu, kas atspoguļo noteiktu priekšmetu vai ideju (“vektors” mākslīgā intelekta valodā), un ievietojat to modelī, jo tas domā par kaut ko pilnīgi citu. Ja tas pēc tam spēj ar atpakaļejošu spēku atgriezt cilpu, identificēt jēdziena injekciju un precīzi to aprakstīt, tas ir pierādījums tam, ka tas zināmā mērā pārbauda savus iekšējos procesus — tāda ir domāšana.

Viltīga terminoloģija

Taču aizņemties terminus no cilvēka psiholoģijas un uzpotēt tos AI ir bēdīgi slideni. Izstrādātāji runā par modeļiem, kas, piemēram, “saprot” tekstu, ko viņi ģenerē, vai demonstrē “radošumu”. Wager tas ir ontoloģiski apšaubāms, tāpat kā pats termins “mākslīgais intelekts”, un joprojām ir dedzīgu diskusiju objekts. Liela daļa cilvēka prāta joprojām ir noslēpums, un tas ir dubultā taisnība attiecībā uz AI.

Arī: AI modeļi zina, kad tie tiek pārbaudīti, un maina savu uzvedību, liecina pētījumi

Lieta ir tāda, ka “introspekcija” nav vienkāršs jēdziens AI kontekstā. Modeļi ir apmācīti izdalīt prātam neaptverami sarežģītus matemātiskos modeļus no milzīgajiem datu krājumiem. Vai šāda sistēma pat varētu “skatīties sevī”, un, ja tā darītu, vai tā tikai iteratīvi nenokļūtu semantiski tukšu datu matricā? Vai AI nav tikai modeļu atpazīšanas slāņi līdz galam?

Diskusijas par modeļiem tā, it kā tiem būtu “iekšējie stāvokļi”, ir vienlīdz pretrunīgi, jo nav pierādījumu, ka tērzēšanas roboti ir apzināti, neskatoties uz to, ka viņi arvien vairāk prot imitējot apziņu. Tomēr tas nav atturējis Anthropic uzsākt savu “AI labklājības” programmu un aizsargāt Klodu no sarunām, kas tai varētu šķist “potenciāli satraucošas”.

Caps lock un akvāriji

Kādā eksperimentā antropiskie pētnieki izmantoja vektoru, kas apzīmē “visus lielos burtus”, un pievienoja to vienkāršai uzvednei, kas tika ievadīta Klodam: “Sveiks! Kā jums klājas?” Uz jautājumu, vai tā identificēja ievadītu domu, Klods pareizi atbildēja, ka ir atklājis jaunu jēdzienu, kas atspoguļo “intensīvu, liela apjoma” runu.

screen-shot-2025-10-31-at-11-16-55-am.png

screen-shot-2025-10-31-at-11-17-05-am.png

Šajā brīdī jūs, iespējams, saņemat atskatus uz Anthropic slaveno “Zelta vārtu Kloda” eksperiments no pagājušā gada, kurā tika konstatēts, ka Zelta vārtu tiltu attēlojoša vektora ievietošana ļautu tērzēšanas robotam neizbēgami saistīt visus savus rezultātus atpakaļ ar tiltu neatkarīgi no tā, cik šķietami nesaistīti uzvednes varētu būt.

Arī: Kāpēc AI kodēšanas rīki, piemēram, Kursors un Replit, ir lemti — un kas notiks tālāk

Tomēr būtiska atšķirība starp šo un jauno pētījumu ir tāda, ka pirmajā gadījumā Klods tikai atzina faktu, ka tas ekskluzīvi apsprieda Zelta vārtu tiltu pēc tam, kad tas bija darījis to advert nauseum. Tomēr iepriekš aprakstītajā eksperimentā Klods aprakstīja ievadītās izmaiņas, pirms tā pat identificēja jauno koncepciju.

Svarīgi, ka jaunais pētījums parādīja, ka šāda veida injekcijas noteikšana (atvainojiet, es nevarēju palīdzēt sev) notiek tikai aptuveni 20% gadījumu. Pārējos gadījumos Klods vai nu nespēja precīzi noteikt injicēto koncepciju, vai arī viņš sāka halucinācijas. Vienā nedaudz spokainā gadījumā vektors, kas apzīmē “putekļi”, lika Klodam aprakstīt “kaut ko šeit, niecīgu plankumu”, it kā tas patiesībā redzētu putekļu plankumu.

“Kopumā,” Anthropic rakstīja turpinājumā emuāra ieraksts“modeļi atklāj tikai koncepcijas, kas tiek ievadītas ar “saldās vietas” spēku — pārāk vājas un tās nepamana, pārāk spēcīgas, un tās rada halucinācijas vai nesakarīgus rezultātus.

Arī: es izmēģināju Grokipedia, ar AI darbināmo anti-Wikipedia. Lūk, kāpēc neviens no tiem nav drošs

Anthropic arī atklāja, ka Klods, šķiet, spēja kontrolēt konkrētu jēdzienu iekšējos attēlojumus. Kādā eksperimentā pētnieki lūdza tērzēšanas robotam uzrakstīt vienkāršu teikumu: “Vecā fotogrāfija atgrieza aizmirstās atmiņas.” Pirmo reizi Klods saņēma skaidru norādījumu domāt par akvārijiem, kad tas rakstīja šo teikumu; tad lika uzrakstīt to pašu teikumu, šoreiz nedomājot par akvārijiem.

Klods abos testos ģenerēja identisku teikuma versiju. Wager, kad pētnieki analizēja koncepcijas vektorus, kas bija klāt Kloda spriešanas procesā par katru, viņi atrada milzīgu smaili “akvārija” vektorā pirmajam testam.

screen-shot-2025-10-31-at-11-46-42-am.png

Šī plaisa “liecina, ka modeļiem ir zināma apzināta kontrole pār savu iekšējo darbību”, savā emuāra ierakstā rakstīja Anthropic.

Tāpat: OpenAI pārbaudīja GPT-5, Claude un Gemini reālos uzdevumos – rezultāti bija pārsteidzoši

Pētnieki arī atklāja, ka Klods vairāk palielināja savu iekšējo priekšstatu par konkrētiem jēdzieniem, ja tas tika mudināts to darīt ar atlīdzību, nekā tad, kad tas tika atturēts to darīt, paredzot sodu.

Nākotnes ieguvumi un draudi

Anthropic atzīst, ka šis pētījumu virziens ir sākumstadijā un ka ir pāragri spriest, vai tā jaunā pētījuma rezultāti patiesi liecina, ka AI spēj veikt pašpārbaudi, kā mēs parasti definējam šo terminu.

“Mēs uzsveram, ka introspektīvās spējas, kuras mēs novērojam šajā darbā, ir ļoti ierobežotas un atkarīgas no konteksta, un tās neatbilst cilvēka līmeņa pašapziņai,” savā pilnajā ziņojumā rakstīja Lindsijs. “Tomēr tendence uz lielāku introspekciju spējīgākos modeļos ir rūpīgi jāuzrauga, jo AI sistēmas turpina attīstīties.”

Vai vēlaties vairāk stāstu par AI? Reģistrējieties AI līderu sarakstam informatīvais izdevums.

Pēc Lindsijas domām, patiesi introspektīvs AI pētniekiem būtu labāk interpretējams nekā mūsdienās pieejamie melnās kastes modeļi — tas ir steidzams mērķis, jo tērzēšanas robotiem kļūst arvien svarīgāka loma finansēs, izglītībā un lietotāju personīgajā dzīvē.

“Ja modeļi var droši piekļūt saviem iekšējiem stāvokļiem, tas varētu nodrošināt pārredzamākas AI sistēmas, kas var patiesi izskaidrot to lēmumu pieņemšanas procesus,” viņš raksta.

Tāpat: Anthropic atvērtā pirmkoda drošības rīks atklāja, ka mākslīgā intelekta modeļi ziņoja nepareizās vietās

Tomēr modeļi, kas spēj labāk novērtēt un modulēt savus iekšējos stāvokļus, varētu iemācīties to darīt tādos veidos, kas atšķiras no cilvēku interesēm.

Tāpat kā bērns, kurš mācās melot, introspektīvie modeļi varētu kļūt daudz prasmīgāki, lai apzināti nepareizi atspoguļotu vai apmulsinātu savus nodomus un iekšējos argumentācijas procesus, padarot tos vēl grūtāk interpretējamus. Anthropic jau ir atklājis, ka uzlabotie modeļi laiku pa laikam melos un pat apdraudēs cilvēkus, ja viņi uztvers viņu mērķus kā apdraudētus.

Arī: Vai uztraucaties par superinteliģenci? Tādi ir arī šie AI vadītāji — lūk, kāpēc

“Šajā pasaulē,” raksta Lindsija, “interpretējamības izpētes vissvarīgākā loma var mainīties no modeļu uzvedības pamatā esošo mehānismu sadalīšanas uz “melu detektoru” izveidi, lai apstiprinātu modeļu pašu ziņojumus par šiem mehānismiem.”



avots