Pēdējā laikā daudz tiek runāts par domu, ka lielie argumentācijas modeļi (LRM) nespēj domāt. Tas galvenokārt ir saistīts ar Apple publicēto pētījumu rakstu, "Domāšanas ilūzija" Apple apgalvo, ka LRM nedrīkst būt spējīgi domāt; tā vietā viņi tikai veic modeļu saskaņošanu. Viņu sniegtie pierādījumi ir tādi, ka LRM ar domu ķēdes (CoT) argumentāciju nespēj veikt aprēķinus, izmantojot iepriekš noteiktu algoritmu, problēmai augot.
Tas ir fundamentāli kļūdains arguments. Ja jūs lūgtu cilvēku, kurš jau zina Hanojas torņa problēmas risināšanas algoritmu, atrisināt, piemēram, Hanojas torņa problēmu ar divdesmit diskiem, viņam vai viņai tas gandrīz noteikti neizdosies. Pēc šīs loģikas jāsecina, ka arī cilvēki nevar domāt. Tomēr šis arguments tikai norāda uz domu, ka nav pierādījumu tam, ka LRM nespēj domāt. Tas vien noteikti nenozīmē, ka LRM var domāt — tikai to, ka mēs nevaram būt pārliecināti, ka viņi to nedara.
Šajā rakstā es izteikšu drosmīgāku apgalvojumu: LRM gandrīz noteikti var domāt. Es saku “gandrīz”, jo vienmēr pastāv iespēja, ka turpmākie pētījumi mūs pārsteigs. Wager es domāju, ka mans arguments ir diezgan pārliecinošs.
Kas ir domāšana?
Pirms mēģināt saprast, vai LRM spēj domāt, mums ir jādefinē, ko mēs saprotam ar domāšanu. Wager vispirms mums ir jāpārliecinās, ka cilvēki var domāt saskaņā ar definīciju. Mēs apsvērsim tikai domāšanu saistībā ar problēmu risināšanu, kas ir strīdus jautājums.
1. Problēmas attēlojums (priekšējās un parietālās daivas)
Kad jūs domājat par problēmu, course of iesaista jūsu prefrontālo garozu. Šis reģions ir atbildīgs par darba atmiņu, uzmanību un izpildfunkcijām — spējām, kas ļauj paturēt prātā problēmu, sadalīt to apakškomponentos un noteikt mērķus. Jūsu parietālā garoza palīdz iekodēt simbolisku struktūru matemātikas vai mīklu uzdevumiem.
2. Garīgā simulācija (morking Atmiņa un iekšējā runa)
Tam ir divas sastāvdaļas: viena ir dzirdes cilpa, kas ļauj sarunāties ar sevi — ļoti līdzīga CoT paaudzei. Otrs ir vizuālie attēli, kas ļauj vizuāli manipulēt ar objektiem. Ģeometrija bija tik svarīga, lai orientētos pasaulē, ka mēs tai izstrādājām īpašas iespējas. Dzirdes daļa ir saistīta ar Brokas zonu un dzirdes garozu, abas tiek atkārtoti izmantotas no valodu centriem. Vizuālā garoza un parietālās zonas galvenokārt kontrolē vizuālo komponentu.
3. Rakstu saskaņošana un izguve (hipokamps un temporālās daivas)
Šīs darbības ir atkarīgas no pagātnes pieredzes un uzkrātajām zināšanām no ilgtermiņa atmiņas:
-
Hipokamps palīdz izgūt saistītās atmiņas un faktus.
-
Temporālā daiva ienes semantiskās zināšanas — nozīmes, noteikumus, kategorijas.
Tas ir līdzīgi tam, kā neironu tīkli ir atkarīgi no viņu apmācības, lai apstrādātu uzdevumu.
4. Uzraudzība un novērtēšana (priekšējā cingulārā garoza)
Mūsu priekšējā cingulate cortex (ACC) uzrauga kļūdas, konfliktus vai strupceļus — tajā jūs pamanāt pretrunas vai strupceļus. Šis course of būtībā ir balstīts uz modeļu saskaņošanu no iepriekšējās pieredzes.
5. Ieskats vai pārveidošana (noklusējuma režīma tīkls un labā puslode)
Kad esat iestrēdzis, jūsu smadzenes var pāriet noklusējuma režīms — brīvāks, iekšēji vērsts tīkls. Tas ir tad, kad jūs atkāpjaties, atlaižat pašreizējo pavedienu un dažreiz “pēkšņi” redzat jaunu leņķi (klasiskais “aha!” brīdis).
Tas ir līdzīgi kā DeepSeek-R1 tika apmācīts CoT spriešanai bez CoT piemēriem apmācības datos. Atcerieties, ka smadzenes nepārtraukti mācās, apstrādājot datus un risinot problēmas.
Turpretim LRM nav atļauts mainīt, pamatojoties uz reālajām atsauksmēm prognozēšanas vai ģenerēšanas laikā. Wager ar DeepSeek-R1 CoT apmācību, mācīšanās izdarīja notiek, mēģinot atrisināt problēmas — būtībā atjauninot argumentācijas laikā.
Līdzības starp CoT argumentāciju un bioloģisko domāšanu
LRM nav visas iepriekš minētās fakultātes. Piemēram, ir maz ticams, ka LRM savā ķēdē veiks pārāk daudz vizuālas argumentācijas, lai gan nedaudz var notikt. Wager tas noteikti nerada starpposma attēlus CoT paaudzē.
Lielākā daļa cilvēku savās galvās var izveidot telpiskus modeļus, lai atrisinātu problēmas. Vai tas nozīmē, ka varam secināt, ka LRM nespēj domāt? Es nepiekristu. Dažiem cilvēkiem ir arī grūti veidot telpiskus modeļus jēdzieniem, par kuriem viņi domā. Šo nosacījumu sauc afantāzija. Cilvēki ar šo stāvokli var domāt labi. Patiesībā viņi iet pa dzīvi tā, it kā viņiem nemaz netrūktu spēju. Daudzi no viņiem patiešām lieliski pārvalda simbolisko spriešanu un diezgan labi matemātikā — bieži vien pietiekami, lai kompensētu vizuālās argumentācijas trūkumu. Mēs varētu sagaidīt, ka mūsu neironu tīklu modeļi arī spēs apiet šo ierobežojumu.
Ja mēs aplūkojam iepriekš aprakstīto cilvēka domāšanas procesu abstraktāk, mēs varam redzēt galvenokārt šādas lietas:
1. Modeļu saskaņošana tiek izmantota, lai atsauktu atmiņā apgūto pieredzi, attēlotu problēmas un uzraudzītu un novērtētu domu ķēdes.
2. Darba atmiņā ir jāsaglabā visi starpposmi.
3. Atkāpšanās meklēšana secina, ka CoT nekur nevirzās, un atkāpjas uz kādu saprātīgu punktu.
Modeļu saskaņošana LRM ir saistīta ar tā apmācību. Visa apmācības būtība ir apgūt gan zināšanas par pasauli, gan modeļus, lai šīs zināšanas efektīvi apstrādātu. Tā kā LRM ir slāņveida tīkls, visai darba atmiņai ir jāietilpst vienā slānī. Svari glabā zināšanas par pasauli un paraugiem, kas jāievēro, savukārt apstrāde notiek starp slāņiem, izmantojot apgūtos modeļus, kas tiek saglabāti kā modeļa parametri.
Ņemiet vērā, ka pat CoT visam tekstam, ieskaitot ievadi, CoT un daļu no jau ģenerētās izvades, ir jāietilpst katrā slānī. Darba atmiņa ir tikai viens slānis (uzmanības mehānisma gadījumā tas ietver KV kešatmiņu).
CoT patiesībā ir ļoti līdzīgs tam, ko mēs darām, kad runājam ar sevi (kas ir gandrīz vienmēr). Mēs gandrīz vienmēr izsakām savas domas, un to dara arī CoT argumentētājs.
Ir arī labi pierādījumi tam, ka CoT argumentētājs var veikt atkāpšanās soļus, ja noteikta spriešanas līnija šķiet veltīga. Faktiski to redzēja Apple pētnieki, kad viņi mēģināja lūgt LRM atrisināt lielākus vienkāršu mīklu gadījumus. LRM pareizi atpazina, ka mēģinājumi tieši atrisināt mīklas neietilpst viņu darba atmiņā, tāpēc viņi mēģināja izdomāt labākus īsceļus, tāpat kā to darītu cilvēks. Tas ir vēl vairāk pierādījumu tam, ka LRM ir domātāji, nevis tikai akli iepriekš noteiktu modeļu sekotāji.
Wager kāpēc nākamā žetonu pareģotājs iemācītos domāt?
Pietiekama izmēra neironu tīkli var apgūt jebkuru aprēķinu, tostarp domāšanu. Wager nākamā vārda prognozēšanas sistēma var arī iemācīties domāt. Ļaujiet man precizēt.
Vispārēja ideja ir tāda, ka LRM nevar domāt, jo dienas beigās viņi tikai prognozē nākamo marķieri; tā ir tikai “slavināta automātiskā pabeigšana”. Šis uzskats būtībā ir nepareizs — nevis tas, ka tā ir “automātiskā pabeigšana”, guess gan tas, ka “automātiskajai pabeigšanai” nav jādomā. Faktiski nākamā vārda pareģošana ir tālu no ierobežotas domas. Gluži pretēji, tas ir vispārīgākais zināšanu atspoguļošanas veids, uz kuru ikviens var cerēt. Ļaujiet man paskaidrot.
Ikreiz, kad vēlamies attēlot kādas zināšanas, mums ir nepieciešama valoda vai simbolikas sistēma, lai to izdarītu. Pastāv dažādas formālās valodas, kas ir ļoti precīzas attiecībā uz to, ko tās var izteikt. Tomēr šādās valodās ir būtiski ierobežots zināšanu veids, ko tās var pārstāvēt.
Piemēram, pirmās kārtas predikātu loģika nevar attēlot visu predikātu īpašības, kas atbilst noteiktai īpašībai, jo tā nepieļauj predikātus pār predikātiem.
Protams, ir augstākas kārtas predikātu aprēķini, kas var attēlot predikātus uz patvaļīgiem dziļumiem. Wager pat viņi nevar izteikt idejas, kurām trūkst precizitātes vai kuras pēc būtības ir abstraktas.
Tomēr dabiskā valoda ir pilnīga izteiksmes spējā — jūs varat aprakstīt jebkuru jēdzienu jebkurā detalizācijas vai abstrakcijas līmenī. Patiesībā jūs pat varat aprakstīt jēdzienus par dabiskā valoda, izmantojot pašu dabisko valodu. Tas padara to par spēcīgu kandidātu zināšanu reprezentācijai.
Protams, izaicinājums ir tāds, ka šī izteiksmīgā bagātība apgrūtina dabiskā valodā kodētās informācijas apstrādi. Taču mums nav obligāti jāsaprot, kā to izdarīt manuāli — mēs varam vienkārši ieprogrammēt iekārtu, izmantojot datus, izmantojot procesu, ko sauc par apmācību.
Nākamā marķiera prognozēšanas mašīna būtībā aprēķina varbūtības sadalījumu pa nākamo marķieri, ņemot vērā iepriekšējo marķieru kontekstu. Jebkurai iekārtai, kuras mērķis ir precīzi aprēķināt šo varbūtību, kaut kādā veidā ir jāatspoguļo pasaules zināšanas.
Vienkāršs piemērs: apsveriet nepabeigto teikumu, "Augstākā kalna virsotne pasaulē ir Mount …" — lai prognozētu nākamo vārdu kā Everests, modelī šīs zināšanas ir kaut kur jāsaglabā. Ja uzdevums prasa modelim aprēķināt atbildi vai atrisināt mīklu, nākamā marķiera prognozētājam ir jāizvada CoT marķieri, lai virzītu loģiku uz priekšu.
Tas nozīmē, ka, lai gan tas paredz vienu marķieri vienlaikus, modelim ir iekšēji jāatspoguļo vismaz daži nākamie marķieri savā darba atmiņā — pietiekami, lai nodrošinātu, ka tas paliek uz loģiskā ceļa.
Ja tā padomā, cilvēki arī paredz nākamo marķieri — runas laikā vai domājot, izmantojot iekšējo balsi. Ideālai automātiskās pabeigšanas sistēmai, kas vienmēr izvada pareizos marķierus un rada pareizas atbildes, ir jābūt visu zinošai. Protams, mēs nekad nesasniegsim šo punktu, jo ne katra atbilde ir aprēķināma.
Tomēr parametrizēts modelis, kas var attēlot zināšanas, pielāgojot savus parametrus, un kas var mācīties, izmantojot datus un pastiprinājumu, noteikti var iemācīties domāt.
Vai tas rada domāšanas sekas?
Galu galā vislielākā domāšanas pārbaude ir sistēmas spēja atrisināt problēmas, kas prasa domāšanu. Ja sistēma var atbildēt uz iepriekš neredzētiem jautājumiem, kas prasa zināmu pamatojumu, tai ir jāiemācās domāt — vai vismaz spriest — ceļš uz atbildi.
Mēs zinām, ka patentētie LRM darbojas ļoti labi, ievērojot noteiktus argumentācijas kritērijus. Tomēr, tā kā pastāv iespēja, ka daži no šiem modeļiem tika precīzi noregulēti etalontestu komplektos, izmantojot aizmugures durvis, mēs koncentrēsimies tikai uz atvērtā koda modeļi godīguma un pārredzamības labad.
Mēs tos novērtējam, izmantojot šādus etalonus:
Kā redzams, dažos etalonos LRM spēj atrisināt ievērojamu skaitu uz loģiku balstītu jautājumu. Lai gan ir taisnība, ka daudzos gadījumos tie joprojām atpaliek no cilvēka veiktspējas, ir svarīgi atzīmēt, ka cilvēka bāzes līnija bieži nāk no personām, kas ir īpaši apmācītas atbilstoši šiem kritērijiem. Faktiski dažos gadījumos LRM pārspēj vidējo neapmācīto cilvēku.
Secinājums
Pamatojoties uz etalonu rezultātiem, pārsteidzošo līdzību starp CoT argumentāciju un bioloģisko spriešanu, kā arī teorētisko izpratni, ka jebkura sistēma ar pietiekamu reprezentācijas jaudu, pietiekamiem apmācības datiem un atbilstošu skaitļošanas jaudu var veikt jebkuru aprēķina uzdevumu — LRM atbilst šiem kritērijiem ievērojamā mērā.
Tāpēc ir saprātīgi secināt, ka LRM gandrīz noteikti piemīt spēja domāt.
Debašs Rejs Čadhuri ir vecākais galvenais inženieris uzņēmumā Talentica programmatūra un Ph.D. kandidāts kriptogrāfijā IIT Bombejā.
Lasiet vairāk no mūsu viesraksti. Vai arī apsveriet iespēju iesniegt savu ziņu! Skatiet mūsu vadlīnijas šeit.













