Meta FAIR un Edinburgas universitātes pētnieki ir izstrādājuši jaunu paņēmienu, kas var paredzēt liela valodas modeļa (LLM) argumentācijas pareizību un pat iejaukties, lai labotu tās kļūdas. Zvanīja Uz ķēdi balstīta argumentācijas pārbaude (CRV), metode aplūko LLM iekšienē, lai uzraudzītu tās iekšējās “sadomāšanas shēmas” un atklātu skaitļošanas kļūdu pazīmes, modelim atrisinot problēmu.
Viņu atklājumi liecina, ka CRV var ar augstu precizitāti atklāt spriešanas kļūdas LLM, veidojot un novērojot skaitļošanas grafiku no modeļa iekšējām aktivizēšanām. Svarīgākajā izrāvienā pētnieki arī pierādīja, ka viņi var izmantot šo dziļo ieskatu, lai piemērotu mērķtiecīgus pasākumus, kas lidojuma laikā labo modeļa kļūdaino pamatojumu.
Šis paņēmiens varētu palīdzēt atrisināt vienu no lielākajiem AI izaicinājumiem: nodrošināt, ka modeļa argumentācija ir patiesa un pareiza. Tas varētu būt būtisks solis ceļā uz uzticamāku AI lietojumprogrammu izveidi uzņēmumam, kur uzticamība ir vissvarīgākā.
Domu ķēdes argumentācijas izpēte
Domu ķēdes (CoT) spriešana ir bijusi spēcīga metode, lai uzlabotu LLM veiktspēju sarežģītu uzdevumu veikšanā, un tā ir bijusi viena no galvenajām sastāvdaļām, lai gūtu panākumus tādiem argumentācijas modeļiem kā OpenAI o sērija un DeepSeek-R1.
Tomēr, neskatoties uz CoT panākumiem, tas nav pilnībā uzticams. Pats argumentācijas course of bieži vien ir kļūdains, un vairākas pētījumiem ir parādījuši, ka LLM ģenerētie CoT marķieri ne vienmēr precīzi atspoguļo tā iekšējo spriešanas procesu.
Pašreizējie aizsardzības līdzekļi CoT pārbaudei iedalās divās galvenajās kategorijās. “Melnās kastes” pieejas analizē galīgo ģenerēto marķieri vai dažādu marķiera opciju uzticamības rādītājus. “Pelēkās kastes” pieejas iet soli tālāk, aplūkojot modeļa iekšējo stāvokli, izmantojot vienkāršas zondes tā neapstrādātajām neironu aktivizēšanām.
Wager, lai gan šīs metodes var noteikt, ka modeļa iekšējais stāvoklis ir saistīts ar kļūdu, tās nevar izskaidrot kāpēc pamatā esošais aprēķins neizdevās. Reālās pasaules lietojumprogrammām, kurās ir ļoti svarīgi saprast kļūmes pamatcēloņu, šī ir ievērojama nepilnība.
Baltās kastes pieeja verifikācijai
CRV pamatā ir ideja, ka modeļi veic uzdevumus, izmantojot specializētus apakšgrafus vai "ķēdes," neironiem, kas darbojas kā latenti algoritmi. Tātad, ja modeļa argumentācija neizdodas, to izraisa kļūda viena no šiem algoritmiem izpildē. Tas nozīmē, ka, pārbaudot pamatā esošo skaitļošanas procesu, mēs varam diagnosticēt defekta cēloni, līdzīgi kā izstrādātāji pārbauda izpildes pēdas, lai atkļūdotu tradicionālo programmatūru.
Lai tas būtu iespējams, pētnieki vispirms padara mērķa LLM interpretējamu. Tie aizstāj standarta blīvos transformatoru bloku slāņus ar apmācītiem "pārkodētāji." Pārkodētājs ir specializēts dziļās mācīšanās komponents, kas liek modelim attēlot savus starpaprēķinus nevis kā blīvu, nelasāmu skaitļu vektoru, wager gan kā retu un jēgpilnu pazīmju kopu. Pārkodētāji ir līdzīgi reti autoenkoderi (SAE), ko izmanto mehāniskās interpretācijas pētījumos ar atšķirību, ka tie arī saglabā tā tīkla funkcionalitāti, kuru tie emulē. Šī modifikācija modelī efektīvi instalē diagnostikas portu, ļaujot pētniekiem novērot tā iekšējo darbību.
Izmantojot šo interpretējamo modeli, CRV course of attīstās dažos posmos. Katram modeļa veiktajam argumentācijas solim CRV konstruē an "attiecinājuma grafiks" kas kartē cēloņsakarīgo informācijas plūsmu starp pārkodētāja interpretējamajām iezīmēm un marķieriem, ko tas apstrādā. No šī grafika tiek iegūts a "strukturāls pirkstu nospiedums" kas satur pazīmju kopu, kas apraksta diagrammas īpašības. Visbeidzot, šiem pirkstu nospiedumiem tiek apmācīts “diagnostikas klasifikatora” modelis, lai prognozētu, vai argumentācijas solis ir pareizs vai nē.
Secinājumu izdarīšanas brīdī klasifikators uzrauga modeļa aktivizēšanu un sniedz atgriezenisko saiti par to, vai modeļa argumentācijas izsekošana ir pareizajā virzienā.
Kļūdu atrašana un labošana
Pētnieki pārbaudīja savu metodi uz a Lama 3.1 8B Norādīt modeli, kas modificēts ar pārkodētājiem, novērtējot to, izmantojot sintētisko (būla un aritmētiskā) un reālās pasaules (GSM8K matemātikas problēmas) datu kopas. Viņi salīdzināja CRV ar visaptverošu melnās kastes un pelēkās kastes bāzes līniju komplektu.
Rezultāti sniedz spēcīgu empīrisku atbalstu centrālajai hipotēzei: strukturālie paraksti argumentācijas soļa skaitļošanas trasē satur pārbaudāmu signālu par tā pareizību. CRV konsekventi pārspēja visas bāzes metodes katrā datu kopā un metrikā, parādot, ka dziļš, strukturāls modeļa aprēķinu skatījums ir spēcīgāks nekā virsmas līmeņa analīze.
Interesanti, ka analīze atklāja, ka kļūdu paraksti ir ļoti specifiski domēnam. Tas nozīmē, ka neveiksmes dažādos spriešanas uzdevumos (formālā loģika pret aritmētisko aprēķinu) izpaužas kā atšķirīgi skaitļošanas modeļi. Klasifikators, kas apmācīts atklāt kļūdas vienā domēnā, nepāriet uz citu, uzsverot, ka dažāda veida argumentācijas pamatā ir dažādas iekšējās shēmas. Praksē tas nozīmē, ka katram uzdevumam, iespējams, būs jāapmāca atsevišķs klasifikators (lai gan pārkodētājs paliek nemainīgs).
Tomēr vissvarīgākais atklājums ir tāds, ka šie kļūdu paraksti nav tikai korelācijas, wager arī cēloņsakarības. Tā kā CRV nodrošina pārskatāmu aprēķinu skatījumu, paredzamo kļūmi var izsekot līdz noteiktam komponentam. Vienā gadījuma izpētē modelis pieļāva darbību secības kļūdu. CRV atzīmēja šo soli un konstatēja, ka a "reizināšana" funkcija tika aktivizēta priekšlaicīgi. Pētnieki iejaucās, manuāli nomācot šo vienu funkciju, un modelis nekavējoties laboja savu ceļu un pareizi atrisināja problēmu.
Šis darbs ir solis ceļā uz stingrāku AI interpretējamības un kontroles zinātni. Kā secināts rakstā, “šie atklājumi nosaka CRV kā mehānisma analīzes koncepcijas pierādījumu, parādot, ka pāreja no necaurspīdīgas aktivizēšanas uz interpretējamu skaitļošanas struktūru ļauj izprast, kā un kāpēc LLM nespēj pareizi pamatot.” Lai atbalstītu turpmākus pētījumus, komanda plāno publiskot savas datu kopas un apmācītos pārkodētājus.
Kāpēc tas ir svarīgi
Lai gan CRV ir pētniecības koncepcijas pierādījums, tā rezultāti liecina par nozīmīgu AI attīstības nākotni. AI modeļi apgūst iekšējos algoritmus vai "ķēdes," dažādiem uzdevumiem. Taču, tā kā šie modeļi ir necaurredzami, mēs nevaram tos atkļūdot kā standarta datorprogrammas, izsekojot kļūdas līdz konkrētām aprēķina darbībām. Attiecinājuma grafiki ir vistuvāk izpildes izsekojamībai, kas parāda, kā izvade tiek iegūta no starpposmiem.
Šis pētījums liecina, ka attiecinājuma diagrammas varētu būt pamats jaunai AI modeļu atkļūdotāju klasei. Šādi rīki ļautu izstrādātājiem izprast kļūmju galveno cēloni, neatkarīgi no tā, vai tas ir nepietiekami apmācības dati vai traucējumi starp konkurējošiem uzdevumiem. Tas ļautu veikt precīzus mazināšanas pasākumus, piemēram, mērķtiecīgu precizēšanu vai pat tiešu modeļa rediģēšanu, nevis dārgu pilna mēroga pārkvalifikāciju. Tie varētu arī ļaut veikt efektīvāku iejaukšanos, lai labotu modeļa kļūdas secinājumu veikšanas laikā.
CRV panākumi argumentācijas kļūdu atklāšanā un noteikšanā ir iepriecinoša zīme, ka šādi atkļūdotāji varētu kļūt par realitāti. Tas pavērtu ceļu stingrākiem LLM un autonomiem aģentiem, kas spēj tikt galā ar reālās pasaules neparedzamību un, līdzīgi kā cilvēki, labo kursu, kad viņi pieļauj argumentācijas kļūdas.
 
             
	