Pievienojieties mūsu ikdienas un nedēļas biļeteniem, lai iegūtu jaunākos atjauninājumus un ekskluzīvu saturu par nozares vadošo AI pārklājumu. Uzziniet vairāk
Lielu valodu modeļi (LLM) pārveido to, kā darbojas uzņēmumi, wager to “melnās kastes” raksturs bieži atstāj uzņēmumus, kas cīnās ar neparedzamību. Risinot šo kritisko izaicinājumu, Antropisks Nesen atvērtais avots ķēdes izsekošanas rīksļaujot izstrādātājiem un pētniekiem tieši izprast un kontrolēt modeļu iekšējo darbību.
Šis rīks ļauj izmeklētājiem izpētīt neizskaidrojamas kļūdas un negaidītu izturēšanos atvērtā svara modeļos. Tas var arī palīdzēt ar sīku LLM precizēšanu īpašām iekšējām funkcijām.
Izpratne par AI iekšējo loģiku
Šis ķēdes izsekošanas rīks darbojas, pamatojoties uz “mehānistisko interpretējamību”, plaukstošu lauku, kas paredzēts izpratnei, kā AI modeļi darbojas, pamatojoties uz to iekšējām aktivizācijām, nevis tikai ievērojot to ieeju un izvadi.
Kaut arī Antropic sākotnējie pētījumi par shēmas izsekošanu izmantoja šo metodoloģiju savam Claude 3.5 Haiku modelim, atvērtā avota rīks paplašina šo spēju līdz atvērto svaru modeļiem. Anthropic komanda jau ir izmantojusi rīku, lai izsekotu shēmas tādos modeļos kā GEMMA-2-2-2B un LLAMA-3,2-1B un ir izlaidusi a Colab piezīmju grāmatiņa Tas palīdz izmantot bibliotēku atvērtos modeļos.
Rīka kodols ir attiecināšanas grafiku ģenerēšana, cēloņsakarības, kas izseko mijiedarbību starp funkcijām, modelim apstrādājot informāciju un ģenerē izvadi. (Funkcijas ir modeļa iekšējie aktivizācijas modeļi, kurus var aptuveni kartēt ar saprotamiem jēdzieniem.) Tas ir tāpat kā iegūt detalizētu AI iekšējā domāšanas procesa elektroinstalācijas diagrammu. Vēl svarīgāk ir tas, ka rīks ļauj “intervences eksperimentus”, ļaujot pētniekiem tieši mainīt šīs iekšējās pazīmes un novērot, kā izmaiņas AI iekšējos stāvokļos ietekmē tā ārējās reakcijas, ļaujot atkļūdot modeļus.
Rīks integrējas ar Neironpedijaatvērta platforma izpratnei un eksperimentēšanai ar neironu tīkliem.
Praktiski un turpmākā ietekme uz uzņēmuma AI
Kaut arī Antropic ķēdes izsekošanas rīks ir lielisks solis uz skaidrojamu un kontrolējamu AI, tam ir praktiskas problēmas, ieskaitot augstas atmiņas izmaksas, kas saistītas ar instrumenta palaišanu un detalizēto attiecināšanas grafiku interpretācijas raksturīgo sarežģītību.
Tomēr šie izaicinājumi ir raksturīgi progresīvākajiem pētījumiem. Mehāniskā interpretācija ir liela pētījumu joma, un vairums lielāko AI laboratoriju izstrādā modeļus, lai izpētītu lielo valodu modeļu iekšējo darbību. Atklāta avota ķēdes izsekošanas rīks, Antropic ļaus sabiedrībai izstrādāt interpretējamības rīkus, kas ir mērogojamāki, automatizētāki un pieejami plašākam lietotāju klāstam, atverot ceļu praktiskiem visu centienu pielietošanai, kas ļauj izprast LLMS.
Tā kā instrumenti nobriest, spēja saprast, kāpēc LLM pieņem noteiktu lēmumu, var pārvērsties par praktiskiem ieguvumiem uzņēmumiem.
Circuit izsekošana izskaidro, kā LLM veic izsmalcinātu daudzpakāpju argumentāciju. Piemēram, viņu pētījumā pētnieki varēja izsekot, kā modelis secināja “Teksasu” no “Dalasas” pirms ierašanās “Ostinā” kā galvaspilsēta. Tas arī atklāja progresīvus plānošanas mehānismus, piemēram, modeli, kas iepriekš atlasa rhyming vārdus dzejolī, lai vadītu līnijas kompozīciju. Uzņēmumi var izmantot šīs atziņas, lai analizētu, kā to modeļi risina sarežģītus uzdevumus, piemēram, datu analīzi vai juridisko spriešanu. Iekšējās plānošanas vai spriešanas darbību noteikšana ļauj veikt mērķtiecīgu optimizāciju, uzlabojot efektivitāti un precizitāti sarežģītos biznesa procesos.

Turklāt shēmas izsekošana piedāvā labāku skaidrību skaitliskām operācijām. Piemēram, pētījumā pētnieki atklāja, kā modeļi apstrādā aritmētiku, piemēram, 36+59 = 95, nevis ar vienkāršiem algoritmiem, wager gan caur paralēliem ceļiem un “meklēšanas tabulas” funkcijām cipariem. Piemēram, uzņēmumi var izmantot šādas atziņas, lai revīzijas iekšējos aprēķinos, kas noved pie skaitliskiem rezultātiem, identificē kļūdu izcelsmi un ievieš mērķtiecīgus labojumus, lai nodrošinātu datu integritāti un aprēķina precizitāti to atvērtā koda LLMS.
Globālai izvietošanai rīks sniedz ieskatu daudzvalodu konsekvencē. Anthropic iepriekšējie pētījumi rāda, ka modeļos tiek izmantotas gan valodas specifiskas, gan abstraktas, neatkarīgas no valodas neatkarīgas “universālās garīgās valodas” shēmas, un lielāki modeļi demonstrē lielāku vispārinājumu. Tas var potenciāli palīdzēt atkļūdot lokalizācijas problēmas, izvietojot modeļus dažādās valodās.
Visbeidzot, rīks var palīdzēt cīnīties ar halucinācijām un uzlabot faktisko zemi. Pētījums atklāja, ka modeļiem ir “noklusējuma atteikuma shēmas” nezināmiem vaicājumiem, kurus nomāc “zināmās atbildes” funkcijas. Halucinācijas var notikt, ja šī inhibējošā shēma “nepareizas aizdegšanās”.

Papildus atkļūdošanai esošajiem jautājumiem šī mehāniskā izpratne atslēdz jaunas iespējas Precīza llmsApvidū Tā vietā, lai tikai pielāgotu izvades izturēšanos, izmantojot izmēģinājumus un kļūdas, uzņēmumi var identificēt un mērķēt uz īpašajiem iekšējiem mehānismiem, kas virza vēlamās vai nevēlamās pazīmes. Piemēram, izpratne par to, kā modeļa “personības palīgs” netīšām ietver slēptās atalgojuma modeļa aizspriedumus, kā parādīts Antropic pētījumā, ļauj izstrādātājiem precīzi noregulēt iekšējās shēmas, kas atbild par izlīdzināšanu, kā rezultātā tiek veikta stabilāka un ētiski konsekventāka AI izvietošana.
Tā kā LLM arvien vairāk integrējas kritiskās uzņēmuma funkcijās, to caurspīdīgums, interpretācija un kontrole kļūst arvien kritiskāka. Šī jaunā paaudze rīku var palīdzēt novērst plaisu starp AI jaudīgajām iespējām un cilvēku izpratni, pamata uzticības veidošanu un nodrošinot, ka uzņēmumi var izvietot AI sistēmas, kas ir uzticamas, revidējamas un saskaņotas ar to stratēģiskajiem mērķiem.
avots