Home Tehnoloģija Google Dvīņu caurspīdīguma izgriezums lapas uzņēmuma izstrādātāju “atkļūdošanas akls”

Google Dvīņu caurspīdīguma izgriezums lapas uzņēmuma izstrādātāju “atkļūdošanas akls”

9
0

Pievienojieties pasākumam, kuru uzņēmuma vadītāji uzticas gandrīz divas desmitgades. VB Rework apvieno cilvēkus, kas veido reālu uzņēmumu AI stratēģiju. Uzziniet vairāk


GoogleNesenais lēmums paslēpt sava vadošā modeļa neapstrādātos argumentācijas marķierus Gemini 2.5 Professional ir izraisījis niknu reakciju no izstrādātājiem, kuri paļaujas uz šo caurspīdīgumu, lai izveidotu un atkļūdotu lietojumprogrammas.

Izmaiņas, kas atkārto līdzīgu Openai gājienu, aizvieto modeļa soli pa solim ar vienkāršotu kopsavilkumu. Reakcija izceļ kritisku spriedzi starp pulētas lietotāja pieredzes radīšanu un novērojamu, uzticamu rīku nodrošināšanu, kas nepieciešami uzņēmumiem.

Tā kā uzņēmumi integrē lielo valodu modeļus (LLM) sarežģītākajās un misijai kritiskākajās sistēmās, debates par to, cik liela daļa modeļa iekšējās darbības jāatstāj, kļūst par nozares definējošu problēmu.

“Fundamentāla pazemināšanās” AI caurspīdīgumā

Lai atrisinātu sarežģītas problēmas, uzlabotie AI modeļi rada iekšēju monologu, ko sauc arī par “domas ķēdi” (COT). Šī ir virkne starpposma soļu (piemēram, plāns, koda projekts, paškorekcija), ko modelis ražo pirms ierašanās tās galīgajā atbildē. Piemēram, tas var atklāt, kā tie apstrādā datus, kurus tā izmanto informācijas, kā tā novērtē savu kodu utt.

Izstrādātājiem šī spriešanas taka bieži kalpo kā būtisks diagnostikas un atkļūdošanas rīks. Kad modelis nodrošina nepareizu vai negaidītu izvadi, domāšanas course of atklāj, kur tā loģika apmaldījās. Un tas notika kā viena no galvenajām Dvīņu 2.5 professional priekšrocībām pār Openai O1 un O3.

Google AI izstrādātāja forumā lietotāji sauca šīs funkcijas noņemšanu “masīva regresija. Bez tā izstrādātāji tiek atstāti tumsā. Cits aprakstīts, ka ir spiests “uzminēt”, kāpēc modelis neizdevās, izraisot “neticami nomāktu, atkārtotu cilpu, kas mēģina salabot lietas”.

Papildus atkļūdošanai šī caurspīdīgums ir būtisks, lai izveidotu sarežģītas AI sistēmas. Izstrādātāji paļaujas uz COT, lai precīzi noregulētu uzvednes un sistēmas instrukcijas, kas ir galvenie veidi, kā vadīt modeļa uzvedību. Funkcija ir īpaši svarīga aģentu darbplūsmas izveidošanai, kur AI jāveic virkne uzdevumu. Viens izstrādātājs atzīmēja: “Kotītes ļoti palīdzēja pareizi noregulēt aģentu darbplūsmas.”

Uzņēmumiem šis virzība uz necaurredzamību var būt problemātiska. Black-Field AI modeļi, kas slēpj to argumentāciju, rada ievērojamu risku, apgrūtinot uzticību to rezultātiem augstas likmes scenārijos. Šī tendence, ko uzsāka Openai O-Collection argumentācijas modeļi, un tagad to pieņēma Google, rada skaidru atvēršanas koda alternatīvu atvēršanu, piemēram, DeepSeek-R1 un QWQ-32b.

Modeļi, kas nodrošina pilnīgu piekļuvi to spriešanas ķēdēm, nodrošina uzņēmumus lielāku kontroli un caurspīdīgumu salīdzinājumā ar modeļa uzvedību. Lēmums par CTO vai AI vadību vairs nav tikai tam, kurš modelim ir augstākais etalona punktu skaits. Tagad tā ir stratēģiska izvēle starp visaugstāko veiktspēju, guess necaurspīdīgu modeli un caurspīdīgāku, kuru var integrēt ar lielāku pārliecību.

Google atbilde

Atbildot uz sašutumu, Google komandas locekļi skaidroja savu pamatojumu. Logan Kilpatrick, Google Deepmind vecākais produktu vadītājs, precizēts ka izmaiņas bija “tīri kosmētiskas” un neietekmē modeļa iekšējo veiktspēju. Viņš atzīmēja, ka uz patērētājiem vērstajai Dvīņu lietotnei ilgstošais domāšanas procesa slēpšana rada tīrāku lietotāju pieredzi. ” % Cilvēku, kuri Dvīņu lietotnē lasīs vai lasīs domas, ir ļoti mazs,” viņš teica.

Izstrādātājiem jaunie kopsavilkumi bija paredzēti kā pirmais solis uz programmatisku piekļuvi argumentācijas pēdām caur API, kas iepriekš nebija iespējams.

Google komanda atzina neapstrādātu domu vērtību izstrādātājiem. “Es dzirdu, ka jūs visi vēlaties neapstrādātas domas, vērtība ir skaidra, ir lietošanas gadījumi, kas tos prasa,” rakstīja Kilpatriks, piebilstot, ka funkcijas atgriešana atpakaļ uz izstrādātāju orientētajā AI studijā ir “kaut kas, ko mēs varam izpētīt”.

Google reakcija uz izstrādātāja reakciju liecina, ka ir iespējama vidusceļš, iespējams, izmantojot “izstrādātāja režīmu”, kas atkārtoti iesprauž neapstrādātu domu piekļuvi. Novērojamības nepieciešamība tikai pieaugs, jo AI modeļi pārtaps autonomākos aģentos, kas izmanto rīkus un izpilda sarežģītus, daudzpakāpju plānus.

Kā secināja Kilpatriks savās piezīmēs: “… Es viegli varu iedomāties, ka neapstrādātas domas kļūst par kritisku prasību visām AI sistēmām, ņemot vērā pieaugošo sarežģītību un vajadzību pēc novērojamības + izsekošana.”

Vai argumentācijas žetoni ir pārvērtēti?

Tomēr eksperti norāda, ka spēlē dziļāka dinamika nekā tikai lietotāja pieredze. Subbarao Kambhampati, AI profesors Arizonas štata universitāteJautājumi, vai “starpposma marķieri”, ko spriešanas modelis rada, pirms galīgās atbildes var izmantot kā uzticamu rokasgrāmatu, lai izprastu, kā modelis atrisina problēmas. Izšķirt papīrpapīrs Viņš nesen līdzautors apgalvo, ka antropomorfizējot “starpposma žetonus” kā “argumentācijas pēdas” vai “domas”, var būt bīstama ietekme.

Modeļi to spriešanas procesā bieži nonāk bezgalīgi un nesaprotamos virzienos. Vairāki eksperimenti parāda, ka modeļi, kas apmācīti ar nepatiesām spriešanas pēdām un pareiziem rezultātiem, var iemācīties atrisināt problēmas, kā arī modeļus, kas apmācīti ar labi izstrādātām argumentācijas pēdām. Turklāt jaunākās paaudzes argumentācijas modeļi tiek apmācīti, izmantojot pastiprināšanas mācību algoritmus, kas tikai pārbauda gala rezultātu un nenovērtē modeļa “argumentācijas izsekošanu”.

“Fakts, ka starpposma marķieru sekvences bieži vien izskatās kā labāk formatēts un uzrakstīts cilvēku skrāpējumu darbs… daudz kas mums nestāstīs par to, vai tās tiek izmantotas visur tuvu tiem pašiem mērķiem, kuriem cilvēki tos izmanto, nemaz nerunājot par to, vai tās var izmantot kā interpretējamu logu, ko LLM domā“ domā, vai kā uzticamu galīgo atbildi ”,” raksta pētnieki.

“Lielākā daļa lietotāju nevar kaut ko izgatavot no neapstrādātu starpposma žetonu apjomiem, kurus šie modeļi izspiež,” Kambhampati stāstīja VentureBeat. “Kā mēs pieminējam, DeepSeek R1 rada 30 lappuses pseido-angļu, risinot vienkāršu plānošanas problēmu! Cinisks skaidrojums tam, kāpēc O1/O3 nolēma neparādīt neapstrādātus marķierus sākotnēji bija tāpēc, ka viņi saprata, ka cilvēki pamanīs, cik viņi ir nesakarīgi!”

Tomēr Kambhampati norāda, ka kopsavilkumi vai post-facto skaidrojumi, visticamāk, būs saprotamāki gala lietotājiem. “Jautājums kļūst par to, cik lielā mērā viņi patiesībā norāda uz iekšējām operācijām, kuras LLMS pārdzīvoja,” viņš teica. “Piemēram, kā skolotājs es varētu atrisināt jaunu problēmu ar daudziem viltus startiem un atpakaļceļiem, guess izskaidrot risinājumu tā, kā, manuprāt, atvieglo studentu izpratni.”

Lēmums slēpt COT kalpo arī kā konkurētspējīgs grāvis. Neapstrādātas argumentācijas pēdas ir neticami vērtīgi apmācības dati. Kā atzīmē Kambhampati, konkurents var izmantot šīs pēdas, lai veiktu “destilāciju”, mazāka, lētāka modeļa apmācības procesu, lai atdarinātu jaudīgākas iespējas. Neapstrādātu domu slēpšana padara konkurentus daudz grūtāk kopēt modeļa slepeno mērci, kas ir būtiska priekšrocība resursu ietilpīgā nozarē.

Debates par domu ķēdi ir daudz lielākas sarunas par AI nākotni priekšskatījums. Joprojām ir daudz ko uzzināt par argumentācijas modeļu iekšējo darbību, kā mēs tos varam izmantot un cik tālu modeļa pakalpojumu sniedzēji ir gatavi doties, lai izstrādātāji viņiem piekļūtu.


avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here