Home Tehnoloģija Samsung AI pētnieka jaunais, atvērtā spriešanas modelis TRM pārspēj modeļus par 10...

Samsung AI pētnieka jaunais, atvērtā spriešanas modelis TRM pārspēj modeļus par 10 000x lielākiem – par īpašām problēmām

10
0

AI pētnieku tendence attīstīties jauniem, mazs Atvērtā koda ģeneratīvie modeļi, kas pārspēj daudz lielākus, patentētus vienaudžus, šonedēļ turpinājās ar vēl vienu satriecošu progresu.

Alexia Jolicoeur-MartineauVecākais AI pētnieks vietnē Samsung uzlabotais Tehnoloģiju institūts (SAIT) Monreālā, Kanādā,tvertne Iepazīstināja ar sīko rekursijas modeli (TRM) -Neironu tīkls, kas ir tik mazs, tas satur tikai 7 miljonus parametru (iekšējā modeļa iestatījumi), tomēr tas konkurē ar progresīvākajiem valodu modeļiem, kas ir 10 000 reizes lielāki to parametru skaitā, ieskaitot Openai O3-Mini un Google’s Gemini 2.5 Professional, par dažiem vissmagākajiem argumentācijas etaloniem AI pētījumos.

Mērķis ir parādīt, ka ļoti ļoti veiksmīgus jaunus AI modeļus var izveidot lēti, bez apjomīgiem ieguldījumiem grafikas apstrādes vienībās (GPU) un jaudai, kas nepieciešama, lai apmācītu lielākos, vairāku triljonu parametru vadošos modeļus, kas šodien darbina daudzus LLM tērzēšanas robotus. Rezultāti tika aprakstīti pētniecības dokumentā, kas publicēts Open Entry vietnē arxiv.org ar nosaukumu "Mazāk ir vairāk: rekursīvs spriešana ar sīkiem tīkliemApvidū"

"Ideja, ka kāda liela korporācija ir jāpaļaujas uz masīviem pamatiem, kas apmācīti miljoniem dolāru, ir slazds, ir slazds," rakstīja Jolicoeur-Martineau par Sociālais tīkls xApvidū "Pašlaik pārāk liela uzmanība tiek pievērsta LLM izmantošanai, nevis jaunu virziena līniju izstrādei un paplašināšanai."

Jolicoeur-Martineau arī piebilda: "Ar rekursīvu spriešanu izrādās, ka “mazāk ir vairāk”. Neliels modelis, kas iepriekš izvirzīts no nulles, atkārtojas par sevi un atjauninot atbildes laika gaitā, var sasniegt daudz, nesalaužot banku."

TRM kods ir pieejams tagad Github Saskaņā ar uzņēmumam draudzīgu, komerciāli dzīvotspējīgu MIT licenci-tas nozīmē, ka ikviens, sākot no pētniekiem un beidzot ar uzņēmumiem, var to izmantot, pārveidot un izvietot saviem mērķiem, pat komerciālām lietojumprogrammām.

Viens liels brīdinājums

Tomēr lasītājiem jāapzinās, ka TRM ir īpaši izstrādāts, lai labi darbotos ar strukturētām, vizuālām, uz režģiem balstītām problēmām, piemēram, Sudoku, labirinti un mīklas ARC (abstrakts un argumentācijas korpuss) -agi etalonspēdējais, kas piedāvā uzdevumus, kuriem vajadzētu būt vieglai cilvēkiem, wager AI modeļiem, šādas šķirošanas krāsas uz režģa, pamatojoties uz iepriekšēju, wager ne identisku risinājumu.

No hierarhijas līdz vienkāršībai

TRM arhitektūra apzīmē radikālu vienkāršošanu.

Tas balstās uz paņēmienu, ko sauc Hierarhiskās spriešanas modelis (HRM) Ievadīts šī gada sākumā, kas parādīja, ka mazi tīkli varētu risināt loģiskas mīklas, piemēram, Sudoku un Mazes.

HRM paļāvās uz diviem sadarbības tīkliem-vienu, kas darbojas ar augstu frekvenci, otrs ar zemu-atbalstīja bioloģiski iedvesmotus argumentus un matemātiskus pamatojumus, kas saistīti ar fiksēta punkta teorēmām. Jolicoeur-Martineau to uzskatīja par nevajadzīgi sarežģītu.

TRM noņem šos elementus promenade. Divu tīklu vietā tas izmanto a Viens divslāņu modelis kas rekursīvi uzlabo savas prognozes.

Modelis sākas ar iegultu jautājumu un sākotnējo atbildi, ko attēlo mainīgie netraucētsVerdzība yun zApvidū Izmantojot virkni argumentācijas darbību, tā atjaunina savu iekšējo latento attēlojumu z un uzlabo atbildi y līdz tas saplūst ar stabilu izvadi. Katra iterācija izlabo iespējamās kļūdas no iepriekšējā posma, dodot sevis uzlabojošu spriešanas procesu bez papildu hierarhijas vai matemātiskām pieskaitāmām izmaksām.

Kā rekursija aizstāj mērogu

TRM galvenā ideja ir tāda Rekursija var aizstāt dziļumu un lielumu.

Iteratīvi spriežot par savu izvadi, tīkls efektīvi imitē daudz dziļāku arhitektūru bez saistītajām atmiņas vai skaitļošanas izmaksām. Šis rekursīvais cikls, kas pārsniedz sešpadsmit uzraudzības posmus, ļauj modelim padarīt pakāpeniski labākas prognozes-līdzīgi pēc tā, kā lielie valodas modeļi izmanto daudzpakāpju “pārdomu ķēdes” argumentāciju, wager šeit tiek sasniegts ar kompaktu, padeves darbību.

Vienkāršība atmaksājas gan efektivitātē, gan vispārināšanā. Modelī tiek izmantoti mazāk slāņu, bez fiksēta punkta tuvinājumiem un bez divu tīkla hierarhijas. Viegls apturēšanas mehānisms nolemj, kad pārtraukt rafinēšanu, novēršot aprēķināšanu, saglabājot precizitāti.

Veiktspēja, kas pārsniedz savu svaru

Neskatoties uz nelielo pēdu, TRM nodrošina etalonuzdevumu rezultātus, kas konkurē vai pārsniedz modeļus miljoniem reižu lielāku. Pārbaudes laikā sasniegts modelis:

  • 87,4% precizitāte uz Sudoku-extreme (HRM par 55%)

  • 85% precizitāte uz Labirints mīklas

  • 45% precizitāte uz Arc-AGI-1

  • 8% precizitāte uz Arc-AGI-2

Šie rezultāti pārsniedz vai cieši atbilst veiktspējai no vairākiem augstas klases lielas valodas modeļiem, ieskaitot DeepSeek R1Verdzība Dvīņi 2.5 Professionalun O3-Minineskatoties uz to, ka TRM izmanto mazāk nekā 0,01% no to parametriem.

Šādi rezultāti liecina, ka rekursīvā spriešana, nevis mērogs, var būt atslēga, lai apstrādātu abstraktas un kombinatoriskas spriešanas problēmas-domēnus, kur bieži paklupt pat augstākā līmeņa ģeneratīvie modeļi.

Dizaina filozofija: mazāk ir vairāk

TRM panākumi izriet no apzināta minimālisma. Jolicoeur-Martineau atklāja, ka sarežģītības samazināšana izraisīja labāku vispārinājumu.

Kad pētnieks palielināja slāņa skaitu vai modeļa lielumu, veiktspēja samazinājās, jo ir pārmērīga piemērošana mazām datu kopām.

Turpretī divslāņu struktūra apvienojumā ar rekursīvo dziļumu un dziļa uzraudzībasasniedza optimālus rezultātus.

Modelis arī darbojās labāk, ja pašpārliecinātība tika aizstāta ar a Vienkāršāks daudzslāņu perceptron Veicot uzdevumus ar maziem, fiksētiem kontekstiem, piemēram, Sudoku.

Lielākiem režģiem, piemēram, loka mīklām, pašpārliecinātība joprojām bija vērtīga. Šie atklājumi uzsver, ka modeļa arhitektūrai jāsaskaņo datu struktūra un mērogs, nevis noklusējums ar maksimālu ietilpību.

Apmācība mazā, domājot par lielu

TRM tagad ir oficiāli pieejams kā Atvērts kods saskaņā ar MIT licenci uz GithubApvidū

Repozitorijā ietilpst pilni apmācības un novērtēšanas skripti, Sudoku, Maze un ARC-AGI datu kopu celtnieki, kā arī atsauces konfigurācijas publicēto rezultātu reproducēšanai.

Tas arī dokumentē aprēķināšanas prasības, sākot no viena NVIDIA L40S GPU Sudoku apmācībai un beidzot ar Multi-GPU H100 iestatījumiem ARC-AGI eksperimentiem.

Atvērtā izlaidums apstiprina, ka TRM ir īpaši izstrādāts strukturēti, uz režģi balstīti spriešanas uzdevumi nevis vispārējas nozīmes valodas modelēšana.

Katrs etalons-Sudoku-Excessive, Maze-Exhausting un ARC-AGI-izmanto mazus, precīzi definētus ievades un izejas režģus, saskaņojot ar modeļa rekursīvo uzraudzības procesu.

Apmācība ietver ievērojamu datu palielināšanu (piemēram, krāsu permutācijas un ģeometriskas pārvērtības), uzsverot, ka TRM efektivitāte ir tā parametra lielums, nevis kopējais aprēķināšanas pieprasījums.

Modeļa vienkāršība un caurspīdīgums padara to pieejamāku pētniekiem ārpus lielām korporatīvajām laboratorijām. Tās kodu bāze tieši balstās uz iepriekšējo hierarhiskās spriešanas modeļa sistēmu, wager noņem HRM bioloģiskās analoģijas, vairākas tīkla hierarhijas un fiksēta punkta atkarības.

To darot, TRM piedāvā reproducējamu bāzes līniju, lai izpētītu rekursīvo spriešanu mazos modeļos – pretstatu dominējošajai “mērogam ir viss, kas jums nepieciešams” filozofiju.

Kopienas reakcija

TRM un tā atvērtā koda koda bāzes izlaišana izraisīja tūlītējas debates starp AI pētniekiem un praktiķiem X. Kaut arī daudzi slavēja sasniegumu, citi apšaubīja, cik plaši tās metodes varētu vispārināt.

Atbalstītāji pasludināja TRM kā pierādījumu tam, ka mazi modeļi var pārspēt milžus, nosaucot to “10 000 × mazāks, bet gudrāks”Un potenciāls solis uz arhitektūru, kas domā, nevis tikai mērogā.

Kritiķi iebilda, ka TRM domēns ir šaurs – koncentrējas uz ierobežotas, uz režģi bāzes mīklas – un ka tā aprēķinātie ietaupījumi galvenokārt nāk no lieluma, nevis pilnīga izpildlaika.

Pētnieks Yunmin cha atzīmēja, ka TRM apmācība ir atkarīga no smagas palielināšanas un rekursīvas caurlaides, “vairāk aprēķināt, to pašu modeli”.

Vēža ģenētiķis un datu zinātnieks Chey loveday uzsvēra, ka TRM ir a risinātnevis tērzēšanas modelis vai teksta ģenerators: tas izceļas ar strukturētu argumentāciju, wager ne beztermiņa valodu.

Mašīnmācīšanās pētnieks Sebastians Rasčka novietots TRM kā svarīgs HRM vienkāršojums, nevis kā jauna vispārējā izlūkošanas forma.

Viņš raksturoja tā procesu kā “divpakāpju cilpu, kas atjaunina iekšējā spriešanas stāvokli, pēc tam uzlabo atbildi”.

Vairāki pētnieki, ieskaitot Augustīns Nabelepiekrita, ka modeļa spēks ir tā skaidrā spriešanas struktūra, wager atzīmēja, ka turpmākajam darbam būs jāparāda pārnešana uz mazāk ierobežotiem problēmu veidiem.

Vienprātība, kas parādās tiešsaistē, ir tāda, ka TRM var būt šaurs, taču tā vēstījums ir plašs: rūpīga rekursija, nevis pastāvīga paplašināšanās, varētu virzīt nākamo argumentācijas pētījumu vilni.

Raugoties uz priekšu

Kaut arī TRM šobrīd attiecas uz uzraudzītiem spriešanas uzdevumiem, tā rekursīvs ietvars paver vairākus turpmākos virzienus. Jolicoeur-Martineau ir ieteicis izpētīt Ģeneratīvie vai vairāku ANSWER variantikur modelis varētu radīt vairākus iespējamus risinājumus, nevis vienu deterministisku.

Vēl viens atklāts jautājums ir par rekursijas likumu mērogošanu – noteikšana, cik tālu “mazāk ir vairāk” princips var paplašināties, pieaugot modeļa sarežģītībai vai datu lielumam.

Galu galā pētījums piedāvā gan praktisku instrumentu, gan konceptuālu atgādinājumu: progresam AI nav jābūt atkarīgam no arvien lielākiem modeļiem. Dažreiz maza tīkla mācīšana rūpīgi domāt un rekursīvi var būt jaudīgāka, nekā vienreiz domāt par lielu domu.

avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here