Pievienojieties mūsu ikdienas un nedēļas biļeteniem, lai iegūtu jaunākos atjauninājumus un ekskluzīvu saturu par nozares vadošo AI pārklājumu. Uzziniet vairāk
Lielu valodu modeļi (LLMS) arvien vairāk spēj sarežģīt spriešanu, izmantojot “secinājumu laika mērogošanu”, paņēmienu kopumu, kas piešķir vairāk skaitļošanas resursu, secinot, lai ģenerētu atbildes. Tomēr a Jauns pētījums No Microsoft Analysis atklāj, ka šo mērogošanas metožu efektivitāte nav universāla. Veiktspējas palielināšanās ievērojami atšķiras dažādos modeļos, uzdevumos un problēmu sarežģītībā.
Galvenais secinājums ir tāds, ka, vienkārši metot vairāk aprēķināšanas pie problēmas secināšanas laikā, negarantē labākus vai efektīvākus rezultātus. Rezultāti var palīdzēt uzņēmumiem labāk izprast izmaksu nepastāvību un modeļa uzticamību, jo tie vēlas integrēt progresīvo AI argumentāciju savās lietojumprogrammās.
Mērogošanas metožu ievietošana testam
Microsoft pētījumu grupa veica plašu empīrisko analīzi deviņos vismodernākajos fondu modeļos. Tas ietvēra gan “parastos” modeļus, piemēram, GPT-4O, Claude 3,5 Sonnet, Gemini 2.0 Professional un LLAMA 3.1 405B, kā arī modeļus, kas īpaši precīzi pielāgoti, lai uzlabotu spriešanu, izmantojot secinājumu laika mērogošanu. Tas ietvēra Openai O1 un O3-Mini, Anthropic’s Claude 3.7 Sonnet, Google’s Gemini 2 Flash domāšanu un DeepSeek R1.
Viņi novērtēja šos modeļus, izmantojot trīs atšķirīgas secinājuma laika mērogošanas pieejas:
- Standarta ķēde (COT): Pamata metode, kurā modelim tiek piedāvāts atbildēt soli pa solim.
- Paralēla mērogošana: Modelis ģenerē vairākas neatkarīgas atbildes uz vienu un to pašu jautājumu un izmanto apkopotāju (piemēram, balsu vairākumu vai izvēlas labāko rezultātu), lai iegūtu gala rezultātu.
- Secīga mērogošana: Modelis iteratīvi ģenerē atbildi un izmanto kritiķa atgriezenisko saiti (potenciāli no paša modeļa), lai uzlabotu atbildi turpmākajos mēģinājumos.
Šīs pieejas tika pārbaudītas astoņās izaicinošajās etalonuzņēmumos, kas aptver plašu uzdevumu klāstu, kas gūst labumu no soli pa solim problēmu risināšanai: matemātikas un STEM spriešana (AIME, OMNI-MATH, GPQA), kalendāra plānošana (BA-kalendārs), NP-Exhausting Problēmas (3SAT, TSP), navigācija (Maze) un Spatial Semessaling (SpatialMap).
Vairākos etalonos bija iekļautas problēmas ar atšķirīgu grūtību līmeni, ļaujot niansētāk izprast, kā mērogošana uzvedas, jo problēmas kļūst grūtākas.
“Omni-Math, TSP, 3SAT un BA-kalendāra grūtību tagu pieejamība ļauj mums analizēt, kā precizitāte un marķiera lietošanas skala ar grūtībām secināt laika mērogošanu, kas ir perspektīva, kas joprojām ir nepietiekama,” pētnieki rakstīja papīrs sīki aprakstot viņu atradumus.
Pētnieki novērtēja LLM spriešanas pareto robežu, analizējot gan precizitāti, gan skaitļošanas izmaksas (ti, ģenerēto žetonu skaitu). Tas palīdz noteikt, cik efektīvi modeļi sasniedz savus rezultātus.

Viņi arī ieviesa pasākumu “parastā līdz regulārajai spraugai”, kas salīdzina parastā modeļa labāko iespējamo veiktspēju (izmantojot ideālu “labāko no N” atlases) ar spriešanas modeļa vidējo veiktspēju, novērtējot iespējamo ieguvumu, kas sasniedzams, izmantojot labākas apmācības vai verifikācijas paņēmienus.
Vairāk aprēķinātā ne vienmēr atbilde
Pētījums sniedza vairākas būtiskas atziņas, kas izaicina kopīgus pieņēmumus par secinājumu laika mērogošanu:
Ieguvumi ievērojami atšķiras: Kaut arī modeļi, kas noregulēti argumentācijai, parasti pārspēj parastos šajos uzdevumos, uzlabošanas pakāpe ir ļoti atšķirīga atkarībā no īpašā jomas un uzdevuma. Iegūti bieži samazinās, palielinoties problēmu sarežģītībai. Piemēram, matemātikas problēmās redzamie veiktspējas uzlabojumi ne vienmēr vienādi netulkoja zinātniskus spriešanas vai plānošanas uzdevumus.
Token neefektivitāte ir izplatīta: Pētnieki novēroja lielas mainības marķiera patēriņā, pat starp modeļiem, kas sasniedz līdzīgu precizitāti. Piemēram, AIME 2025 matemātikas etalonā DeepSeek-R1 izmantoja vairāk nekā piecas reizes vairāk žetonu nekā Claude 3,7 sonets, lai iegūtu aptuveni salīdzināmu vidējo precizitāti.
Vairāk žetonu nerada augstāku precizitāti: Pretēji intuitīvajai idejai, ka ilgākas spriešanas ķēdes nozīmē labāku spriešanu, pētījumā tika atklāta tā ne vienmēr. “Pārsteidzoši, ka mēs arī novērojam, ka garākas paaudzes salīdzinājumā ar vienu un to pašu modeli dažreiz var būt modeļu, kas cīnās, nevis uzlabotu refleksijas, rādītājs,” teikts rakstā. “Līdzīgi, salīdzinot dažādus spriešanas modeļus, augstāka žetonu lietošana ne vienmēr ir saistīta ar labāku precizitāti. Šie atklājumi motivē vajadzību pēc mērķtiecīgākas un rentablākas mērogošanas pieejas.”
Izmaksu nedeminētisms: Iespējams, ka visvairāk attiecas uz uzņēmumu lietotājiem, atkārtoti vaicājumi par to pašu modeli vienai un tā pati problēmai var izraisīt ļoti mainīgu marķiera izmantošanu. Tas nozīmē, ka vaicājuma vadīšanas izmaksas var ievērojami svārstīties, pat ja modelis konsekventi sniedz pareizo atbildi.

Pārbaudes mehānismu potenciāls: Mērogošanas veiktspēja pastāvīgi uzlabojās visos modeļos un etalonos, ja to imitē ar “perfektu verifikatoru” (izmantojot labākos rezultātus).
Parastie modeļi dažreiz atbilst spriešanas modeļiem: Ievērojami palielinot secinājumu izsaukumus (dažos eksperimentos vairāk līdz 50x vairāk), parastie modeļi, piemēram, GPT-4O, dažreiz varētu tuvināties īpaša spriešanas modeļu veiktspējas līmenim, īpaši mazāk sarežģītos uzdevumos. Tomēr šie ieguvumi strauji samazinājās ļoti sarežģītos iestatījumos, norādot, ka Brute-Drive mērogošanai ir savas robežas.

Ietekme uz uzņēmumu
Šie atklājumi rada ievērojamu nozīmi LLM izstrādātājiem un uzņēmumu ieviesējiem. Jautājums par “izmaksu nenosakāmu” ir īpaši izteikts un apgrūtina budžeta veidošanu. Kā norāda pētnieki, “ideālā gadījumā izstrādātāji un lietotāji labprātāk izvēlētos modeļus, kuriem izmaksu paredzamības noteikšanai ir zema standarta novirze uz marķiera izmantošanu katrā gadījumā.”
“Profilēšana, kurā mēs darām [the study] Varētu būt noderīgs izstrādātājiem kā rīks, lai izvēlētos, kuri modeļi ir mazāk nepastāvīgi vienam un tam pašam uzvednei vai dažādām uzvednēm, ”VentureBeat stāstīja Besmira Nushi, Microsoft Analysis vecākais galvenais pētījumu vadītājs.“ Ideālā gadījumā būtu jāizvēlas modelis, kam ir zema standartnovirze pareizām ieguldījumiem. ”

Pētījums sniedz arī labu ieskatu korelācijā starp modeļa precizitāti un reakcijas garumu. Piemēram, šī diagramma parāda, ka matemātikas vaicājumiem virs ~ 11 000 žetonu garuma ir ļoti maza iespēja būt pareizam, un šīs paaudzes tajā brīdī ir jāapstājas vai jāatsāk ar kādu secīgu atgriezenisko saiti. Tomēr Nushi norāda, ka modeļiem, kas ļauj šiem put up hoc mazinājumiem, ir arī tīrāka atdalīšana starp pareiziem un nepareiziem paraugiem.

“Galu galā modeļa celtnieku pienākums ir arī domāt par precizitātes un izmaksu nedeterminisma samazināšanu, un mēs sagaidām, ka tas notiks daudz, jo metodes kļūst nobriedušākas,” sacīja Nushi. “Par līdztekus izmaksu nedeterminismam ir piemērojama arī precizitāte Nonderminētisms.”
Vēl viens svarīgs atklājums ir konsekvents perfektu verificētāju veiktspējas palielinājums, kas izceļ kritisku jomu turpmākam darbam: robusta un plaši piemērojamu verifikācijas mehānismu veidošana.
“Spēcīgāku verifikatoru pieejamībai var būt dažāda veida ietekme,” sacīja Nushi, piemēram, pamata apmācības metožu uzlabošana spriešanai. “Ja tie tiek izmantoti efektīvi, tie var arī saīsināt argumentācijas pēdas.”
Spēcīgi verifikatori var kļūt arī par uzņēmuma aģentu AI risinājumu galveno daļu. Daudzām uzņēmumu ieinteresētajām personām jau ir tādas verifikācijas, kuras, iespējams, būs jāpārvieto, lai iegūtu vairāk aģentu risinājumu, piemēram, SAT risinātājus, loģistikas derīguma pārbaudītājus utt.
“Nākotnes jautājumi ir par to, kā šādus esošos paņēmienus var apvienot ar AI vadītām saskarnēm un to, kas ir valoda, kas savieno abus,” sacīja Nushi. “Nepieciešamība savienot abus rodas no fakta, ka lietotāji ne vienmēr formālā veidā formulēs vaicājumus, viņi vēlēsies izmantot dabiskās valodas saskarni un sagaidīt risinājumus līdzīgā formātā vai galīgajā darbībā (piemēram, ierosina uzaicinājumu sapulcē).”
avots