Apple sestdien publicēja pētījumu dokumentu, kurā pētnieki pārbauda nesen izlaisto spriešanas modeļu stiprās un vājās puses. Pazīstami arī kā lieli spriešanas modeļi (LRM), tie ir modeļi, kas “domā”, izmantojot papildu aprēķinu, lai atrisinātu sarežģītas problēmas. Tomēr rakstā tika atklāts, ka pat visspēcīgākie modeļi cīnās ar sarežģītības problēmu. Pētnieki sacīja, ka tad, kad problēma ir ļoti sarežģīta, modeļi piedzīvo pilnīgu sabrukumu un atsakās no problēmas, nevis vairāk aprēķināt, ko viņi ir apmācīti darīt.
Apple saka,
A papīrpapīrs Ar nosaukumu “Domāšanas ilūzija: izpratne par spriešanas modeļu stiprajām pusēm un ierobežojumiem, izmantojot problēmu sarežģītības objektīvu”, publicēts Apple tīmekļa vietnē, pētnieki apgalvo, ka gan LRM, gan lielas valodas modeļi (LLM), nedomājot, izturas atšķirīgi, saskaroties ar trim sarežģītības režīmiem.
Rakstā ir aprakstīti trīs sarežģītības režīmi, kas ir zemas sarežģītības uzdevumi, vidēja sarežģītības uzdevumi un augstas sarežģītības uzdevumi. Lai pārbaudītu, kā darbojas LLM un LRMS, strādājot ar plašu sarežģītību, pētnieki nolēma izmantot vairākas mīklas, kurām var būt pieaugošs grūtības līmenis. Īpaši viena mīkla bija Hanojas tornis.
Hanojas tornis ir matemātiska mīkla ar trim tapām un vairākiem diskiem. Diski ir sakārtoti samazinošā secībā, lai izveidotu piramīdai līdzīgu formu. Puzles mērķis ir novirzīt diskus no kreisās malas piespraudes uz labo pusi, vienlaikus pārvietojot vienu disku. Ir nozveja – uz mazāka diska virsū nevajadzētu novietot lielāku disku. Tā nav ļoti grūta mīkla, un tā bieži ir paredzēta bērniem vecumā no sešiem līdz 15 gadiem.
Matemātiskās mīklas, kuras atrisina ar spriešanas modeļiem
Fotoattēls: Apple
Apple pētnieki šim eksperimentam izvēlējās divus argumentācijas modeļus un to nesaskaņotos kolēģus. Izvēlētie LLM bija Claude 3.7 Sonnet un DeepSeek-V3, savukārt LRM bija Claude 3.7 sonets ar domāšanu un DeepSeek-R1. Domāšanas budžets tika maksimāli palielināts par 64 000 žetonu katrā. Eksperimenta mērķis bija ne tikai pārbaudīt galīgo precizitāti, wager arī loģikas precizitāti, izvēloties mīklas atrisināšanas soļus.
Zemas sarežģītības uzdevumā tika pievienoti līdz trim diskiem, turpretī vidējas sarežģītības uzdevumam diska izmēri tika saglabāti no četriem līdz 10. Visbeidzot, augstās sarežģītības uzdevumā bija no 11 līdz 20 diskiem.
Pētnieki atzīmēja, ka gan LLM, gan LRM ir vienādas spējas, risinot zemās sarežģītības uzdevumu. Kad grūtības tika palielinātas, argumentācijas modeļi spēja precīzāk atrisināt mīklu, ņemot vērā papildu skaitļošanas budžetu. Tomēr, kad uzdevumi sasniedza augstās sarežģītības zonu, tika atklāts, ka abi modeļi uzrādīja pilnīgu spriešanas sabrukumu.
Tika arī teikts, ka tas pats eksperiments tiek atkārtots ar vairāk modeļu un vairāk mīklu, piemēram, dambretu lēkšanu, upju šķērsošanu un bloķēšanas pasauli.
Apple pētniecības dokuments uzsver bažas, ko vairāki citi mākslīgā intelekta (AI) telpā jau ir izteikuši. Kaut arī argumentācijas modeļi var vispārināt to izplatītajās datu kopās, kad vien kāda problēma pārsniedz tos, modeļi cīnās “domāšanā”, un vai nu mēģina veikt saīsnes, atrodot risinājumu, vai arī pilnībā atsakoties un sabrūk.
“Pašreizējie novērtējumi galvenokārt koncentrējas uz noteiktiem matemātiskiem un kodējošiem etaloniem, uzsverot galīgās atbildes precizitāti. Tomēr šī novērtēšanas paradigma bieži cieš no datu piesārņojuma un nesniedz ieskatu argumentācijas pēdu struktūrā un kvalitātē,” uzņēmums minētais amatā.