Home Tehnoloģija Ko Apple pretrunīgi vērtētais pētniecības darbs mums patiešām stāsta par LLM

Ko Apple pretrunīgi vērtētais pētniecības darbs mums patiešām stāsta par LLM

5
0

Christoph Burgstedt/Science Foto bibliotēka/Getty

Ģeneratīvie AI modeļi ātri pierādīja, ka tie ir spējīgi labi veikt tehniskos uzdevumus. Pievienojot spriešanas iespējas modeļiem, kas atbloķētas neparedzētas iespējas, ļaujot modeļiem pārdomāt sarežģītākus jautājumus un radīt labākas kvalitātes, precīzākas atbildes-vai arī tā mēs domājām.

Pagājušajā nedēļā Apple atbrīvots Pētījuma ziņojums ar nosaukumu “Domāšanas ilūzija: izpratne par spriešanas modeļu stiprajām un ierobežojumiem, izmantojot problēmu sarežģītības objektīvu”. Kā atklāj nosaukums, 30 lappušu papīrs iedziļinās, vai lieli spriešanas modeļi (LRM), piemēram, Openai O1 modeļi, antropic’s Claude 3.7 soneta domāšana (Kas ir bāzes modeļa argumentācijas versija, Claude 3.7 Sonnet) un DeepSeek R1, spēj piegādāt uzlaboto “domāšanas”, ko viņi reklamē.

(Informācijas atklāšana: Zdnet mātesuzņēmums Zifs Deiviss iesniedza 2025. gada aprīļa tiesas procesu pret Openai, apgalvojot, ka tas pārkāpj Ziff Davis autortiesības apmācībā un darbībā tās AI sistēmās.)

Arī: Openai O1 ir vairāk nekā jebkurš galvenais AI modelis. Kāpēc tas ir svarīgi

Apple veica izmeklēšanu, izveidojot virkni eksperimentu dažādu mīklu veidā, kas pārbaudīja modeļus ārpus tradicionālās matemātikas un kodēšanas etalonu darbības jomas. Rezultāti parādīja, ka pat visgudrākie modeļi saskaras ar samazināšanas atdeves punktu, palielinot argumentāciju, lai atrisinātu problēmas sarežģītību līdz robežai.

Es aicinu jūs to izlasīt, ja jūs attālināti interesē šī tēma. Tomēr, ja jums nav laika un vēlaties tikai lielākas tēmas, es to iesaiņoju zemāk.

Kādi ir lieli spriešanas modeļi (LRM)?

Pētījuma dokumentā Apple izmanto “lielus spriešanas modeļus”, atsaucoties uz to, ko mēs parasti tikai saucam par spriešanas modeļiem. Šāda veida lielās valodas modelis (LLM) vispirms tika popularizēts, izlaižot Openai O1 modeli, kuram vēlāk sekoja tā izlaišana O3.

LRMS koncepcija ir vienkārša. Cilvēki tiek mudināti domāt, pirms viņi runā, lai sniegtu komentāru par augstāku vērtību; Tāpat, kad modelis tiek mudināts vairāk laika pavadīt, apstrādājot, izmantojot uzvedni, tā atbildes kvalitātei vajadzētu būt augstākai, un šim procesam vajadzētu ļaut modelim labi reaģēt uz sarežģītākām pamudinājumiem.

Arī: Apple “Domāšanas ilūzija” ir šokējoša – wager lūk, ko tā nokavēja

Šo papildu domāšanu ļauj arī tādas metodes kā “pārdomu ķēde” (COT). COT mudina LLM sadalīt sarežģītu problēmu loģiskos, mazākos un risināmos soļos. Modelis dažreiz dalās ar šiem spriešanas posmiem ar lietotājiem, padarot modeli interpretējamāku un ļaujot lietotājiem labāk vadīt tās atbildes un identificēt kļūdas argumentācijā. Neapstrādāta gultiņa bieži tiek turēta privāta, lai neļautu sliktiem aktieriem redzēt vājās puses, kas viņiem varētu precīzi pateikt, kā izjust modeli.

Šī papildu apstrāde nozīmē, ka šiem modeļiem ir nepieciešama lielāka aprēķināšanas jauda, ​​tāpēc tie ir dārgāki vai smagi, un atbildēt prasa ilgāku laiku. Šī iemesla dēļ tie nav domāti plašiem, ikdienas uzdevumiem, wager drīzāk rezervēti sarežģītākiem vai ar cilmes darbiem.

Tas nozīmē arī to, ka etaloni, ko izmanto šo LRMS pārbaudei, parasti ir saistīti ar matemātiku vai kodēšanu, kas ir viena no Apple pirmajām kvalitātēm papīrā. Uzņēmums sacīja, ka šie etaloni uzsver galīgo atbildi un mazāk koncentrējas uz spriešanas procesu, un tāpēc uz tiem attiecas datu piesārņojums. Tā rezultātā Apple izveidoja jaunu eksperimenta paradigmu.

Eksperimenti

Apple uzstādīja četras kontrolējamas mīklas: Hanojas tornis, kas ietver disku pārsūtīšanu pāri tapām; Pārbaudes lēkšana, kas ietver dambretu pozicionēšanu un apmainīšanu; Upes šķērsošana, kas ietver formu iegūšanu pāri upei; un bloķē pasauli, kurā lietotāji ir apmainīti ar krāsainiem priekšmetiem.

Eksperimentu ilustrācija

Ābols

Izpratne par to, kāpēc eksperimenti tika izvēlēti, ir atslēga, lai izprastu papīra rezultātus. Apple izvēlējās mīklas, lai labāk izprastu faktorus, kas ietekmē to, ko esošie etaloni identificē kā labāku sniegumu. Konkrēti, mīklas ļauj izveidot “kontrolētāku” vidi, kur pat tad, ja līmeņa intensitāte tiek koriģēta, argumentācija paliek tāda pati.

“Šī vide ļauj precīzi manipulēt ar problēmu sarežģītību, vienlaikus saglabājot konsekventus loģiskus procesus, ļaujot stingrāk analizēt spriešanas modeļus un ierobežojumus,” autori skaidroja rakstā.

Puzles salīdzināja gan populāro argumentācijas modeļu, ieskaitot Claude 3,7 Sonnet, gan “Deepseek’s R1 un V3”, salīdzināja gan “domājošu”, gan “neiedomājošu” versijas. Autori manipulēja ar grūtībām, palielinot problēmas lielumu.

Pēdējais svarīgais iestatīšanas components ir tas, ka visiem modeļiem tika piešķirts tāds pats maksimālais žetonu budžets (64K). Pēc tam ar katru modeli tika ģenerēti 25 paraugi, un tika reģistrēta katra modeļa vidējā veiktspēja.

Rezultāti

Rezultāti parādīja, ka domāšanas un domāšanas modeļu izmantošanai ir dažādas priekšrocības dažādos līmeņos. Pirmajā režīmā vai, ja problēmu sarežģītība ir zema, modeļi, kas nav domāšana, var darboties vienā līmenī, ja ne pat labāks, nekā domājot par modeļiem, vienlaikus būdami laika ziņā efektīvāki.

5. attēls papīrā

Ābols

Domāšanas modeļu lielākā priekšrocība ir otrajā vidējās sarežģītības režīmā, jo veiktspējas plaisa starp domāšanas un domājošiem modeļiem ievērojami palielinās (parādīts iepriekš redzamajā attēlā). Pēc tam trešajā režīmā, kur problēmu sarežģītība ir visaugstākā, abu modeļa tipu veiktspēja samazinājās līdz nullei.

Arī: ar AI modeļiem, kas aplūko katru etalonu, ir pienācis laiks cilvēku novērtēšanai

“Rezultāti rāda, ka, lai arī domāšanas modeļi aizkavē šo sabrukumu, viņi arī galu galā saskaras ar tādiem pašiem pamatlīgumiem kā viņu kolēģiem, kas nav domājoši,” sacīja autori.

Viņi novēroja līdzīgu sabrukumu, pārbaudot piecus vismodernākos domāšanas modeļus: O3 Mini (vidējas un augstas konfigurācijas), DeepSeek R1, DeepSeek R1 Qwen 32b un Claude 3.7 soneta domāšana par tām pašām mīklām, kuras tika izmantotas pirmajā eksperimentā. Tika novērots tāds pats modelis: pieaugot sarežģītībai, precizitāte samazinājās, galu galā plato, kas atrodas nullē.

6. attēls papīrā

6. attēls: precizitāte un domāšanas žetoni pret problēmu sarežģītību argumentācijas modeļiem puzzle vidē. Palielinoties sarežģītībai, argumentācijas modeļi sākotnēji tērē vairāk žetonu, kamēr precizitāte pakāpeniski samazinās, līdz kritiskais punkts, kurā spriešanas sabrūk – izteikums strauji samazinās un spriešanas pūles samazinās.

Ābols

Vēl interesantākas ir izmantoto domāšanas žetonu skaita izmaiņas. Sākotnēji, kad mīklas kļūst sarežģītas, modeļi precīzi piešķir žetonus, kas nepieciešami jautājuma risināšanai. Tomēr, tā kā modeļi tuvojas precizitātes nolaišanās punktam, viņi arī sāk samazināt spriešanas centienus, kaut arī problēma ir grūtāka, un viņi varētu gaidīt, ka viņi izmantos vairāk.

Rakstā ir identificēti citi trūkumi: piemēram, pat tad, ja tiek uzaicināts ar nepieciešamajiem problēmas risināšanai, domāšanas modeļi to joprojām nespēja izdarīt precīzi, neskatoties uz to, ka tam ir jābūt mazāk sarežģītam tehniski.

Ko tas nozīmē?

Sabiedrības uztvere par darbu ir sadalīta uz to, ko tas patiesībā nozīmē lietotājiem. Lai gan daži lietotāji ir atraduši komfortu papīra rezultātos, sakot, ka tas parāda, ka mēs esam tālāk no AGI, nekā tehnoloģiju vadītāji mums liktu ticēt, daudzi eksperti ir identificējuši metodoloģijas jautājumus.

Līdz Visaptverošas neatbilstības Identificēts ietver to, ka augstākas sarežģītības problēmām būtu nepieciešams atrisināt augstāku marķiera pabalstu, nekā tas, ko Apple piešķirs modelim, kas bija ierobežots ar 64K. Citi atzīmēja, ka daži modeļi, kas, iespējams, būtu spējuši labi darboties, piemēram, O3-Mini un O4-Mini, nebija iekļauti eksperimentā. Viens lietotājs pat baroja ar darbu līdz O3 un lūdza to noteikt metodoloģijas jautājumus. Chatgpt bija dažas kritikas, piemēram, marķiera griesti un statistiskā skaņa, kā redzams zemāk.

Mana interpretācija: ja jūs ņemat papīra rezultātus pēc nominālvērtības, autori skaidri nesaka, ka LRM nav spējīgi argumentēt vai ka nav vērts tos izmantot. Drīzāk papīrs norāda, ka šiem modeļiem ir daži ierobežojumi, kurus joprojām varētu izpētīt un atkārtot nākotnē – secinājums, kas attiecas uz lielāko daļu sasniegumu AI telpā.

Papīrs kalpo kā vēl viens labs atgādinājums, ka neviens no šiem modeļiem nav nekļūdīgs, neatkarīgi no tā, cik progresīvi viņi apgalvo, ka ir vai pat to, kā viņi darbojas uz etaloniem. Novērtējot LLM, pamatojoties uz etalonu, ir daudz problēmu, jo etalonus bieži pārbauda tikai augstāka līmeņa specifiskiem uzdevumiem, kas precīzi nenozīmē šo modeļu ikdienas pielietojumu.

Iegūstiet rīta labākos stāstus katru dienu ar mūsu iesūtni Tech šodien biļetens.



avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here