Vai vēlaties gudrāku ieskatu iesūtnē? Reģistrējieties mūsu iknedēļas biļeteniem, lai iegūtu tikai to, kas ir svarīgi uzņēmuma AI, datu un drošības vadītājiem. Abonēt tūlīt
Jauns apmācības sistēma Izstrādājuši pētnieki vietnē Tencent AI laboratorija un Vašingtonas universitāte Sentluisā ļauj lieliem valodas modeļiem (LLMS) uzlabot sevi, nepieprasot Visi ar cilvēkiem marķēti dati. Paņēmiens, ko sauc R-nulleizmanto pastiprināšanas mācīšanos, lai iegūtu savus apmācības datus no nulles, pievēršoties vienam no galvenajiem sašaurinājumiem, veidojot AI sistēmas pašnovērtē. R-nulle darbojas, ja diviem neatkarīgiem modeļiem ir līdzvērtīgs, mijiedarbojoties un izaicinot viens otru.
Eksperimenti rāda, ka R-nulle būtiski uzlabo spriešanas iespējas dažādās LLM, kas varētu samazināt AI apmācības sarežģītību un izmaksas. Uzņēmumiem šī pieeja varētu paātrināt specializētu modeļu izstrādi sarežģītu spriešanas uzdevumu veikšanai, bez apjomīgu marķētu datu kopu veidošanas izmaksām.
Pašizolēšanas LLMS izaicinājums
Pašizološo LLMS ideja ir izveidot AI sistēmas, kas var autonomi ģenerēt, pilnveidot un mācīties no savas pieredzes. Tas piedāvā pielāgojamu ceļu uz inteliģentāku un spējīgāku AI. Tomēr galvenais izaicinājums ir tas, ka šo modeļu apmācībai ir nepieciešami liels augstas kvalitātes uzdevumu un etiķešu apjoms, kas darbojas kā AI uzraudzības signāli, no kuriem mācīties.
Paļaušanās uz cilvēku anotatoriem, lai izveidotu šos datus, ir ne tikai dārga un lēna, guess arī rada būtisku sašaurinājumu. Tas efektīvi ierobežo AI iespējamās iespējas ar to, ko cilvēki to var iemācīt. Lai to risinātu, pētnieki ir izstrādājuši bez etiķetes metodes, kas atalgo signālus tieši no paša modeļa rezultātiem, piemēram, izmērot tā uzticību atbildei. Kaut arī šīs metodes novērš nepieciešamību pēc skaidrām etiķetēm, tās joprojām paļaujas uz jau esošu uzdevumu kopumu, tādējādi ierobežojot to piemērojamību patiesi pašpārliecinātos scenārijos.
AI mērogošana sasniedz savas robežas
Strāvas robežas, pieaugošās marķiera izmaksas un secinājumu kavēšanās ir uzņēmuma AI pārveidošana. Pievienojieties mūsu ekskluzīvajam salonam, lai atklātu, kā ir labākās komandas:
- Enerģijas pārvēršana par stratēģisku priekšrocību
- Arhitektējot efektīvus secinājumus par reālu caurlaidspējas pieaugumu
- Konkurences IA atbloķēšana ar ilgtspējīgām AI sistēmām
Nostipriniet savu vietu, lai paliktu priekšā:
Citas pieejas ir saistītas ar modeļu, kas ģenerē savus uzdevumus, no kuriem mācīties. Tomēr tādās domēnos kā beztermiņa argumentācija, kur nav vienkārša veida, kā pārbaudīt pareizību (piemēram, koda izpildītājs), nodrošinot, ka šo paša ģenerēto datu kvalitāte ir būtisks šķērslis.
Kā darbojas r-nulle
R-nulle ir ietvars, kas paredzēts, lai apmācītu argumentāciju LLM, kas var attīstīties no nulles ārējiem datiem. Course of sākas ar vienu bāzes modeli, kas tiek sadalīts divās lomās: “Challenger” un “risinātājs”. Šie divi modeļi tiek optimizēti neatkarīgi, guess attīstās kopā, izmantojot nepārtrauktu mijiedarbības ciklu.
Challenger mērķis ir radīt jaunus uzdevumus, kas atrodas tieši pie risinātāja pašreizējo spēju sliekšņa, ne pārāk viegli, ne neiespējami. Solver, savukārt, tiek apbalvots par šo aizvien sarežģītāko uzdevumu risināšanu. Rakstiskos komentāros VentureBeat, papīra līdzautors Čengsongs Huangs un Sentluisas Vašingtonas universitātes doktorants paskaidroja, ka šī dinamika ir būtiska, jo augstas kvalitātes jautājumu radīšana bieži ir sarežģītāka nekā atbilžu atrašana.
“Tas, ko mēs atradām praktiskā vidē, ir tas, ka lielākais izaicinājums nav atbilžu radīšana…, guess gan augstas kvalitātes, jaunu un pakāpeniski grūtāku jautājumu radīšana,” sacīja Huangs. “Mēs ticam, ka labi skolotāji ir daudz retāk nekā labi studenti. Ko-evolūcijas dinamika automatizē šī” skolotāja “izveidi, nodrošinot vienmērīgu un dinamisku mācību programmu, kas virza risinātāja iespējas tālu pāri tam, ko varētu sasniegt statisks, iepriekš pastāvošs datu kopums.”
Kad Challenger rada pietiekami daudz jautājumu, tie tiek filtrēti dažādībai un apkopoti apmācības datu kopā. Solver apmācības posmā tas ir precīzi noskaņots uz šiem izaicinošajiem jautājumiem. Katra jautājuma “pareizo” atbildi nosaka vairākuma balsojums no paša Solver iepriekšējiem mēģinājumiem.
Viss šis course of atkārtojas, izveidojot sevis uzlabojošu cilpu, kas darbojas bez jebkādas cilvēka iejaukšanās, ļaujot abiem modeļiem mudināt viens otram kļūt arvien vairāk spējīgāku visā iterācijā.
R-nulle darbībā
Pētnieki pārbaudīja R-Zero uz vairākām atvērtā koda LLM, ieskaitot modeļus no Qwen3 un Octothinker ģimenēm. Viņi vispirms apmācīja modeļus par matemātikas problēmām un pēc tam pārbaudīja, vai apgūtās argumentācijas prasmes varētu vispārināt citus sarežģītus, vispārēju domēnu etalonus, piemēram, MMLU-Pro (Vairāku valodu izpratne un argumentācijas uzdevumi) un Supergpqa (Zinātnes un argumentācijas uzdevumi).
Rezultāti parādīja, ka R-nulle ir ļoti efektīvs, agnostisks modelis. Piemēram, tas palielināja QWEN3-4B-BASE modeļa punktu skaitu par +6,49 vidēji matemātikas spriešanas etalonos. Apmācības course of konsekventi un ievērojami uzlaboja veiktspēju, un ieguvumi uzkrājas vairākās iterācijās. Lielāks QWEN3-8B bāzes modeļa vidējais matemātikas rezultāts pieauga par +5,51 punktiem pēc trim atkārtojumiem.

Galvenais atklājums bija tūlītējs veiktspējas lēciens pēc pirmās iterācijas, kas apstiprināja izaicinātāja lomas efektivitāti augstas kvalitātes mācību programmas izveidē. “Tas apstiprina, ka RL apmācītā izaicinātāja radītā inteliģentā mācību programma ir ievērojami efektīvāka nekā ģeneratoram, kas nav apmācīts,” pētnieki raksta savā dokumentā.
Proti, prasmes, kas apgūtas no matemātikas problēmām, tika efektīvi pārnestas uz vispārīgiem spriešanas uzdevumiem, tādējādi uzlabojot modeļu pamatā esošās iespējas. Piemēram, tas pats QWEN3-4B bāzes modelis parādīja +7,54 uzlabojumu vispārējā domēna spriešanas etalonos. Vēl viens interesants atklājums ir tas, ka r-nulle var kalpot par izšķirošu pirms apmācības soli. Modeļi, kurus vispirms uzlaboja R-nulle, sasniedza vēl augstāku veiktspēju, kad vēlāk tika precīzi pielāgoti tradicionālajiem marķētajiem datiem, kas liek domāt, ka ietvars darbojas kā veiktspējas pastiprinātājs.
Uzņēmumiem pieeja “no nulles datiem” varētu būt spēles mainītājs, it īpaši nišu domēnos, kur augstas kvalitātes dati ir maz vai neeksistē. Huangs uzsver, ka R-Zero galvenā priekšrocība ir spēja apiet visdārgāko un laikietilpīgāko AI izstrādes daļu: datu veidošanu.
“Mūsu pieeja pilnībā apiet pamatprincipu par to, ka ir jāatrod, jāmarķē un jāizveido augstas kvalitātes datu kopas,” viņš teica. “Tas attiecas ne tikai uz izmaksu ietaupīšanas pasākumu; tas ir ceļš uz AI radīšanu, kas var pārspēt cilvēku spējas, jo to vairs neierobežo cilvēku zināšanu vai datu apjoms.”
Tomēr līdz evolūcijas course of atklāja arī kritisku izaicinājumu. Tā kā Challenger veiksmīgi rada pakāpeniski sarežģītākas problēmas, sāk samazināties risinātāja spēja radīt ticamas “pareizas” atbildes, izmantojot vairākuma balsojumu. Pētnieki atklāja, ka šo paša ģenerēto etiķešu patiesā precizitāte pirmajā atkārtojumā samazinājās no 79% līdz 63%salīdzinot ar spēcīgu Oracle LLM, piemēram, GPT -4Apvidū Šis datu kvalitātes kritums ir galvenais kompromiss un potenciāls sašaurinājums sistēmas ilgtermiņa veiktspējai.
Huangs atzina, ka tā ir būtiska problēma pašpārliecinātai paradigmai. “Mūsu darbs ir koncepcijas pierādījums, kas parāda šīs pieejas potenciālu, guess mēs atzīstam, ka stabila, ilgtermiņa uzlabošanās saglabāšana bez plato ir būtisks šķērslis,” viņš teica. “Šīs problēmas risināšana būs būtisks nākamais solis visai pētniecības kopienai.”
Pētnieki arī izceļ galveno ietvara ierobežojumu: pašreizējais mehānisms ir vispiemērotākais tādām domēniem kā matemātika, kur pareizību var objektīvi noteikt. Tātad, kā šo jaudīgo paradigmu varētu paplašināt līdz subjektīvākiem uzņēmuma uzdevumiem, piemēram, mārketinga kopiju ģenerēšanai vai pārskatu apkopošanai?
Huangs norāda, ka potenciālais ceļš uz priekšu nozīmē trešā, kopīgi attīstīta AI aģenta pievienošanu sajaukumam: “verificētājam” vai “kritiķim”.
“Tā vietā, lai novērtētu vienkāršu“ pareizu ”atbildi, šis pārbaudītājs būtu apmācīts novērtēt risinātāja izlaides kvalitāti, pamatojoties uz niansētākiem kritērijiem,” viņš paskaidroja. “Kopā evolūcijas dinamika būtu saistīta ar izaicinājumu, kas izveido uzvedni, risinātājs, kas ģenerē reakciju, un verifikators, kas nodrošina kvalitatīvu signālu, visiem trim modeļiem uzlabojoties kopā.”
Lai gan tas joprojām ir turpmāko pētījumu virziens, tas norāda uz nākotni, kurā pilnībā autonomās AI sistēmas var apgūt ne tikai objektīvu loģiku, guess arī subjektīvu argumentāciju.
avots