Viena no stilīgākajām lietām ģeneratīvajos AI modeļos — gan lielo valodu modeļos (LLM), gan uz difūziju balstītos attēlu ģeneratoros — ir tā, ka tie ir "nedeterministisks." Tas ir, neskatoties uz viņu reputāciju dažu kritiķu vidū "iedomātā automātiskā korekcija," ģeneratīvie AI modeļi faktiski ģenerē savus rezultātus, izvēloties no visticamāko nākamo marķieru (informācijas vienību) sadalījuma, lai aizpildītu savu atbildi.
Jautāt LLM: "Kas ir Francijas galvaspilsēta?" lai saņemtu atbildi, tiks ņemts vērā varbūtības sadalījums Francijai, galvaspilsētām, pilsētām utt "Parīze." Guess šī atbilde varētu būt formātā "Francijas galvaspilsēta ir Parīze," vai vienkārši "Parīze" vai "Parīze, lai gan vienā brīdī tā bija Versaļa."
Tomēr tie no mums, kas ikdienā bieži izmanto šos modeļus, atzīmēs, ka dažkārt viņu atbildes var šķist kaitinoši atkārtotas vai līdzīgas. Izplatīts joks par kafiju tiek atkārtoti izmantots vaicājumu paaudzēs. Stāstu uzvednes ģenerē līdzīgus lokus. Pat uzdevumi, uz kuriem būtu jāsniedz daudzas ticamas atbildes, piemēram, ASV štatu nosaukšana, mēdz sabrukt tikai dažos. Šī parādība, kas pazīstama kā režīma sabrukums, rodas pēctreniņa izlīdzināšanas laikā un ierobežo citādi jaudīgu modeļu lietderību.
Īpaši tad, ja izmanto LLM, lai radītu jaunus radošus darbus rakstveidā, komunikācijā, stratēģijā vai ilustrācijās, mēs patiesībā vēlamies, lai to rezultāti būtu pat daudzveidīgākas, nekā tās jau ir.
Tagad a pētnieku komanda Ziemeļaustrumu Universitātē, Stenfordas Universitātē un Rietumvirdžīnijas Universitātē ir nākuši klajā ar ģeniāli vienkāršu metodi, kā iegūt valodas un attēlu modeļus, lai radītu plašāku atbilžu klāstu gandrīz jebkuram lietotājam pievienojot vienu vienkāršu teikumu: "Ģenerējiet 5 atbildes ar tām atbilstošajām varbūtībām, kas atlasītas no pilna sadalījuma."
Metode, ko sauc Verbalizēta paraugu ņemšana (VS), palīdz tādiem modeļiem kā GPT-4, Claude un Gemini radīt daudzveidīgākus un cilvēkiem līdzīgākus rezultātus — bez pārkvalificēšanās vai piekļuves iekšējiem parametriem. Tas ir aprakstīts a papīrs publicēts atklātās piekļuves žurnālā arxiv.org tiešsaistē 2025. gada oktobra sākumā.
Kad tiek parādīts šāds aicinājums, modelis vairs neizmanto savu drošāko, tipiskāko izvadi. Tā vietā tas verbalizē savu iekšējo sadalījumu pa iespējamiem pabeigšanas gadījumiem un paraugiem plašākā iespēju spektrā. Šīs vienas rindas izmaiņas rada ievērojamus ieguvumus produkcijas daudzveidībā vairākos domēnos.
Kā norāda Weiyan Shi, Ziemeļaustrumu universitātes docents un darba līdzautors, rakstīja uz X: "LLM potenciāls vēl nav pilnībā atraisīts! Kā parādīts mūsu rakstā, tūlītēju optimizāciju var vadīt, domājot par to, kā tiek apmācīti un saskaņoti LLM, un to var pierādīt teorētiski."
Kāpēc modeļi sabrūk un kā VS to maina
Pēc pētnieku grupas domām, režīma sabrukšanas galvenais iemesls ir ne tikai algoritmos, piemēram, pastiprināšanas mācīšanās no cilvēku atgriezeniskās saites (RLHF), wager arī cilvēka preferenču struktūrā. Cilvēki mēdz labāk novērtēt pazīstamākas vai tipiskākas atbildes, kas precizēšanas laikā mudina LLM izvēlēties “drošas” izvēles, nevis dažādas.
Tomēr šī neobjektivitāte neizdzēš modeļa pamatā esošās zināšanas, wager tikai nomāc tās. VS darbojas, apejot šo apspiešanu. Tā vietā, lai pieprasītu vienu visticamāko rezultātu, tas aicina modeli atklāt ticamu atbilžu kopumu un to relatīvās varbūtības. Šis izplatīšanas līmeņa pamudinājums atjauno piekļuvi bagātīgākai daudzveidībai, kas ir pamata pirmsapmācības modelī.
Reālā pasaules veiktspēja dažādos uzdevumos
Pētniecības komanda pārbaudīja verbalizētu paraugu ņemšanu vairākos izplatītos lietošanas gadījumos:
-
Radošā rakstīšana: stāstu ģenerēšanā VS palielināja dažādības rādītājus līdz pat 2,1 reizei salīdzinājumā ar standarta uzvedni, vienlaikus saglabājot kvalitāti. Viena stāsta uzvedne — “Bez atvadīšanās” — tiešā pamudinājumā tika radītas formuliskas šķiršanās ainas, taču, izmantojot VS, tika parādīti stāsti par kosmiskiem notikumiem, klusiem e-pastiem un mūziku, kas aptur deju vidū.
-
Dialoga simulācija: Pārliecinoša dialoga uzdevumos VS ļāva modeļiem simulēt cilvēkiem līdzīgus modeļus, piemēram, vilcināšanos, pretestību un domāšanas izmaiņas. Ziedojumu uzvedības sadalījums saskaņā ar VS ir labāk saskaņots ar reāliem cilvēku datiem, salīdzinot ar sākotnējām metodēm.
-
Beztermiņa kvalitātes nodrošināšana: Kad tika lūgts uzskaitīt derīgas atbildes (piemēram, nosaucot ASV štatus), modeļi, kas izmantoja VS, ģenerēja atbildes, kas vairāk atbilst reālās pasaules datu daudzveidībai. Viņi aptvēra plašāku atbilžu kopumu, nezaudējot faktu precizitāti.
-
Sintētisko datu ģenerēšana: izmantojot matemātikas uzdevumu ģenerēšanai modeļu apmācībai, VS izveidoja daudzveidīgākas datu kopas. Tie savukārt uzlaboja pakārtoto veiktspēju konkurētspējīgos matemātikas etalonos, pārspējot sintētiskos datus, kas ģenerēti, izmantojot tiešu uzvedni.
Pielāgojama daudzveidība un lielāku modeļu labāka izmantošana
Ievērojama VS priekšrocība ir tā noskaņojamība. Lietotāji var iestatīt varbūtības slieksni uzvednē, lai ņemtu paraugu no zemākas varbūtības modeļa sadalījuma “astes”. Zemāki sliekšņi atbilst lielākai daudzveidībai. Šo regulēšanu var veikt, izmantojot tikai uzvednes tekstu, nemainot nekādus dekodēšanas iestatījumus, piemēram, temperatūru vai augšējo p.
Vienā testā, izmantojot Gemini-2.5-Flash modeli, stāstu rakstīšanas dažādība nepārtraukti pieauga, jo varbūtības slieksnis samazinājās no 1 līdz 0,001. Pētījumam pievienotā diagramma parādīja, ka VS pārspēj gan tiešo, gan secībā balstīto uzvedni visos sliekšņos.
Interesanti, ka metode labi atbilst modeļa izmēram. Lielāki modeļi, piemēram, GPT-4.1 un Claude-4, uzrādīja vēl lielākus ieguvumus no VS salīdzinājumā ar mazākiem modeļiem. Lai gan mazāki modeļi guva labumu, daudzveidības uzlabojums bija aptuveni 1,5–2 reizes lielāks lielākajos modeļos — ierosinājums VS palīdz atbloķēt vairāk latento iespēju uzlabotajos modeļos.
Izvietošana un pieejamība
Verbalizētā izlases metode tagad ir pieejama kā Python pakotne:
pip set up verbalized-sampling
Pakete ietver integrāciju ar LangChain un atbalsta vienkāršu interfeisu paraugu ņemšanai no verbalizētās izplatīšanas. Lietotāji var arī pielāgot tādus parametrus kā ok
(atbilžu skaits), sliekšņi un temperatūra, lai tie atbilstu to lietojumiem.
Reāllaika Colab piezīmju grāmatiņa un dokumentācija ir pieejama šeit uzņēmumam draudzīga Apache 2.0 licence GitHub vietnē: https://github.com/CHATS-lab/verbalized-sampling
Praktiski padomi un izplatītas problēmas
Lai gan šī metode darbojas visos lielākajos LLM, daži lietotāji sākotnēji var saskarties ar atteikumiem vai kļūdām.
Šādos gadījumos autori iesaka izmantot veidnes sistēmas uzvednes versiju vai atsaukties uz alternatīviem formātiem, kas norādīti GitHub lapā.
Daži modeļi interpretēt sarežģītas instrukcijas kā jailbreak mēģinājumus un atsakās ievērot, ja vien struktūra nav skaidrāka.
Piemēram, pamudināšana, izmantojot sistēmas līmeņa instrukciju, piemēram, šī, uzlabo uzticamību:
Jūs esat izpalīdzīgs palīgs. Katram vaicājumam atsevišķos tagos ģenerējiet piecas atbildes, katra ar varbūtību mazāku par 0,10.
Šīs nelielās izmaiņas parasti atrisina visas problēmas.
Viegls risinājums lielai problēmai
Verbalizētā iztveršana ir praktisks, izsecināšanas laika labojums dziļam mūsdienu valodas modeļu darbības ierobežojumam. Tam nav nepieciešama modeļa pārkvalifikācija vai iekšēja piekļuve. Tas nav atkarīgs no vienas ģimenes modeļa. Un tas uzlabo ne tikai rezultātu daudzveidību, wager arī to kvalitāti, ko vērtē gan pēc cilvēku vērtējuma, gan etalona rādītājiem.
Pieaugot interesei par rīkiem, kas uzlabo modeļu radošumu, VS, visticamāk, ātri ieviesīsies tādās jomās kā rakstīšana, dizains, simulācija, izglītība un sintētisko datu ģenerēšana.
Lietotājiem un izstrādātājiem, kurus neapmierina LLM atbilžu vienādība, labojums var būt tikpat vienkāršs kā jautājuma maiņa.