Jauns pētniecības dokuments Klusi publicēts pagājušajā nedēļā izklāsta izrāvienu metodi, kas ļauj lieliem valodu modeļiem (LLMS) simulēt cilvēku patērētāju uzvedību ar satriecošu precizitāti-attīstību, kas varētu pārveidot vairāku miljardu dolāru lielu dolāru Tirgus izpētes nozareApvidū Šī paņēmiens sola radīt sintētisko patērētāju armijas, kuri var nodrošināt ne tikai reālistiskus produktu vērtējumus, guess arī kvalitatīvo argumentāciju, kas viņiem ir, mērogā un ātrumā, kas pašlaik nav sasniedzams.
Gadiem ilgi uzņēmumi ir centušies izmantot AI tirgus izpētei, guess tos ir pamudinājis būtisks trūkums: kad viņiem tiek lūgts sniegt skaitlisku vērtējumu no skalas no 1 līdz 5, LLM rada nereālu un slikti izplatītu reakciju. Jauns papīrs, "LLMS reproducē cilvēku pirkšanas nodomu, izmantojot Likerta reitingu semantisko līdzībuVerdzība" Iesniegts pirms drukāšanas servera arxiv 9. oktobrī ierosina elegantu risinājumu, kas pilnībā apiet šo problēmu.
Starptautiskā pētnieku komanda, kuru vadīja Benjamins F. Maiers, izstrādāja metodi, kuru viņi sauc Semantiskās līdzības vērtējums (SSR)Apvidū Tā vietā, lai lūgtu LLM par numuru, SSR liek modelim bagātīgam, tekstuālam viedoklim par produktu. Pēc tam šis teksts tiek pārveidots par skaitlisku vektoru – An "iegulšana" -un tā līdzību mēra ar iepriekš definētu atsauces paziņojumu kopumu. Piemēram, reakcija uz "Es to absolūti nopirktu, tas ir tieši tas, ko es meklēju" būtu semantiski tuvāk atsauces paziņojumam par "5" vērtējums, nevis paziņojums par "1."
Rezultāti ir pārsteidzoši. Pārbaudīts pret masveida reālās pasaules datu kopu no vadošās personīgās higiēnas korporācijas-kas satur 57 produktu aptaujas un 9 300 cilvēku reakcijas-SSR metode sasniedza 90% cilvēku testa atkārtotas ticamības. Būtiski, ka AI ģenerētu vērtējumu sadalījums statistiski bija gandrīz neatšķirams no cilvēka paneļa. Autori paziņo, "Šis ietvars ļauj mērogojamas patērētāju pētījumu simulācijas, vienlaikus saglabājot tradicionālo aptauju metriku un interpretējamību."
Savlaicīgs risinājums, jo AI apdraud aptaujas integritāti
Šī attīstība notiek kritiskā laikā, jo tradicionālo tiešsaistes aptaujas paneļu integritāte arvien vairāk draud AI. 2024. gada analīze no Stenfordas biznesa absolventu skola uzsvēra pieaugošo cilvēku apsekojumu dalībnieku problēmu, izmantojot tērzēšanas robotus, lai radītu atbildes. Šīs AI ģenerētās atbildes tika atzītas par "Aizdomīgi jauki," Pārmērīgi skaļi un trūkst "šņukstēt" un patiesu cilvēku atgriezeniskās saites autentiskums, kas izraisa to, ko pētnieki sauca par "homogenizācija" dati, kas varētu maskēt nopietnas problēmas, piemēram, diskrimināciju vai produktu trūkumus.
Maijera pētījumi piedāvā ārkārtīgi atšķirīgu pieeju: tā vietā, lai cīnītos, lai attīrītu piesārņotus datus, tas rada kontrolētu vidi augstas precizitātes sintētisko datu ģenerēšanai no sākuma.
"Tas, ko mēs redzam, ir pagrieziens no aizsardzības līdz pārkāpumam," sacīja, ka viens analītiķis nav saistīts ar pētījumu. "Stenfordas rakstā parādīts nekontrolētu AI piesārņojošo cilvēku datu kopu haoss. Šis jaunais raksts parāda kontrolētās AI pasūtījumu un lietderību, izveidojot savas datu kopas. Galvenajam datu virsniekam šī ir atšķirība starp piesārņota labi sakopšanu un svaiga pavasarī."
No teksta līdz nodomam: tehniskais lēciens aiz sintētiskā patērētāja
Jaunās metodes tehniskā pamatotība ir atkarīga no teksta ieguldu kvalitātes – jēdziens, kas izpētīts 2022. gada dokumentā EPJ datu zinātneApvidū Šis pētījums strīdējās par stingru "konstrukcijas derīgums" Body, lai nodrošinātu teksta iegulšanu – teksta skaitliskos attēlojumus – patiesi "izmērīt to, kas viņiem ir paredzēts."
Panākumi SSR metode Ieteicams, ka tā iegulšana efektīvi uztver pirkuma nodoma nianses. Lai šī jaunā tehnika, kas tiek plaši izmantota, uzņēmumiem būs jābūt pārliecinātam, ka pamatā esošie modeļi ne tikai ģenerē ticamu tekstu, guess arī kartē šo tekstu, lai vērtējumi būtu izturīgi un jēgpilni.
Šī pieeja atspoguļo arī ievērojamu lēcienu no iepriekšējiem pētījumiem, kas lielā mērā ir vērsti uz teksta ieguldu izmantošanu, lai analizētu un prognozētu vērtējumus no esošajām tiešsaistes pārskatiem. Izšķirt 2022. gada pētījumspiemēram, novērtēja tādu modeļu kā Bert un Word2vec veiktspēju, prognozējot pārskatīšanas rezultātus mazumtirdzniecības vietnēs, secinot, ka jaunāki modeļi, piemēram, Berts, ir labāk darbojies vispārējai lietošanai. Jaunais pētījums mainās, ne tikai analizējot esošos datus, lai radītu jaunu, prognozējošu ieskatu, pirms produkts pat nonāk tirgū.
Digitālās fokusa grupas rītausma
Tehniskajiem lēmumu pieņēmējiem ietekme ir dziļa. Spēja griezties a "digitālais dvīnis" mērķa patērētāju segmenta un testa produktu koncepciju, reklāmas kopijas vai iepakojuma variācijas dažu stundu laikā varētu krasi paātrināt inovāciju ciklus.
Kā norādīts rakstā, šie sintētiskie respondenti arī nodrošina "Bagātīga kvalitatīva atgriezeniskā saite, kas izskaidro viņu vērtējumus," Piedāvājot datu dārgumu krātuvi produktu izstrādei, kas ir gan mērogojama, gan interpretējama. Kaut arī fokusa grupu laikmets, kas paredzēts tikai cilvēkiem, nebūt nav beidzies, šis pētījums sniedz pārliecinošākos pierādījumus, ka viņu sintētiskie kolēģi ir gatavi uzņēmējdarbībai.
Wager biznesa gadījums pārsniedz ātrumu un mērogu. Apsveriet ekonomiku: tradicionālā aptaujas panelis nacionālā produktu ieviešanai varētu maksāt desmitiem tūkstošu dolāru, un tas prasīs nedēļas uz lauku. Uz SSR balstīta simulācija varētu sniegt salīdzināmu ieskatu nelielā laika posmā, par nelielu daļu no izmaksām un ar spēju uzreiz atkārtoties, pamatojoties uz atklājumiem. Uzņēmumiem, kas strauji mainās patēriņa preču kategorijās-kur logs starp koncepciju un plauktu var noteikt tirgus vadību-šī ātruma priekšrocība varētu būt izšķiroša.
Protams, ir brīdinājumi. Metode tika apstiprināta par personīgās higiēnas līdzekļiem; Tā darbība par sarežģītiem B2B pirkšanas lēmumiem, luksusa precēm vai kultūrā specifiskiem produktiem joprojām nav nepierādīti. Un, lai gan raksts parāda, ka SSR var atkārtot kopējo cilvēku izturēšanos, tas neapgalvo prognozēt atsevišķu patērētāju izvēli. Metode darbojas iedzīvotāju līmenī, nevis personas līmenī – atšķirība, kas ir ļoti svarīga tādām lietojumprogrammām kā personalizēts mārketings.
Tomēr pat ar šiem ierobežojumiem pētījums ir pavērsiens. Kaut arī tikai cilvēku fokusa grupu laikmets nebūt nav beidzies, šis dokuments sniedz pārliecinošākos pierādījumus, ka viņu sintētiskie kolēģi ir gatavi uzņēmējdarbībai. Jautājums vairs nav par to, vai AI var simulēt patērētāju noskaņojumu, guess gan to, vai uzņēmumi var pietiekami ātri pārvietoties, lai to gūtu labumu, pirms viņu konkurenti to dara.