Home Tehnoloģija Vienkārši pievienojiet cilvēkus: Oksfordas medicīniskais pētījums uzsver trūkstošo saiti tērzēšanas robotu testēšanā

Vienkārši pievienojiet cilvēkus: Oksfordas medicīniskais pētījums uzsver trūkstošo saiti tērzēšanas robotu testēšanā

28
0

Pievienojieties pasākumam, kuru uzņēmuma vadītāji uzticas gandrīz divas desmitgades. VB Remodel apvieno cilvēkus, kas veido reālu uzņēmumu AI stratēģiju. Uzziniet vairāk


Virsraksti to jau vairākus gadiem ir uzliesmojuši: lielie valodu modeļi (LLM) var ne tikai nokārtot medicīniskās licencēšanas eksāmenus, guess arī pārspēt cilvēkus. GPT-4 varētu pareizi atbildēt uz mums medicīnisko eksāmenu licencēšanas jautājumus 90% laika, pat 2023. gada aizvēsturiskajās AI dienās. Kopš tā laika LLM ir turpinājuši vislabāk Iedzīvotāji kārto šos eksāmenus un Ārsti licencētiApvidū

Pārvietojieties, ārsts Google, dodieties uz Chatgpt, MD, guess jūs, iespējams, vēlēsities vairāk nekā diplomu no LLM, kuru jūs izvietojat pacientiem. Līdzīgi kā Ace medicīnas college students, kurš var grabēt katra kaula vārda vārdā rokā, guess nodarītās no pirmās skatu uz reālām asinīm, LLM medicīnas meistarība ne vienmēr nozīmē tieši reālajā pasaulē.

Izšķirt papīrpapīrs pētnieki vietnē Oksfordas universitāte atklāja, ka, lai arī LLM varētu pareizi identificēt attiecīgos apstākļus 94,9% laika, kad tie tieši uzrāda testa scenārijus, cilvēku dalībnieki, kas izmanto LLM, diagnosticēšanai, lai diagnosticētu tos pašus scenārijus, identificēja pareizos apstākļus, kas ir mazāki par 34,5% laika.

Varbūt vēl jo vairāk, ka pacienti, kas izmanto LLMS, veica pat sliktāk nekā kontroles grupa, kurai tikai tika uzdots diagnosticēt sevi, izmantojot “visas metodes, kuras viņi parasti izmantotu mājās”. Grupa, kas atstāja savas ierīces, bija par 76% biežāk identificēja pareizos nosacījumus nekā grupa, kurai palīdz LLMS.

Oksfordas pētījums rada jautājumus par LLM piemērotību medicīniskām konsultācijām un etaloniem, kurus mēs izmantojam, lai novērtētu tērzēšanas robotu izvietošanu dažādiem lietojumiem.

Uzminiet savu slimību

Dr. Adam Mahdi vadībā Oksfordas pētnieki pieņēma darbā 1298 dalībniekus, lai iepazīstinātu sevi kā pacientus LLM. Viņiem tika uzdots gan mēģināt izdomāt, kas viņus satrauc, gan atbilstošu aprūpes līmeni, lai to meklētu, sākot no pašaprūpes līdz ātrās palīdzības izsaukšanai.

Katrs dalībnieks saņēma detalizētu scenāriju, kas pārstāv nosacījumus no pneimonijas uz saaukstēšanos, kā arī vispārējo dzīves informāciju un slimības vēsturi. Piemēram, vienā scenārijā ir aprakstīts 20 gadus vecs inženierzinātņu college students, kurš naktī kopā ar draugiem attīsta kropļojošas galvassāpes. Tas ietver svarīgu medicīnisko informāciju (ir sāpīgi skatīties uz leju) un sarkanās siļķes (viņš ir parasts dzērājs, dalās ar dzīvokli ar sešiem draugiem un tikko pabeidza dažus stresa eksāmenus).

Pētījumā tika pārbaudīti trīs dažādi LLM. Pētnieki izvēlējās GPT-4O, ņemot vērā tās popularitāti, LLAMA 3 par tā atvērto svaru un komandu R+ par tās iegūšanas veidotās paaudzes (lupatu) spējām, kas ļauj tai meklēt palīdzību atvērtā tīmeklī.

Dalībniekiem tika lūgts mijiedarboties ar LLM, vismaz vienu reizi izmantojot sniegto informāciju, guess viņi varēja to izmantot tik reižu, cik viņi gribēja nonākt pie savas pašdiagnozes un paredzētās darbības.

Aizkulisēs ārstu komanda vienbalsīgi izlēma par “zelta standarta” apstākļiem, kurus viņi meklēja katrā scenārijā, un atbilstošo rīcību. Piemēram, mūsu inženierzinātņu college students cieš no subarachnoid asiņošanas, kurai vajadzētu būt tūlītējai ER apmeklējumam.

Telefona spēle

Lai gan jūs varētu pieņemt, ka LLM, kas var ACE medicīnisko eksāmenu, būtu ideāls līdzeklis, lai palīdzētu vienkāršajiem cilvēkiem pašdiagnozēt un izdomāt, kā rīkoties, tas neizdevās šādi. “Dalībnieki, kas izmanto LLM, identificēja attiecīgos apstākļus mazāk konsekventi nekā kontroles grupā, identificējot vismaz vienu būtisku nosacījumu ne vairāk kā 34,5% gadījumu, salīdzinot ar 47,0% kontrolei,” teikts pētījumā. Viņiem arī neizdevās secināt pareizo darbības gaitu, izvēloties to tikai 44,2% laika, salīdzinot ar 56,3% LLM, kas darbojas neatkarīgi.

Kas nogāja greizi?

Atskatoties uz atšifrējumiem, pētnieki atklāja, ka dalībnieki gan sniedza nepilnīgu informāciju LLM, un LLMS nepareizi interpretēja viņu uzvedni. Piemēram, viens lietotājs, kuram vajadzēja uzrādīt žultsakmeņu simptomus, tikai teica LLM: “Man ir smagas sāpes vēderā, kas ilgst līdz stundai, tas var likt man vemt un, šķiet, sakrīt ar līdzņemšanu”, izlaižot sāpju atrašanās vietu, smagumu un biežumu. Komanda R+ nepareizi ierosināja, ka dalībnieks piedzīvo gremošanas traucējumus, un dalībnieks nepareizi uzminēja šo stāvokli.

Pat tad, kad LLM sniedza pareizu informāciju, dalībnieki ne vienmēr ievēroja tās ieteikumus. Pētījumā atklājās, ka 65,7% GPT-4O sarunu ierosināja vismaz vienu būtisku scenārija nosacījumu, guess kaut kā mazāk nekā 34,5% no dalībnieku galīgajām atbildēm atspoguļoja šos attiecīgos apstākļus.

Cilvēka mainīgais

Šis pētījums ir noderīgs, guess nav pārsteidzošs, pēc Nathalie Volkheimer, lietotāju pieredzes speciālistes Nathalie Volkheimer Renesanses skaitļošanas institūts (Renci)Ziemeļkarolīnas universitāte Chapel Hill.

“Tiem no mums, kas ir pietiekami veci, lai atcerētos meklēšanas pirmās dienas internetā, tas ir déjà vu,” viņa saka. “Kā rīks lieliem valodas modeļiem ir nepieciešams uzrakstīt uzvednes ar noteiktu kvalitātes pakāpi, it īpaši, ja tiek gaidīts kvalitātes rezultāts.”

Viņa norāda, ka kāds, kurš piedzīvo apžilbinošas sāpes, nepiedāvā lielas uzvednes. Lai arī laboratorijas eksperimenta dalībnieki simptomus nebija tieši piedzīvojuši, viņi netika pārraidīti.

“Ir arī iemesls, kāpēc ārsti, kas nodarbojas ar pacientiem, kas atrodas frontes līnijā, tiek apmācīti uzdot jautājumus noteiktā veidā un zināmu atkārtojumu,” turpina Volkheimers. Pacienti izlaiž informāciju, jo viņi nezina, kas ir būtisks, vai sliktākajā gadījumā melo, jo viņi ir samulsuši vai kauns.

Vai tērzēšanas robotus var labāk veidot, lai tos risinātu? “Es šeit neuzlieku uzsvaru uz mašīnām,” brīdina Volkheimers. “Es apsvērtu, ka uzsvaram vajadzētu būt uz cilvēku un tehnoloģiju mijiedarbību.” Automašīna, viņa analogizē, tika uzbūvēta, lai cilvēki no punkta A līdz B, guess loma ir daudziem citiem faktoriem. “Runa ir par vadītāju, ceļiem, laika apstākļiem un maršruta vispārējo drošību. Tas nav tikai mašīnai.”

Labāks kritērijs

Oksfordas pētījums izceļ vienu problēmu, nevis ar cilvēkiem vai pat LLM, guess gan ar to, kā mēs tos dažreiz mēra – vakuumā.

Kad mēs sakām, ka LLM var nokārtot medicīniskās licencēšanas pārbaudi, nekustamā īpašuma licencēšanas eksāmenu vai valsts advokātu eksāmenu, mēs zondējam tās zināšanu bāzes dziļumu, izmantojot rīkus, kas izstrādāti cilvēku novērtēšanai. Tomēr šie pasākumi mums ļoti maz stāsta par to, cik veiksmīgi šie tērzēšanas roboti mijiedarbosies ar cilvēkiem.

“Uzvednes bija mācību grāmata (kā to apstiprināja avota un medicīnas kopiena), guess dzīve un cilvēki nav mācību grāmata,” skaidro Dr Volkheimers.

Iedomājieties uzņēmumu, kurš gatavojas izvietot atbalsta tērzēšanu, kas apmācīts uz tās iekšējās zināšanu bāzes. Viens šķietami loģisks veids, kā pārbaudīt, ka BOT vienkārši varētu būt, lai tas tiktu veikts vienāds pārbaudījums, ko uzņēmums izmanto klientu atbalsta praktikantiem: atbildot uz iepriekš uzrakstītiem “klienta” atbalsta jautājumiem un izvēloties atbildes uz atbilžu variantiem. 95% precizitāte noteikti izskatītos diezgan daudzsološa.

Tad nāk izvietošana: reāli klienti lieto neskaidrus terminus, izteikt neapmierinātību vai aprakstīt problēmas negaidītā veidā. LLM, salīdzinot tikai ar skaidriem jautājumiem, sajaucas un sniedz nepareizas vai nelietderīgas atbildes. Tas nav apmācīts vai novērtēts par situācijām, kas atdzīvina, vai efektīvi tiek meklēti skaidrojumi. Sagrauj dusmīgas atsauksmes. Palaišana ir katastrofa, neskatoties uz to, ka LLM kuģo caur testiem, kas šķita spēcīgi tā kolēģiem.

Šis pētījums kalpo kā kritisks atgādinājums AI inženieriem un orķestrēšanas speciālistiem: ja LLM ir paredzēts mijiedarbībai ar cilvēkiem, paļaujoties tikai uz neinteraktīviem etaloniem, var radīt bīstamu nepatiesu drošības sajūtu par tās reālās pasaules spējām. Ja jūs projektējat LLM, lai mijiedarbotos ar cilvēkiem, jums tas jāpārbauda ar cilvēkiem, nevis cilvēkiem. Wager vai ir labāks veids?

Izmantojot AI, lai pārbaudītu AI

Oksfordas pētnieki pieņēma darbā gandrīz 1300 cilvēkus par savu pētījumu, guess lielākajai daļai uzņēmumu nav testa subjektu baseina, kas sēž apkārt, gaidot spēli ar jaunu LLM aģentu. Tad kāpēc gan ne tikai aizstāt AI testētājus pret pārbaudītājiem?

Mahdi un viņa komanda to izmēģināja arī ar imitētiem dalībniekiem. “Jūs esat pacients,” viņi pamudināja LLM, atdaloties no tā, kas sniegtu padomu. “Jums ir jāatzīst simptomi no dotā gadījuma vinjetes un palīdzība no AI modeļa. Vienkāršojiet terminoloģiju, ko izmanto dotajā punktā, lai nespeciālistam valodu, un jūsu jautājumi vai paziņojumi būtu pamatoti īsi.” LLM arī tika uzdots nelietot medicīniskās zināšanas vai radīt jaunus simptomus.

Pēc tam šie simulētie dalībnieki tērzēja ar tām pašām LLM, ko cilvēku dalībnieki izmantoja. Wager viņi uzstājās daudz labāk. Vidēji simulētie dalībnieki, kas izmanto tos pašus LLM rīkus, pavirši attiecīgos apstākļus 60,7% laika, salīdzinot ar zem 34,5% cilvēku.

Šajā gadījumā izrādās, ka LLM spēlē jaukāk ar citiem LLM, nekā to dara cilvēki, kas padara viņus par sliktu reālās dzīves snieguma prognozētāju.

Nevaino lietotāju

Ņemot vērā rādītājus, ko LLM varētu sasniegt paši, varētu būt vilinoši vainot šeit esošos dalībniekus. Galu galā daudzos gadījumos viņi saņēma pareizās diagnozes sarunās ar LLM, guess joprojām neizdevās to pareizi uzminēt. Wager tas būtu muļķīgs secinājums jebkuram biznesam, brīdina Volkheimers.

“Katrā klientu vidē, ja jūsu klienti nedara to lietu, kuru vēlaties, pēdējais, ko jūs darāt, ir vainot klientu,” saka Volkheimers. “Pirmais, ko jūs darāt, ir jautāt, kāpēc. Un nevis“ kāpēc ”galvas augšdaļā: guess dziļa izmeklēšanas, specifiska, antropoloģiska, psiholoģiska, pārbaudīta“ kāpēc ”. Tas ir jūsu sākumpunkts. ”

Pirms tērzēšanas robota izvietošanas jums ir jāsaprot auditorija, viņu mērķi un klientu pieredze, iesaka Thatbot. Tas viss informēs par rūpīgu, specializētu dokumentāciju, kas galu galā padarīs LLM noderīgu. Bez rūpīgi izstrādātiem apmācības materiāliem, “tas izspļaus kādu vispārīgu atbildi visiem ienīst, tāpēc cilvēki ienīst tērzēšanas robotus,” viņa saka. Kad tas notiek: “Tas nav tāpēc, ka tērzēšanas roboti ir briesmīgi vai tāpēc, ka ar viņiem ir kaut kas tehniski nepareizs. Tas ir tāpēc, ka tajos esošie sīkumi ir slikti.”

“Cilvēki, kas projektē tehnoloģiju, izstrādājot informāciju, kas tur nonāk, un procesi un sistēmas ir labi, cilvēki,” saka Volkheimers. “Viņiem ir arī fons, pieņēmumi, trūkumi un aklo punkti, kā arī stiprās puses. Un visas šīs lietas var iebūvēt jebkurā tehnoloģiskā risinājumā.”


avots