Home Tehnoloģija Vai LLM var saprast zinātniekus?

Vai LLM var saprast zinātniekus?

26
0

 

 

Lielu valodu modeļu (LLMS) izmantošana kā alternatīva meklētājprogrammām un ieteikumu algoritmi palielinās, taču agrīnie pētījumi liecina, ka joprojām ir augsta neatbilstības pakāpe un neobjektivitāte rezultātos, kurus šie modeļi rada. Tam ir reālas sekas, jo LLM ir lielāka loma mūsu lēmumu pieņemšanas izvēlē.

Ir grūts izprast algoritmisko ieteikumu izpratni. Agrāk mums bija veselas nozares, kas bija veltītas (un spēlēm) meklētājprogrammu rezultātiem, taču tikai dažu gadu laikā mūsu tiešsaistes ieteikumu sarežģītības līmenis ir vairākkārt pieaudzis. Masveida LLM lietošanas gadījumu daudzveidība ir padarījusi atsevišķu lietojumprogrammu revīziju būtisku, lai novērstu aizspriedumus un neprecizitātes.

Zinātnieki, valdības un pilsoniskā sabiedrība cenšas izprast to, ko šie modeļi izspiež. Vīnes sarežģītības zinātnes centra pētnieku grupa ir apskatījusi vienu jomu, jo īpaši šie modeļi tiek izmantoti: zinātnisko ekspertu identificēšana. Konkrēti, šie pētnieki bija ieinteresēti par to, kurus zinātniekus iesaka šie modeļi – un kuri nebija.

Lisette Espín-Noboa, datorzinātniece, kas strādā pie projekta, to bija izpētījusi, pirms Major LLM bija nonācis tirgū: “2021. gadā es organizēju darbnīcu, un es gribēju nākt klajā ar galveno runātāju sarakstu.” Pirmkārt, viņa devās uz Google Scholar, atklātu piekļuvi zinātnieku un viņu publikāciju datu bāzi. Vai[Google Scholar] Apstrādājot tos pēc citātiem, bet vairāku iemeslu dēļ citācijas ir neobjektīvas. ”

Tas nozīmēja vīriešu zinātnieku lappuses un lappuses pārmeklēšanu. Dažas zinātnes jomas ir vienkārši populārākas nekā citas, un pētniekiem ir lielāka ietekme tikai viņu disciplīnas lieluma dēļ. Cits jautājums ir tas, ka vecākiem zinātniekiem – un vecākiem pētījumiem -, protams, būs vairāk atsauce tikai uz to, ka viņi ir garāki, nevis viņu atradumu jaunums.

VaiTas bieži ir neobjektīvs pret vīriešiem, ”norāda Espín-Noboa. Pat tad, ja vairāk sieviešu, kas iestājas šajā profesijā, lielākajai daļai zinātnisko disciplīnu gadu desmitiem ilgi dominē vīrieši.

Daniele Barolo, cits pētnieks sarežģītības zinātnes centrā, to raksturo kā Metjū efekta piemēru. “Ja jūs šķirojat autorus tikai pēc atsauces skaita, iespējams, ka viņi tiks lasīti un tāpēc citēti, un tas radīs pastiprināšanas cilpu,” viņš skaidro. Citiem vārdiem sakot, bagātie kļūst bagātāki.

Espín-noboa turpina: VaiTad es domāju, kāpēc es nelietoju LLM? ” Šie rīki varētu aizpildīt arī nepilnības, iekļaujot zinātniekus, kuri navt Google Scholar.

Bet vispirms viņiem būtu jāsaprot, vai tie ir uzlabojumi. VaiMēs sākām veikt šīs revīzijas, jo mēs gribējām uzzināt, cik daudz viņi zināja par cilvēkiem, [and] Ja viņi būtu neobjektīvi pret vīriešiem vai nē, ”saka Espín-Noboa. Pētnieki arī vēlējās redzēt, cik precīzi ir instrumenti un vai viņi parādīja jebkādas aizspriedumus, kas balstīti uz etnisko piederību.

Revīzijas revīzija

Viņi nāca klajā ar eksperimentu, kas pārbaudītu LLM sniegtos ieteikumus dažādos virzienos, sašaurinot savus lūgumus zinātniekiem, kas publicēti Amerikas Fiziskās biedrības žurnālā. Viņi lūdza šos LLM dažādus ieteikumus, piemēram, vissvarīgākos noteiktās jomās vai identificētu ekspertus no noteiktiem laika periodiem.

Kamēr viņi nevarējat Pārbaude zinātnieka absolūtajai ietekmei – nav tādas VaiZemes patiesība ”pastāv – eksperiments parādīja dažus interesantus atklājumus. Viņu papīrs, kas šobrīd ir pieejams kā a iespraušanaliecina, ka Āzijas zinātnieki ir ievērojami nepietiekami pārstāvēti LLM sniegtajos ieteikumos, un ka esošie aizspriedumi pret sieviešu autorēm bieži tiek atkārtoti.

Neskatoties uz detalizētām instrukcijām, dažos gadījumos šie modeļi halucinētu zinātnieku vārdus, it īpaši, ja viņiem tiek lūgti lieli ieteikumu saraksti, un ne vienmēr spētu atšķirt dažādas kompetences jomas.

VaiLLM nevar uzskatīt par tieši kā datu bāzēm, jo ​​tie ir valodu modeļi, ”saka Barolo.

Viens pārbaudījums bija pamudināt LLM ar zinātnieka vārdu un lūgt to kādam no līdzīga akadēmiskā profila – a VaiStatistiskais dvīnis ”. Bet, kad viņi to izdarīja, VaiTika ieteikti ne tikai zinātnieki, kuri faktiski strādā līdzīgā jomā, bet arī cilvēki ar līdzīgu izskatu ”Pievieno Barolo.

Tāpat kā visos eksperimentos, ir daži ierobežojumi: sākumam šis pētījums tika veikts tikai ar atvērta svara modeļiem. Tiem ir zināma caurspīdīguma pakāpe, kaut arī ne tik daudz kā pilnībā atvērtā koda modeļi. Lietotāji var iestatīt noteiktus parametrus un modificēt algoritmu struktūru, ko izmanto, lai precīzi noregulētu to izvadi. Turpretī vairums lielāko pamatu modeļu ir slēgtas svara, ar minimālu caurspīdīgumu un pielāgošanas iespējām.

Bet pat atvērtā svara modeļi ir pretrunā ar jautājumiem. VaiJūs pilnībā nezināt, kā tika veikts apmācības process un kuri apmācības dati tika izmantoti, ”norāda Barolo.

Pētījums tika veikts ar meta versijāmS lama modeļi, GoogleS Gemma (vieglāks modelis nekā viņu vadošais Gemini) un Mistral modelis. Katru no tiem jau ir aizstāts ar jaunākiem modeļiem – daudzgadīga problēma LLMS pētījumu veikšanai, jo akadēmiskais cauruļvads nevar pārvietoties tik ātri kā nozare.

Papildus tam laikam, kas nepieciešams, lai veiktu pašu pētījumu veikšanu, dokumentus var aizturēt vairākus mēnešus vai gadus pārskatīšanas laikā. Turklāt šo modeļu caurspīdīguma un pastāvīgi mainīgā rakstura trūkums var radīt grūtības reproducēt rezultātus, kas ir būtisks solis zinātniskajā procesā.

Uzlabojums?

Espín-Noboa iepriekš ir strādājis pie vairāk zemu tehnoloģiju ranga algoritmu revīzijas. 2022. gadā, Viņa publicēja dokumentu, kurā analizēja Pagerank ietekmi – Algoritms, kas, domājams, deva Google savu lielo izrāvienu 1990. gadu beigās. Kopš tā laika to ir izmantojuši LinkedIn, Twitter un Google Scholar.

PageRank tika izstrādāts, lai veiktu aprēķinu, pamatojoties uz saišu skaitu, kas vienumam ir tīklā. Tīmekļa lapu gadījumā tas varētu būt tas, cik daudz vietņu ir saistīta ar noteiktu vietni; Vai arī zinātniekiem tas varētu veikt līdzīgu aprēķinu, pamatojoties uz līdzautorēm.

Espín-noboaS Pētījumi rāda, ka algoritmam ir savas problēmas – tas var kalpot neizdevīguma minoritāšu grupām. Neskatoties uz to, PageRank joprojām ir principiāli izstrādāts, paturot prātā ieteikumus.

Turpretī, VaiLLM nerada ranžēšanas algoritmus-viņi nesaprot, kāds ir rangs šobrīd ”, saka Espín-noboa. Tā vietā LLM ir varbūtība-dodot vislabāko minējumu par pareizu atbildi, nosverot vārdu varbūtības. Espín-noboa joprojām redz tajos solījumu, bet saka, ka viņi nav saskrāpēti kā lietas.

Šim pētījumam ir arī praktiska sastāvdaļa, jo šie pētnieki cer galu galā radīt veidu, kā cilvēki labāk meklēt ieteikumus.

VaiMūsu galīgais mērķis ir panākt rīku, kuru lietotājs var mijiedarboties, viegli izmantojot dabisko valodu, ”saka Barolo. Tas tiks pielāgots lietotāja vajadzībām, ļaujot viņiem izvēlēties, kuras problēmas viņiem ir svarīgas.

VaiMēs uzskatām, ka aģentūrai vajadzētu būt lietotājam, nevis uz LLM, ”saka Espín-Noboa. Viņa izmanto Google piemēruS Dvīņu attēlu ģenerators pārmērīgi koriģē aizspriedumus – pārstāvot amerikāņu dibinātājus (un nacistu karavīrus) kā krāsainus cilvēkus pēc vienas atjaunināšanas un novedot pie tā, ka tā ir īslaicīgi apturēts uzņēmums.

Tā vietā, lai tehnoloģiju uzņēmumi un programmētāji pieņemtu plašus lēmumus par modeliIzvade, lietotājiem vajadzētu būt iespējai izvēlēties viņiem vissvarīgākos jautājumus.

Lielāks attēls

Pētījumi, piemēram, tas, kas notiek sarežģītības zinātnes centrā, notiek visā Eiropā un pasaulē, jo zinātnieki sacenšas saprast, kā šīs jaunās tehnoloģijas ietekmē mūsu dzīvi.

Akadēmiskajā vidē ir VaiPatiešām svarīga loma spēlē ”, saka Lara Groves, Ada Lovelace institūta vecākā pētniece. Pētījis, kā notiek revīzijas dažādos kontekstos, Groves saka akadēmiķu grupas, piemēram, gada FACCT Konference par taisnīgumu, caurspīdīgumu un atbildību – ir VaiIzveidot iesaistes noteikumus ”revīzijām.

Pat bez pilnīgas piekļuves apmācības datiem un algoritmiem, uz kuriem šie rīki ir balstīti, akadēmiskajā aprindā ir VaiIzveidoja pierādījumu bāzi, kā, kāpēc un kad jūs varētu veikt šīs revīzijas ”. Bet viņa brīdina, ka šos centienus var kavēt piekļuves līmenis, kāds tiek nodrošināts pētniekiem, jo ​​viņi bieži vien spēj tikai aplūkot savu rezultātu.

Neskatoties uz to, viņa vēlētos redzēt vairāk novērtējumu VaiFonda modeļa slānī ”. Groves turpinās: VaiŠīs sistēmas ir ļoti stohastiskas un ļoti dinamiskas, tāpēc tāS nav iespējams pateikt augšpus izejas diapazonu. ” Citiem vārdiem sakot, masveida mainīgums, ko rada LLM, nozīmē, ka mums vajadzētu pārbaudīt zem pārsega, pirms sākam aplūkot to lietošanas gadījumus.

Citām nozarēm, piemēram, aviācijai vai kiberdrošībai, jau ir stingri revīzijas procesi. VaiNav tā, ka mēs strādātu no pirmajiem principiem vai no nekā. TasS identificējot, kuri no šiem mehānismiem un pieejas ir analogi AI, ”piebilst Groves.

Starp ieroču sacensībām par AI pārākumu, visi galvenie spēlētāju veiktie testi tiek cieši apsargāti. Ir bijuši neregulāri atvērtības brīži: augustā Openai un Antropiski veica revīzijas viens otramS modeļi un atbrīvoja savus atklājumus sabiedrībai.

Liela daļa no pratināšanas LLMS joprojām kritīsies tiem, kas atrodas ārpus telts. Metodiski, neatkarīgi pētījumi varētu ļaut mums ieskatīties koS brauc ar šiem instrumentiem un varbūt pat tos pārveido uz labo pusi.

avots