Home Tehnoloģija Langchain’s Relign Evals aizver vērtētāja uzticības spraugu ar tūlītējas līmeņa kalibrēšanu

Langchain’s Relign Evals aizver vērtētāja uzticības spraugu ar tūlītējas līmeņa kalibrēšanu

13
0

Vai vēlaties gudrāku ieskatu iesūtnē? Reģistrējieties mūsu iknedēļas biļeteniem, lai iegūtu tikai to, kas ir svarīgi uzņēmuma AI, datu un drošības vadītājiem. Abonēt tūlīt


Tā kā uzņēmumi arvien vairāk vēršas pie AI modeļiem, lai nodrošinātu to lietojumprogrammu labi un ir ticami, nepilnības starp modeļa vadītajiem novērtējumiem un cilvēku novērtējumiem ir kļuvuši tikai skaidrāki.

Lai to apkarotu, Langchain Pievienots izlīdzināts evals langsmith, veids, kā novērst plaisu starp lielo valodu modeļa vērtētājiem un cilvēku vēlmēm un samazināt troksni. Izlīdzināšanas evals ļauj Langsmith lietotājiem izveidot savus LLM balstītus vērtētājus un kalibrēt tos, lai tie būtu rūpīgāk saskaņoti ar uzņēmuma preferencēm.

“Guess viens liels izaicinājums, ko mēs konsekventi dzirdam no komandām, ir:” Mūsu vērtēšanas rādītāji neatbilst tam, ko mēs gaidām, ka mūsu komandā teiktu cilvēku. ” Šī neatbilstība noved pie trokšņainiem salīdzinājumiem un laika izšķērdētiem pakaļdzīšanās nepatiesiem signāliem, ”sacīja Langčains emuāra ierakstāApvidū

Langchain ir viena no nedaudzajām platformām, lai integrētu LLM-AS-A-A-tiesnešu vai modeļa vadītus novērtējumus citiem modeļiem tieši testēšanas informācijas panelī.


AI trieciena sērija atgriežas Sanfrancisko – 5. augusts

Nākamais AI posms ir šeit – vai esat gatavs? Pievienojieties līderiem no Block, GSK un SAP, lai apskatītu, kā autonomi aģenti pārveido uzņēmumu darbplūsmas-no reālā laika lēmumu pieņemšanas līdz automatizācijai galīgai līdz galam.

Nostipriniet savu vietu tūlīt – telpa ir ierobežota:


Uzņēmums sacīja, ka tas balstās uz izlīdzināšanu Evals uz Amazon galvenā lietišķā zinātnieka Jevgeņija Jana raksta. Savā papīrpapīrsYan izklāstīja lietotnes ietvaru, ko sauc arī par Alignvalal, kas automatizētu novērtēšanas procesa daļas.

https://www.youtube.com/watch?v=-9o94oj4x0a

Izlīdzināšanas evals ļautu uzņēmumiem un citiem celtniekiem atkārtot vērtēšanas uzvednes, salīdzināt cilvēku vērtētāju un LLM ģenerētu punktu skaita salīdzināšanas rādītājus un ar sākotnējo izlīdzināšanas punktu.

Langchain sacīja, ka Evals ir pirmais solis, lai palīdzētu jums izveidot labākus vērtētājus ”. Laika gaitā uzņēmuma mērķis ir integrēt analītiku, lai izsekotu veiktspējai un automatizētu uzvednes optimizāciju, automātiski ģenerējot uzvednes variācijas.

Kā sākt

Lietotāji vispirms identificēs savu lietojumprogrammas novērtēšanas kritērijus. Piemēram, tērzēšanas lietotnēm parasti nepieciešama precizitāte.

Tālāk lietotājiem ir jāizvēlas dati, kurus viņi vēlas pārskatīt cilvēkiem. Šiem piemēriem jāparāda gan labie, gan sliktie aspekti, lai cilvēku vērtētāji varētu iegūt holistisku ieskatu lietojumprogrammā un piešķirt virkni pakāpju. Pēc tam izstrādātājiem ir manuāli jāpiešķir rezultāti uzvedumiem vai uzdevuma mērķiem, kas kalpos par etalonu.

Pēc tam izstrādātājiem ir jāizveido sākotnējā modeļa vērtētāja uzvedne un jāatstāj, izmantojot cilvēku greideru izlīdzināšanas rezultātus.

“Piemēram, ja jūsu LLM konsekventi pārsniedz noteiktas atbildes, mēģiniet pievienot skaidrākus negatīvus kritērijus. Vērtētāja rezultāta uzlabošana ir domāta kā iteratīvs course of. Uzziniet vairāk par labāko praksi, lai parādītu jūsu uzvedni mūsu dokumentos,” sacīja Langchain.

Pieaugošs LLM novērtējumu skaits

Arvien vairāk uzņēmumi pievēršas vērtēšanas ietvariem, lai novērtētu AI sistēmu, ieskaitot lietojumprogrammas un aģentus, uzticamība, uzvedība, uzdevumu izlīdzināšana un auditējamība. Spēja norādīt uz skaidru rezultātu par to, kā modeļi vai aģenti veic, nodrošina organizācijas ne tikai pārliecību izvietot AI lietojumprogrammas, wager arī atvieglo citu modeļu salīdzināšanu.

Uzņēmumiem patīk Salesforce un Aws sāka piedāvāt veidus, kā klienti spriest par sniegumu. Salesforce aģentam AgentForce 3 ir komandu centrs, kas parāda aģenta sniegumu. AWS nodrošina gan cilvēku, gan automatizētu novērtējumu Amazon pamatiežu platformā, kur lietotāji var izvēlēties modeli, lai pārbaudītu savas lietojumprogrammas, lai gan tie nav lietotāju veidoti modeļa vērtētāji. Openai Piedāvā arī uz modeli balstītu novērtējumu.

MetaPašmācītais vērtētājs balstās uz to pašu LLM-AS-A-tiesnešu koncepciju, kuru izmanto Langsmith, lai gan Meta vēl nav jāpadara par funkciju jebkurai no tās lietojumprogrammu veidošanas platformām.

Tā kā arvien vairāk izstrādātāju un uzņēmumu prasa vieglāku novērtēšanu un vairāk pielāgotus veidus, kā novērtēt veiktspēju, vairāk platformu sāks piedāvāt integrētas metodes modeļu izmantošanai citu modeļu novērtēšanai, un daudzas citas nodrošinās pielāgotas iespējas uzņēmumiem.


avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here