Home Tehnoloģija Langchain’s Relign Evals aizver vērtētāja uzticības spraugu ar tūlītējas līmeņa kalibrēšanu

Tehnoloģija

Langchain’s Relign Evals aizver vērtētāja uzticības spraugu ar tūlītējas līmeņa kalibrēšanu

31 jūlijs 2025

Vai vēlaties gudrāku ieskatu iesūtnē? Reģistrējieties mūsu iknedēļas biļeteniem, lai iegūtu tikai to, kas ir svarīgi uzņēmuma AI, datu un drošības vadītājiem. Abonēt tūlīt

Tā kā uzņēmumi arvien vairāk vēršas pie AI modeļiem, lai nodrošinātu to lietojumprogrammu labi un ir ticami, nepilnības starp modeļa vadītajiem novērtējumiem un cilvēku novērtējumiem ir kļuvuši tikai skaidrāki.

Lai to apkarotu, Langchain Pievienots izlīdzināts evals langsmith, veids, kā novērst plaisu starp lielo valodu modeļa vērtētājiem un cilvēku vēlmēm un samazināt troksni. Izlīdzināšanas evals ļauj Langsmith lietotājiem izveidot savus LLM balstītus vērtētājus un kalibrēt tos, lai tie būtu rūpīgāk saskaņoti ar uzņēmuma preferencēm.

“Guess viens liels izaicinājums, ko mēs konsekventi dzirdam no komandām, ir:” Mūsu vērtēšanas rādītāji neatbilst tam, ko mēs gaidām, ka mūsu komandā teiktu cilvēku. ” Šī neatbilstība noved pie trokšņainiem salīdzinājumiem un laika izšķērdētiem pakaļdzīšanās nepatiesiem signāliem, ”sacīja Langčains emuāra ierakstāApvidū

Langchain ir viena no nedaudzajām platformām, lai integrētu LLM-AS-A-A-tiesnešu vai modeļa vadītus novērtējumus citiem modeļiem tieši testēšanas informācijas panelī.

AI trieciena sērija atgriežas Sanfrancisko – 5. augusts

Nākamais AI posms ir šeit – vai esat gatavs? Pievienojieties līderiem no Block, GSK un SAP, lai apskatītu, kā autonomi aģenti pārveido uzņēmumu darbplūsmas-no reālā laika lēmumu pieņemšanas līdz automatizācijai galīgai līdz galam.

Nostipriniet savu vietu tūlīt – telpa ir ierobežota:

Uzņēmums sacīja, ka tas balstās uz izlīdzināšanu Evals uz Amazon galvenā lietišķā zinātnieka Jevgeņija Jana raksta. Savā papīrpapīrsYan izklāstīja lietotnes ietvaru, ko sauc arī par Alignvalal, kas automatizētu novērtēšanas procesa daļas.

https://www.youtube.com/watch?v=-9o94oj4x0a

Izlīdzināšanas evals ļautu uzņēmumiem un citiem celtniekiem atkārtot vērtēšanas uzvednes, salīdzināt cilvēku vērtētāju un LLM ģenerētu punktu skaita salīdzināšanas rādītājus un ar sākotnējo izlīdzināšanas punktu.

Langchain sacīja, ka Evals ir pirmais solis, lai palīdzētu jums izveidot labākus vērtētājus ”. Laika gaitā uzņēmuma mērķis ir integrēt analītiku, lai izsekotu veiktspējai un automatizētu uzvednes optimizāciju, automātiski ģenerējot uzvednes variācijas.

Kā sākt

Lietotāji vispirms identificēs savu lietojumprogrammas novērtēšanas kritērijus. Piemēram, tērzēšanas lietotnēm parasti nepieciešama precizitāte.

Tālāk lietotājiem ir jāizvēlas dati, kurus viņi vēlas pārskatīt cilvēkiem. Šiem piemēriem jāparāda gan labie, gan sliktie aspekti, lai cilvēku vērtētāji varētu iegūt holistisku ieskatu lietojumprogrammā un piešķirt virkni pakāpju. Pēc tam izstrādātājiem ir manuāli jāpiešķir rezultāti uzvedumiem vai uzdevuma mērķiem, kas kalpos par etalonu.

Šī ir viena no manām iecienītākajām funkcijām, kuru mēs esam uzsākuši!
Izveidot llm-as-a-tiesnešu vērtētājus ir grūti-tas, cerams, padara šo plūsmu mazliet vieglāku
Es ticu šai plūsmai tik ļoti, ka es pat ierakstīju videoklipu ap to! https://t.co/waqpyzmeov
– Harrison Chase (@hwchase17) 2025. gada 30. jūlijs

Pēc tam izstrādātājiem ir jāizveido sākotnējā modeļa vērtētāja uzvedne un jāatstāj, izmantojot cilvēku greideru izlīdzināšanas rezultātus.

“Piemēram, ja jūsu LLM konsekventi pārsniedz noteiktas atbildes, mēģiniet pievienot skaidrākus negatīvus kritērijus. Vērtētāja rezultāta uzlabošana ir domāta kā iteratīvs course of. Uzziniet vairāk par labāko praksi, lai parādītu jūsu uzvedni mūsu dokumentos,” sacīja Langchain.

Pieaugošs LLM novērtējumu skaits

Arvien vairāk uzņēmumi pievēršas vērtēšanas ietvariem, lai novērtētu AI sistēmu, ieskaitot lietojumprogrammas un aģentus, uzticamība, uzvedība, uzdevumu izlīdzināšana un auditējamība. Spēja norādīt uz skaidru rezultātu par to, kā modeļi vai aģenti veic, nodrošina organizācijas ne tikai pārliecību izvietot AI lietojumprogrammas, wager arī atvieglo citu modeļu salīdzināšanu.

Uzņēmumiem patīk Salesforce un Aws sāka piedāvāt veidus, kā klienti spriest par sniegumu. Salesforce aģentam AgentForce 3 ir komandu centrs, kas parāda aģenta sniegumu. AWS nodrošina gan cilvēku, gan automatizētu novērtējumu Amazon pamatiežu platformā, kur lietotāji var izvēlēties modeli, lai pārbaudītu savas lietojumprogrammas, lai gan tie nav lietotāju veidoti modeļa vērtētāji. Openai Piedāvā arī uz modeli balstītu novērtējumu.

MetaPašmācītais vērtētājs balstās uz to pašu LLM-AS-A-tiesnešu koncepciju, kuru izmanto Langsmith, lai gan Meta vēl nav jāpadara par funkciju jebkurai no tās lietojumprogrammu veidošanas platformām.

Tā kā arvien vairāk izstrādātāju un uzņēmumu prasa vieglāku novērtēšanu un vairāk pielāgotus veidus, kā novērtēt veiktspēju, vairāk platformu sāks piedāvāt integrētas metodes modeļu izmantošanai citu modeļu novērtēšanai, un daudzas citas nodrošinās pielāgotas iespējas uzņēmumiem.

Tas ir tieši tas, kas vajadzīgs MCP ekosistēmai – labāki LLM darbplūsmu novērtēšanas rīki. Mēs esam redzējuši, ka izstrādātāji cīnās ar to Jenova AI, it īpaši, ja viņi organizē sarežģītas vairāku rīku ķēdes un ir jāapstiprina rezultāti.
Izlīdzināšanas evals pieeja…
– Aidens (@AIden_novaa) 2025. gada 30. jūlijs

Ikdienas ieskats par biznesa lietošanas gadījumiem ar VB katru dienu

Ja vēlaties pārsteigt savu priekšnieku, VB Each day jūs esat aptvēris. Mēs sniedzam jums iekšēju liekšķeri par to, ko uzņēmumi dara ar ģeneratīvu AI, sākot no normatīvajām maiņām uz praktisko izvietošanu, lai jūs varētu dalīties ar ieskatu par maksimālo IA.

Izlasiet mūsu konfidencialitātes politiku

Paldies par abonēšanu. Pārbaudiet vairāk VB biļetenu šeit.

Radās kļūda.

avots

Langchain’s Relign Evals aizver vērtētāja uzticības spraugu ar tūlītējas līmeņa kalibrēšanu

Kā sākt

Pieaugošs LLM novērtējumu skaits

LEAVE A REPLY Cancel reply

jaunākais ieraksts

Auburn’s Hugh Freeze uztur vēzi perifērijā, kad sākas kritiena nometne

Zinātnieki izseko kartupeļu saknes līdz 9 miljoniem gadu vecu augu hibrīdu

LeBrons Džeimss, Nikola Jokić, kā ziņots

Iknedēļas ziņu viktorīna: zelta medaļa, metāla bēres un raķetes nepareizība

Mariah zinātnieka “vai tas ir noziegums?” Ar Kali Uchis ir mēness...

Microsoft Workplace 2019 šobrīd ir pārdošanā par 45 USD – maksājiet...

Trojs Raiens atgriežas Kanādas sieviešu hokeja komandas solā olimpiādei

Radara pārtraukuma iemesls, kas tika iezemēts 150 lidojumus Lielbritānijas lidostās

Atklāja Hulk Hogana nāves cēlonis

Svarīgākie notikumi: Atkinsons spīd Anglijai notikumiem bagātā dienā lietainajā ovālā