Liekas, ka gandrīz katru nedēļu pēdējos divus gadus kopš Chatgpt uzsākšanas ir izlaisti jauni lielo valodu modeļi (LLMS) no Rival Labs vai no pašas Openai. Uzņēmumiem ir grūti nospiest, lai neatpaliktu no milzīgā pārmaiņu tempa, nemaz nerunājot par to, kā tai pielāgoties – kuru no šiem jaunajiem modeļiem viņiem vajadzētu pieņemt, ja tādi ir, lai darbinātu savas darbplūsmas un pielāgotos AI aģentus, kurus viņi būvē, lai tos veiktu?
Palīdzība ir pienākusi: AI lietojumprogrammu novērojamības startēšana Lietus gāze ir uzsācis eksperimentusjauna analītiskā funkcija, kuru uzņēmums raksturo kā pirmo A/B testēšanas komplektu, kas īpaši paredzēts uzņēmuma AI aģentiem – ļaujot uzņēmumiem redzēt un salīdzināt, kā aģentu atjaunināšana ar jauniem pamatā esošajiem modeļiem vai viņu instrukciju un rīka piekļuves maiņa ietekmēs viņu veiktspēju ar reāliem gala lietotājiem.
Izlaidums paplašina Raindrop esošos novērojamības rīkus, dodot izstrādātājiem un komandām iespēju redzēt, kā viņu aģenti uzvedas un attīstās reālās pasaules apstākļos.
Izmantojot eksperimentus, komandas var izsekot, kā izmaiņas – piemēram, jauns rīks, uzvedne, modeļa atjaunināšana vai pilns cauruļvada refaktors – ietekmē AI veiktspēju miljoniem lietotāju mijiedarbības. Jaunā funkcija tagad ir pieejama lietotājiem Raindrop Professional abonēšanas plānā (USD 350 mēnesī) plkst Raindrop.aiApvidū
Uz datiem balstīts objektīvs par aģenta attīstību
Raindrop līdzdibinātājs un galvenais tehnoloģiju virsnieks Bens Hylaks Paziņojuma video (iepriekš) tika atzīmēts, ka eksperimenti palīdz komandām redzēt “cik burtiski kaut kas mainījās”, ieskaitot rīka izmantošanu, lietotāju nodomus un izdošanas likmes un izpētīt atšķirības ar tādiem demogrāfiskiem faktoriem kā valoda. Mērķis ir padarīt modeļa iterāciju caurspīdīgāku un izmērāmāku.
Eksperimentu saskarne vizuāli atspoguļo rezultātus, parādot, kad eksperiments darbojas labāk vai sliktāk nekā tā bāzes līnija. Negatīvo signālu palielināšanās var norādīt uz augstāku uzdevuma kļūmi vai daļēju koda izvadi, savukārt pozitīvo signālu uzlabojumi varētu atspoguļot pilnīgākas atbildes vai labāku lietotāju pieredzi.
Padarot šos datus viegli interpretēt, Raindrop mudina AI komandas vērsties pie aģenta iterācijas ar tādu pašu stingrību kā moderna programmatūras izvietošana – rezultātu izsekošana, ieskatu kopīgošana un regresiju risināšana pirms to savienojuma.
Priekšvēsture: no AI novērojamības līdz eksperimentēšanai
Raindrop eksperimentu uzsākšana balstās uz uzņēmuma pamatu kā vienu no pirmajiem AI dzimtā novērojamības platformaskas paredzēts, lai palīdzētu uzņēmumiem uzraudzīt un saprast, kā viņu ģeneratīvās AI sistēmas uzvedas ražošanā.
Kā VentureBeat ziņoja šī gada sākumā, uzņēmums, kas sākotnēji bija pazīstams kā Daybreak AI, parādījās, lai uzrunātu HylakVerdzība Bijušais Apple Human interfeisa dizainers, ko sauc par AI Efficiency “Black Field problēmu”, palīdzot komandām noķert neveiksmes “kā tās notiek, un izskaidrojiet uzņēmumiem, kas nogāja greizi un kāpēc."
Tajā laikā Hylaks aprakstīja, kā “AI produkti nepārtraukti neizdodas – gan jautri, gan drausmīgi”, atzīmējot, ka atšķirībā no tradicionālās programmatūras, kas izsniedz skaidrus izņēmumus, “AI produkti klusi neizdodas”. Raindrop sākotnējā platforma koncentrējās uz šo kluso neveiksmju noteikšanu, analizējot tādus signālus kā lietotāju atsauksmes, uzdevuma neveiksmes, atteikumi un citas sarunvalodas anomālijas miljoniem ikdienas notikumu.
Uzņēmuma līdzdibinātāji-Hylak, Alexis Gaubaun Zubin Singh Koticha – Uzbūvēts lietus piliens pēc tam, kad saskārās ar grūtībām, kas saistītas ar AI sistēmu atkļūdošanas grūtībām ražošanā.
“Mēs sākām, veidojot AI produktus, nevis infrastruktūru,” Hylaks stāstīja VenturbeatApvidū “Wager diezgan ātri mēs redzējām, ka, lai izaugtu kaut ko nopietnu, mums bija nepieciešami instrumenti, lai izprastu AI izturēšanos, un šī instrumentu izgatavošana neeksistēja.”
Ar eksperimentiem lietus piliens paplašina to pašu misiju no Neveiksmju noteikšana līdz uzlabojumu mērīšanaApvidū Jaunais rīks pārveido novērojamības datus par realizējamiem salīdzinājumiem, ļaujot uzņēmumiem pārbaudīt, vai izmaiņas to modeļos, uzvednēs vai cauruļvados faktiski padara savus AI aģentus labākus vai tikai atšķirīgus.
“Evals caurlaides, aģenti neizdodas” problēmu
Tradicionālie novērtēšanas ietvari, lai arī ir noderīgi etalonuzdevumu noteikšanai, reti uztver AI aģentu neparedzamu izturēšanos, kas darbojas dinamiskā vidē.
Kā lietus piliens Alexis Gauba paskaidroja viņā LinkedIn paziņojums“Tradicionālie evals īsti neatbild uz šo jautājumu. Tie ir lieliski vienības testi, taču jūs nevarat paredzēt, ka sava lietotāja darbības un aģents darbojas stundām ilgi, izsaucot simtiem rīku.”
Gauba sacīja, ka uzņēmums konsekventi dzirdēja kopīgu neapmierinātību no komandām: “Evals iziet, aģenti neizdodas.”
Eksperimenti ir domāti, lai aizvērtu šo plaisu, parādot Kas patiesībā mainās Kad izstrādātāji nosūta atjauninājumus uz viņu sistēmām.
Šis rīks ļauj salīdzināt modeļus, instrumentus, nodomus vai īpašības, sedzot izmērāmās uzvedības un veiktspējas atšķirības.
Paredzēts reālās pasaules uzvedībai
Paziņojuma video Raindrop aprakstīja eksperimentus kā veidu, kā “salīdzināt jebko un izmērīt, kā jūsu aģenta uzvedība faktiski mainījās ražošanā miljoniem reālas mijiedarbības”.
Platforma palīdz lietotājiem pamanīt tādas problēmas kā uzdevuma atteices pieaugums, aizmirstība vai jauni rīki, kas izraisa negaidītas kļūdas.
To var izmantot arī apgriezti – sākot no zināmas problēmas, piemēram, “cilpā iestrēdzis aģents” un izseko atpakaļ, kuru modeli, rīku vai karogu to virza.
Turpmāk izstrādātāji var ienirt detalizētās pēdās, lai atrastu galveno cēloni un ātri nosūtītu labojumu.
Katrs eksperiments nodrošina tādu metrikas vizuālu sadalījumu, piemēram, rīka lietošanas biežumu, kļūdu līmeni, sarunu ilgumu un reakcijas garumu.
Lietotāji var noklikšķināt uz jebkura salīdzinājuma, lai piekļūtu pamatā esošajiem notikumu datiem, sniedzot viņiem skaidru priekšstatu par to, kā laika gaitā mainījās aģenta uzvedība. Kopīgas saites ļauj viegli sadarboties ar komandas biedriem vai ziņot par atklājumiem.
Integrācija, mērogojamība un precizitāte
Pēc Hylaka teiktā, eksperimenti tieši integrējas ar “Characteristic Flag platformu kompānijas zina un mīl (piemēram, statistig!)”, Un tas ir paredzēts nemanāmi darbam ar esošajiem telemetrijas un analītikas cauruļvadiem.
Uzņēmumiem, kuriem nav šo integrāciju, tas joprojām var salīdzināt veiktspēju laika gaitā, piemēram, kā vakar pret šodienu – bez papildu iestatīšanas.
Hylaks sacīja, ka komandām parasti nepieciešami apmēram 2000 lietotāju dienā, lai iegūtu statistiski jēgpilnus rezultātus.
Lai nodrošinātu salīdzinājumu precizitāti, eksperimenti uzrauga parauga lieluma pietiekamību un brīdina lietotājus, ja testam trūkst pietiekamu datu, lai izdarītu pamatotus secinājumus.
“Mēs apsēsti, lai pārliecinātos, ka metrika, piemēram, uzdevuma kļūme un lietotāju neapmierinātība, ir metrika, par kuru jūs pamodināt dežūras inženieri,” skaidroja Hylaks. Viņš piebilda, ka komandas var iedziļināties īpašās sarunās vai notikumos, kas virza šos rādītājus, nodrošinot caurspīdīgumu aiz katra kopējā skaita.
Drošības un datu aizsardzība
Raindrop darbojas kā mākoņu mitināta platforma, wager arī piedāvā personiski identificējamu informāciju (PII) rediģēšanu uzņēmumiem, kuriem nepieciešama papildu kontrole.
Hylaks sacīja, ka uzņēmums ir saderīgs ar Soc 2 un ir uzsācis a PII aizsargs Funkcija, kas izmanto AI, lai automātiski noņemtu sensitīvu informāciju no saglabātajiem datiem. “Mēs ļoti nopietni uztveram klientu datu aizsardzību,” viņš uzsvēra.
Cenas un plāni
Eksperimenti ir daļa no lietus piliena Professional plānskas maksā USD 350 mēnesī vai USD 0,0007 par mijiedarbību. Professional līmenis ietver arī dziļu pētniecības rīkus, tēmu klasterizāciju, pielāgotu problēmu izsekošanu un semantisko meklēšanas iespējas.
Lietus piliens Sākuma plāns – 65 USD mēnesī vai USD 0,001 par mijiedarbību – piedāvā galveno analītiku, ieskaitot izdošanas atklāšanu, lietotāju atgriezeniskās saites signālus, slaidus brīdinājumus un lietotāju izsekošanu. Abiem plāniem ir 14 dienu bezmaksas izmēģinājums.
Lielākas organizācijas var izvēlēties Uzņēmējdarbības plāns Ar pielāgotām cenām un uzlabotām funkcijām, piemēram, SSO pieteikšanās, pielāgotie brīdinājumi, integrācija, Edge-PII redakcija un prioritārs atbalsts.
Nepārtraukts AI sistēmu uzlabojums
Izmantojot eksperimentus, lietus piliens sevi pozicionē AI analītikas un programmatūras novērojamības krustojumā. Tā koncentrēšanās uz “mēra patiesību”, kā teikts produkta video, atspoguļo plašāku nozares virzību uz atbildību un pārredzamību AI operācijās.
Tā vietā, lai paļautos tikai uz bezsaistes etaloniem, Raindrop pieeja uzsver reālus lietotāju datus un kontekstuālo izpratni. Uzņēmums cer, ka tas ļaus AI izstrādātājiem ātrāk pārvietoties, ātrāk identificēt galvenos cēloņus un ar pārliecību nosūtīt labākus modeļus.