AI modeļu intelekts nav tas, kas bloķē uzņēmuma izvietošanu. Pirmkārt, tā ir nespēja definēt un izmērīt kvalitāti.
Tieši šeit AI tiesnešiem tagad ir arvien nozīmīgāka loma. AI novērtējumā a "tiesnesis" ir AI sistēma, kas novērtē citas AI sistēmas rezultātus.
Choose Builder ir Databricks ietvars tiesnešu izveidei, un tas pirmo reizi tika izmantots kā daļa no uzņēmuma Aģents Bricks tehnoloģija šī gada sākumā. Kopš sākotnējās palaišanas sistēma ir ievērojami attīstījusies, reaģējot uz lietotāju tiešajām atsauksmēm un izvietošanu.
Sākotnējās versijas koncentrējās uz tehnisko ieviešanu, guess klientu atsauksmes atklāja, ka patiesais vājais kakls bija organizatoriskā saskaņošana. Databricks tagad piedāvā strukturētu semināru procesu, kas palīdz komandām atrisināt trīs galvenos izaicinājumus: panākt, lai ieinteresētās personas vienotos par kvalitātes kritērijiem, apgūtu jomas zināšanas no ierobežotiem priekšmetu ekspertiem un plašā mērogā ieviestu novērtēšanas sistēmas.
"Modeļa intelekts parasti nav sašaurinājums, modeļi ir patiešām gudri," Džonatans Frenkls, Databricks galvenais AI zinātnieks, pastāstīja VentureBeat ekskluzīvā brīfingā. "Tā vietā patiesībā ir jājautā, kā panākt, lai modeļi darītu to, ko mēs vēlamies, un kā mēs zinām, vai viņi darīja to, ko mēs gribējām?"
AI novērtēšanas “Ouroborosa problēma”.
Choose Builder pievēršas tam, ko Pallavi Koppols, Databricks pētnieks, kurš vadīja izstrādi, sauc par "Ouroboros problēma." Ouroboros ir sens simbols, kas attēlo čūsku, kas ēd pati savu asti.
AI sistēmu izmantošana AI sistēmu novērtēšanai rada apļveida validācijas izaicinājumu.
"Jūs vēlaties, lai tiesnesis redzētu, vai jūsu sistēma ir laba, vai jūsu AI sistēma ir laba, guess tad jūsu tiesnesis ir arī AI sistēma," Koppols paskaidroja. "Un tagad jūs sakāt, kā es varu zināt, ka šis tiesnesis ir labs?"
Risinājums ir mērīšana "attālums līdz cilvēka eksperta pamata patiesībai" kā primārā vērtēšanas funkcija. Samazinot atšķirību starp to, kā AI tiesnesis novērtē rezultātus, un to, kā tos vērtēs domēna eksperti, organizācijas var uzticēties šiem tiesnešiem kā mērogojamiem starpniekiem cilvēku novērtēšanai.
Šī pieeja būtiski atšķiras no tradicionālās aizsargmargu sistēmas vai vienas metrikas novērtējumi. Tā vietā, lai jautātu, vai mākslīgā intelekta izvade ir izturējusi vai neizdevusies vispārējā kvalitātes pārbaudē, Choose Builder izveido ļoti specifiskus vērtēšanas kritērijus, kas pielāgoti katras organizācijas domēna zināšanām un biznesa prasībām.
To atšķir arī tehniskā īstenošana. Choose Builder integrējas ar Databricks MLflow un tūlītēja optimizācija rīkus un var strādāt ar jebkuru pamatā esošo modeli. Komandas var kontrolēt savus tiesnešus, izsekot sniegumam laika gaitā un vienlaikus izvietot vairākus tiesnešus dažādās kvalitātes dimensijās.
Gūtās atziņas: veidojiet reāli strādājošus tiesnešus
Databricks darbs ar uzņēmumu klientiem atklāja trīs kritiskas mācības, kas attiecas uz ikvienu, kas veido AI tiesnešus.
Pirmā nodarbība: jūsu eksperti nepiekrīt tik daudz, kā jūs domājat. Ja kvalitāte ir subjektīva, organizācijas atklāj, ka pat viņu pašu priekšmetu eksperti nav vienisprātis par to, kas ir pieņemams rezultāts. Klientu apkalpošanas atbilde var būt faktiski pareiza, taču tajā ir izmantots nepiemērots tonis. Finanšu kopsavilkums var būt visaptverošs, taču pārāk tehnisks paredzētajai auditorijai.
"Viena no šī procesa lielākajām mācībām ir tā, ka visas problēmas kļūst par cilvēku problēmām," Frenkls teica. "Visgrūtākais ir iegūt priekšstatu no cilvēka smadzenēm un iegūt kaut ko skaidru. Un grūtākais ir tas, ka uzņēmumi nav vienas smadzenes, guess gan daudzas smadzenes."
Labojums ir pakešu anotācija ar starpvērtētāju uzticamības pārbaudēm. Komandas komentē piemērus mazās grupās, pēc tam novērtē vienošanās punktus pirms turpināt. Tas agri konstatē novirzes. Vienā gadījumā trīs eksperti par vienu un to pašu rezultātu sniedza vērtējumu 1, 5 un neitrāli, pirms diskusija atklāja, ka viņi vērtēšanas kritērijus interpretē atšķirīgi.
Uzņēmumi, kas izmanto šo pieeju, sasniedz 0,6 uzticamības rādītājus starp vērtētājiem, salīdzinot ar ārējiem anotācijas pakalpojumiem parastiem rādītājiem 0,3. Lielāka vienošanās tieši nozīmē labāku vērtējumu, jo apmācības datos ir mazāks troksnis.
Otrā nodarbība: sadaliet neskaidros kritērijus konkrētos tiesnešos. Tā vietā, lai viens tiesnesis izvērtētu, vai atbilde ir "atbilstošs, faktisks un kodolīgs," izveidot trīs atsevišķus tiesnešus. Katrs no tiem ir vērsts uz noteiktu kvalitātes aspektu. Šai precizitātei ir nozīme neveiksmes dēļ "vispārējo kvalitāti" rezultāts atklāj, ka kaut kas nav kārtībā, guess ne to, ko labot.
Vislabākos rezultātus iegūst, apvienojot no augšas uz leju vērstas prasības, piemēram, normatīvos ierobežojumus, ieinteresēto personu prioritātes, ar novēroto kļūmju modeļu no apakšas uz augšu atklāšanu. Viens klients izveidoja no augšas uz leju vērstu tiesnesi par pareizību, taču, veicot datu analīzi, atklāja, ka pareizajās atbildēs gandrīz vienmēr ir minēti divi labākie izguves rezultāti. Šis ieskats kļuva par jaunu, ražošanai draudzīgu tiesnesi, kas varēja noteikt pareizību, neprasot pamatpatiesības etiķetes.
Trešā nodarbība: jums ir nepieciešams mazāk piemēru, nekā jūs domājat. Komandas var izveidot spēcīgus tiesnešus tikai no 20-30 labi izvēlētiem piemēriem. Galvenais ir izvēlēties malas gadījumus, kas atklāj domstarpības, nevis acīmredzamus piemērus, kuriem visi piekrīt.
"Mēs varam vadīt šo procesu ar dažām komandām pat trīs stundās, tāpēc nav vajadzīgs tik ilgs laiks, lai sāktu iegūt labu tiesnesi." Koppols teica.
Ražošanas rezultāti: no pilotiem līdz septiņu ciparu izvietošanai
Frenkls dalījās trīs metrikā, ko Databricks izmanto, lai novērtētu Choose Builder panākumus: vai klienti vēlas to izmantot vēlreiz, vai viņi palielina AI izdevumus un vai viņi progresē savā AI ceļā.
Pirmajā metrikā viens klients izveidoja vairāk nekā duci tiesnešu pēc sākotnējā semināra. "Šis klients iecēla vairāk nekā duci tiesnešu pēc tam, kad pirmo reizi ar šo ietvaru mēs viņiem to paveicām stingrā veidā," Frenkls teica. "Viņi tiešām devās uz pilsētu uz tiesnešiem un tagad visu mēra."
Attiecībā uz otro metriku ietekme uz uzņēmējdarbību ir skaidra. "Ir vairāki klienti, kuri ir izgājuši šo semināru un ir kļuvuši par GenAI tērētājiem vietnē Databricks tādā veidā, kā viņi agrāk nebija." Frenkls teica.
Trešais rādītājs atklāj Choose Builder stratēģisko vērtību. Klienti, kuri iepriekš vilcinājās izmantot uzlabotas metodes, piemēram, pastiprināšanas mācības, tagad jūtas pārliecināti, ieviešot tās, jo viņi var novērtēt, vai uzlabojumi patiešām ir notikuši.
"Ir klienti, kuri ir devušies un darījuši ļoti progresīvas lietas pēc tam, kad viņiem bija bijuši šie tiesneši, kur iepriekš viņi to nevēlējās darīt," Frenkls teica. "Viņi ir pārgājuši no nelielas operatīvas inženierijas uz pastiprināšanas mācībām kopā ar mums. Kāpēc tērēt naudu pastiprinošām mācībām un kāpēc tērēt enerģiju pastiprinošām mācībām, ja nezināt, vai tas tiešām ir mainījis?"
Ko uzņēmumiem vajadzētu darīt tagad
Komandas, kas veiksmīgi pārceļ AI no izmēģinājuma versijas uz ražošanu, vērtē tiesnešus nevis kā vienreizējus artefaktus, guess gan kā attīstošus līdzekļus, kas aug kopā ar viņu sistēmām.
Databricks iesaka trīs praktiskus soļus. Pirmkārt, koncentrējieties uz augstas ietekmes tiesnešiem, identificējot vienu kritisku normatīvo prasību un vienu novēroto atteices režīmu. Tie kļūst par jūsu sākotnējo tiesnešu portfeli.
Otrkārt, izveidojiet vieglas darbplūsmas ar priekšmetu ekspertiem. Dažas stundas, pārskatot 20-30 malas lietas, nodrošina pietiekamu kalibrēšanu lielākajai daļai tiesnešu. Izmantojiet pakešu anotāciju un vērtētāju savstarpējās uzticamības pārbaudes, lai izslēgtu datu troksni.
Treškārt, ieplānojiet regulāras tiesnešu pārbaudes, izmantojot ražošanas datus. Sistēmai attīstoties, parādīsies jauni kļūmju režīmi. Jūsu tiesnešu portfelim vajadzētu attīstīties kopā ar viņiem.
"Tiesnesis ir veids, kā novērtēt modeli, tas ir arī veids, kā izveidot aizsargmargas, tas ir arī veids, kā iegūt metriku, pēc kuras jūs varat veikt tūlītēju optimizāciju, un tas ir arī veids, kā iegūt metriku, pēc kuras varat veikt pastiprināšanas mācības," Frenkls teica. "Tiklīdz jums ir tiesnesis, kas empīriskā veidā atspoguļo jūsu cilvēka gaumi, ko varat jautāt tik daudz, cik vēlaties, varat to izmantot 10 000 dažādos veidos, lai novērtētu vai uzlabotu savus aģentus."













