Home Tehnoloģija Interpretējamā AI playbook: Ko Antropic pētījums nozīmē jūsu uzņēmuma LLM stratēģijai

Interpretējamā AI playbook: Ko Antropic pētījums nozīmē jūsu uzņēmuma LLM stratēģijai

7
0

Pievienojieties pasākumam, kuru uzņēmuma vadītāji uzticas gandrīz divas desmitgades. VB Rework apvieno cilvēkus, kas veido reālu uzņēmumu AI stratēģiju. Uzziniet vairāk


Antropisks Izpilddirektors Dario Amodei izveidoja steidzama spiediena Aprīlī par nepieciešamību saprast, kā domā AI modeļi.

Tas notiek izšķirošajā laikā. Kā antropisks cīņas Globālajā AI klasifikācijā ir svarīgi atzīmēt, kas to atšķir no citām prime AI laboratorijām. Kopš tā dibināšanas 2021. gadā, kad septiņi Openai darbinieki izlauzties Pārāk bažas par AI drošību, Antropic ir izveidojis AI modeļus, kas ievēro cilvēku vērtētu principu kopumu-sistēmu, kuru viņi sauc par Konstitucionālā AIApvidū Šie principi nodrošina, ka modeļi ir “izpalīdzīgs, godīgs un nekaitīgs”Un parasti darbojas sabiedrības interesēs kāpēc Viņi rada noderīgas (un dažreiz arī kaitīgas) atbildes.

Anthropic vadošā modeļa Claude 3.7 Sonnet dominēja kodēšanas etalonos, kad tas tika uzsākts februārī, pierādot, ka AI modeļi var izcili izturēties gan ar veiktspēju, gan drošību. Un nesenā Kloda 4.0 opusa un soneta izlaišana atkal liek Klodam Kodēšanas etalonu augšdaļaApvidū Tomēr šodienas straujajā un hiperkonkurētspējīgajā AI tirgū Antropic konkurenti, piemēram, Google’s Gemini 2.5 Professional un Open AI O3, ir savi iespaidīgi izrādes, lai kodētu veiklību, kamēr viņi ir jau dominē Klods matemātikā, radošā rakstīšana un vispārējā argumentācija daudzās valodās.

Ja Amodei domas liecina par kādu norādi, Antropic plāno AI nākotni un tās ietekmi uz kritiskām jomām, piemēram, medicīnā, psiholoģijā un likumā, kur ir obligātas drošības un cilvēcisko vērtību modeļa vērtības. Un tas parāda: Antropic ir vadošā AI laboratorija, kas stingri koncentrējas uz “interpretējama” AI izstrādi, kas ir modeļi, kas zināmā mērā ļauj saprast, ko modelis domā un kā tas nonāk noteiktā secinājumā.

Amazon un Google jau ir ieguldījuši miljardiem dolāru antropikā, pat veidojot savus AI modeļus, tāpēc, iespējams, Antropic konkurences priekšrocība joprojām ir topoša. Interpretējami modeļi, kā liecina antropisks, varētu ievērojami samazināt ilgtermiņa darbības izmaksas, kas saistītas ar atkļūdošanu, revīziju un risku mazināšanu sarežģītā AI izvietošanā.

Sayash KapoorAI drošības pētnieks, norāda, ka, lai arī interpretācija ir vērtīga, tā ir tikai viens no daudzajiem rīkiem AI riska pārvaldībai. Pēc viņa domām, “interpretējamība nav ne nepieciešama, ne pietiekama”, lai nodrošinātu, ka modeļi izturas droši-tai ir vissvarīgākā, ja tie ir savienoti pārī ar filtriem, pārbaudītājiem un uz cilvēkiem vērstu dizainu. Šis plašāks skatījums uzskata interpretējamību kā daļu no lielākas kontroles stratēģiju ekosistēmas, jo īpaši reālās pasaules AI izvietošanā, kur modeļi ir komponenti plašākās lēmumu pieņemšanas sistēmās.

Nepieciešamība pēc interpretējamas AI

Vēl nesen daudzi domāja, ka AI joprojām ir gadu no sasniegumiem, piemēram, tādiem, kas tagad palīdz Klodam, Dvīņiem un Čatptam lielība Izcila tirgus pieņemšana. Kamēr šie modeļi jau virza cilvēku zināšanu robežas, to plaši izplatītā izmantošana ir attiecināma uz to, cik labi viņi risina plašu praktisku problēmu klāstu, kurām nepieciešama radoša problēmu risināšana vai detalizēta analīze. Tā kā modeļi tiek uzlikti ar aizvien kritiskākām problēmām, ir svarīgi, lai tie sniegtu precīzas atbildes.

Amodei baidās, ka tad, kad AI reaģē uz uzvedni: “Mums nav ne mazākās nojausmas… kāpēc tā izvēlas noteiktus vārdus salīdzinājumā ar citiem, vai kāpēc tā reizēm pieļauj kļūdu, neskatoties uz to, ka parasti ir precīzi.” Šādas kļūdas – neprecīzas informācijas halucinācijas vai atbildes, kas neatbilst cilvēciskajām vērtībām – AI modeļiem kavēs to, ka tie ir pilnībā izmantoti. Patiešām, mēs esam redzējuši daudzus piemērus, kā AI turpina cīnīties halucinācijas un neētiska uzvedībaApvidū

Amodei labākais veids, kā atrisināt šīs problēmas [harmful] Uzvedība un tāpēc cīnās, lai tās izslēgtu… Ja tā vietā būtu iespējams meklēt modeļos, mēs varētu sistemātiski bloķēt visus jailbreaks un arī raksturot, kādas ir bīstamas zināšanas modeļiem. ”

Amodei arī uzskata pašreizējo modeļu necaurredzamību kā šķērsli AI modeļu izvietošanai “augstas likmes finanšu vai drošībai kritiskos apstākļos, jo mēs nevaram pilnībā noteikt viņu izturēšanās robežas, un neliels skaits kļūdu varētu būt ļoti kaitīgs.” Lēmumu pieņemšanā, kas tieši ietekmē cilvēkus, piemēram, medicīnisko diagnozi vai hipotēku novērtēšanu, likumīgi noteikumi pieprasīt AI izskaidrot tā lēmumus.

Iedomājieties finanšu iestādi, izmantojot lielu valodu modeli (LLM) krāpšanai – interpretācija varētu nozīmēt liegta aizdevuma pieteikuma skaidrošanu klientam, kā to prasa likums. Vai ražošanas firma, kas optimizē piegādes ķēdes – izpratne, kāpēc AI norāda, ka kāds piegādātājs varētu atbloķēt efektivitāti un novērst neparedzētus sašaurinājumus.

Sakarā ar to, Amodei skaidro, ka “antropika divkāršojas pēc interpretācijas, un mums ir mērķis nokļūt līdz“ interpretējamībai, līdz 2027. gadam var ticami atklāt lielāko daļu modeļa problēmu ”.

Šajā nolūkā Antropic nesen piedalījās 50 miljonu ASV dolāru apmērā ieguldījums iekšā GoodfireAI pētījumu laboratorija, kas veica izrāvienu progresu AI “smadzeņu skenēšanā”. Viņu modeļa pārbaudes platforma Ember ir agnostisks rīks, kas modeļos identificē apgūtos jēdzienus un ļauj lietotājiem ar tiem manipulēt. Nesenā demonstrācijaUzņēmums parādīja, kā Ember var atpazīt atsevišķas vizuālās koncepcijas attēlu ģenerēšanas AI un pēc tam ļaut lietotājiem krāsot Šīs koncepcijas uz audekla, lai ģenerētu jaunus attēlus, kas seko lietotāja dizainam.

Anthropic ieguldījums Emberā norāda uz faktu, ka interpretējamu modeļu izstrāde ir pietiekami sarežģīta, ka antropicam nav darbaspēka, lai paši sasniegtu interpretējamību. Radošiem interpretējamiem modeļiem nepieciešami jauni rīku ķēdes un kvalificēti izstrādātāji, lai tos izveidotu

Plašāks konteksts: AI pētnieka perspektīva

Lai sadalītu Amodei perspektīvu un pievienotu tik nepieciešamo kontekstu, VentureBeat intervēja Kapoor AI drošības pētnieku Prinstonā. Kapoor līdzautors grāmatā AI čūsku eļļakritiska pārspīlētu prasību pārbaude, kas saistīta ar vadošo AI modeļu iespējām. Viņš ir arī līdzautors “AI kā parastā tehnoloģija”Kurā viņš iestājas par AI kā standarta, pārveidošanas rīku, piemēram, interneta vai elektrības, izturēšanos un veicina reālistisku skatījumu uz tā integrāciju ikdienas sistēmās.

Kapoors neapstrīd, ka interpretācija ir vērtīga. Tomēr viņš skeptiski izturas pret to kā AI izlīdzināšanas centrālo stabu. “Tā nav sudraba lode,” Kapoor stāstīja VentureBeat. Viņš sacīja, ka daudzas no visefektīvākajām drošības metodēm, piemēram, pēc reakcijas filtrēšanas, vispār nav nepieciešams atvērt modeli.

Viņš arī brīdina par to, ko pētnieki sauc par “neapmierinātības maldību” – ideju, ka, ja mēs pilnībā nesaprotam sistēmas iekšējās daļas, mēs to nevaram izmantot vai regulēt atbildīgi. Praksē pilnīga caurspīdīgums nav tas, kā tiek novērtēta lielākā daļa tehnoloģiju. Svarīgi ir tas, vai sistēma reālos apstākļos darbojas ticami.

Šī nav pirmā reize, kad Amodei ir brīdinājis par AI riskiem, kas pārsniedz mūsu izpratni. Savā 2024. gada oktobrī postenis“Mīlošas žēlastības mašīnas”, viņš ieskicēja arvien spējīgāku modeļu redzējumu, kas varētu veikt jēgpilnas reālās pasaules darbības (un varbūt dubultot mūsu kalpošanas laiku).

Pēc Kapoor teiktā, šeit ir svarīga atšķirība starp modeli spēja un tā spēksApvidū Modeļa iespējas neapšaubāmi strauji palielinās, un tās drīz var attīstīt pietiekami daudz inteliģences, lai atrastu risinājumus daudzām sarežģītām problēmām, kas mūsdienās izaicina cilvēci. Guess modelis ir tikpat jaudīgs kā saskarnes, kuras mēs to nodrošinām, lai mijiedarbotos ar reālo pasauli, ieskaitot to, kur un kā modeļi tiek izvietoti.

Amodei ir atsevišķi apgalvojis, ka ASV ir jāsaglabā vadība AI attīstībā, daļēji cauri Eksporta kontrole Tas ierobežo piekļuvi jaudīgiem modeļiem. Ideja ir tāda, ka autoritāras valdības bezatbildīgi var izmantot Frontier AI sistēmas – vai arī sagrābt ģeopolitisko un ekonomisko priekšrocību, kas nāk ar to izvietošanu vispirms.

Kapooram “pat lielākais eksporta kontroles atbalstītāji ir vienisprātis, ka tas mums dos ne vairāk kā gadu vai divus”. Viņš domā, ka mums vajadzētu izturēties pret AI kā “Normāla tehnoloģija“Tāpat kā elektrība vai internets. Lai arī revolucionārs, bija pagāja gadu desmiti, līdz abas tehnoloģijas tika pilnībā realizētas visā sabiedrībā. Kapoor domā, ka tas pats ir AI: labākais veids, kā uzturēt ģeopolitisko malu

Citi kritizē amodei

Kapoor nav vienīgais, kurš kritizē Amodei nostāju. Pagājušajā nedēļā Vivatech Parīzē, Jansens Huangs, NVIDIA izpilddirektors, paziņoja par viņa domām ar Amodei uzskatiem. Huangs apšaubīja, vai pilnvarām attīstīt AI būtu jāierobežo ar dažām spēcīgām vienībām, piemēram, antropic. Viņš teica: “Ja vēlaties, lai lietas tiktu izdarītas droši un atbildīgi, jūs to darāt atklātā… nedariet to tumšā telpā un sakiet, ka tas ir droši.”

Atbildot uz to, antropisks noteikts: “Dario nekad nav apgalvojis, ka” tikai antropisks “var veidot drošu un jaudīgu AI. Kā parādīs publiskais ieraksts, Dario ir iestājies par nacionālu caurspīdīguma standartu AI izstrādātājiem (ieskaitot antropiskos), tāpēc sabiedrība un politikas veidotāji apzinās modeļu spējas un riskus un var sagatavoties.”

Ir arī vērts atzīmēt, ka antropic nav vienīgais, lai sasniegtu interpretāciju: arī Google DeepMind interpretācijas komanda, kuru vada Neel Nanda, ir izveidojusi Nopietns ieguldījums uz interpretācijas izpēti.

Galu galā labākās AI laboratorijas un pētnieki sniedz pārliecinošus pierādījumus tam, ka interpretējamība varētu būt galvenā diferenciālis konkurences AI tirgū. Uzņēmumi, kas prioritizētu interpretāciju jau agrīnā, var iegūt ievērojamu konkurences priekšrocību, veidojot uzticamākas, atbilstošākas un pielāgojamas AI sistēmas.


avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here