Home Tehnoloģija Antropiskais izpilddirektors vēlas līdz 2027. gadam atvērt AI modeļu melno kasti

Antropiskais izpilddirektors vēlas līdz 2027. gadam atvērt AI modeļu melno kasti

5
0

Antropiskais izpilddirektors Dario Amodei publicēja eseju Ceturtdien uzsver, cik maz pētnieku saprot par pasaules vadošo AI modeļu iekšējo darbību. Lai to risinātu, Amodei līdz 2027. gadam izvirzīja ambiciozu Antropic mērķi ticami atklāt lielāko daļu AI modeļa problēmu.

Amodei atzīst priekšā gaidāmo izaicinājumu. “Interpretējamības steidzamībā” izpilddirektors saka, ka Antropic ir veikusi agrīnu sasniegumu, izsekojot, kā modeļi nonāk pie atbildēm, taču uzsver, ka, lai atkodētu šīs sistēmas, ir nepieciešams daudz vairāk pētījumu, jo tie kļūst jaudīgāki.

“Mani ļoti uztrauc šādu sistēmu izvietošana bez labākas interpretācijas apstrādes,” esejā rakstīja Amodei. “Šīs sistēmas būs absolūti galvenā centrā ekonomikā, tehnoloģijās un nacionālajā drošībā, un tās varēs tik daudz autonomijas, ka es uzskatu, ka cilvēce būtībā ir nepieņemama, lai pilnīgi nezinātu par to, kā tās darbojas.”

Anthropic ir viens no novatoriskajiem uzņēmumiem mehānistiskajā interpretācijā – laukā, kura mērķis ir atvērt AI modeļu melno kasti un saprast, kāpēc viņi pieņem lēmumus, ko viņi dara. Neskatoties uz straujajiem tehnoloģiju nozares AI modeļu uzlabojumiem, mums joprojām ir salīdzinoši maz idejas, kā šīs sistēmas pieņem lēmumus.

Piemēram, Openai nesen uzsāka jaunus argumentācijas AI modeļus O3 un O4-Mini, kas labāk veicas dažos uzdevumos, wager arī halucinē vairāk nekā citi modeļi. Uzņēmums nezina, kāpēc tas notiek.

“Kad ģeneratīva AI sistēma kaut ko dara, piemēram, apkopo finanšu dokumentu, mums nav ne mazākās nojausmas noteiktā vai precīzā līmenī, kāpēc tas izdara izvēli – kāpēc tā izvēlas noteiktus vārdus salīdzinājumā ar citiem, vai kāpēc tā laiku pa laikam pieļauj kļūdu, neskatoties uz to, ka parasti ir precīza,” Amodei rakstīja esejā.

Esejā Amodei norāda, ka antropiskais līdzdibinātājs Kriss Ola saka, ka AI modeļi ir “audzēti vairāk nekā tie ir būvēti”. Citiem vārdiem sakot, AI pētnieki ir atraduši veidus, kā uzlabot AI modeļa inteliģenci, wager viņi nezina, kāpēc.

Esejā Amodei saka, ka varētu būt bīstami sasniegt AGI – vai, kā viņš to sauc, “ģēniju valsts datu centrā” -, nesaprotot, kā šie modeļi darbojas. Iepriekšējā esejā Amodei apgalvoja, ka tehnoloģiju nozare varētu sasniegt šādu pagrieziena punktu līdz 2026. vai 2027. gadam, taču uzskata, ka mēs esam daudz tālāk no pilnībā izpratnes par šiem AI modeļiem.

Ilgtermiņā Amodei saka, ka Antropic vēlētos, lai būtībā veiktu “smadzeņu skenēšanu” vai “MRI” no vismodernākajiem AI modeļiem. Viņš saka, ka šīs pārbaudes palīdzētu noteikt plašu problēmu klāstu AI modeļos, ieskaitot viņu tendences melot vai meklēt varu, vai citu vājumu, viņš saka. Tas varētu aizņemt piecus līdz 10 gadus, taču šie pasākumi būs nepieciešami, lai pārbaudītu un izvietotu Anthropic nākotnes AI modeļus, viņš piebilda.

Anthropic ir veicis dažus pētījumu sasniegumus, kas ļāva tam labāk izprast, kā darbojas AI modeļi. Piemēram, uzņēmums nesen atrada veidus, kā izsekot AI modeļa domāšanas ceļiem līdzko uzņēmums sauc, shēmas. Antropiski identificēja vienu ķēdi, kas palīdz AI modeļiem saprast, kuras ASV pilsētas atrodas ASV štatos. Uzņēmums ir atradis tikai dažas no šīm shēmām, wager aprēķini AI modeļos ir miljoni.

Anthropic ir ieguldījis ieguldījumu pašā interpretācijas izpētē un nesen veikts tā pirmais ieguldījums startēšanas laikā Darbs pie interpretācijas. Esejā Amodei aicināja Openai un Google Deepmind palielināt viņu pētījumu centienus šajā jomā.

Amodei aicina valdības noteikt “vieglas pieskāriena” noteikumus, lai veicinātu interpretācijas pētījumu, piemēram, prasības uzņēmumiem atklāt viņu drošības un drošības praksi. Esejā Amodei arī saka, ka ASV būtu jāievieto mikroshēmas eksporta kontrole uz Ķīnu, lai ierobežotu ārpuskontroles, globālās AI sacensību iespējamību.

Anthropic vienmēr ir izcēlies no Openai un Google, lai koncentrētos uz drošību. Kamēr citi tehnoloģiju uzņēmumi atgriezās pie Kalifornijas pretrunīgi vērtētā AI drošības likumprojekta, SB 1047, Antropic sniedza nelielu atbalstu un ieteikumus rēķinam, kas būtu noteikusi drošības pārskatu standartus robežas AI modeļa izstrādātājiem.

Šajā gadījumā šķiet, ka antropiski cenšas panākt rūpniecības centienus labāk izprast AI modeļus, ne tikai palielinot viņu spējas.

avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here