Tomēr modeļi uzlabojas daudz ātrāk nekā centieni tos izprast. Un Anthropic komanda atzīst, ka, AI aģentiem vairojoties, laboratorijas teorētiskā noziedzība kļūst arvien tuvāka realitātei. Ja mēs nesalaužam melno kasti, tā var mūs uzlauzt.
“Lielākā daļa manas dzīve ir bijusi vērsta uz to, lai mēģinātu darīt lietas, kas, manuprāt, ir svarīgas. Kad man bija 18 gadu, es pametu universitāti, lai atbalstītu draugu, kurš apsūdzēts terorismā, jo uzskatu, ka vissvarīgākais ir atbalstīt cilvēkus, kad citi to nedara. Kad viņš tika atzīts par nevainīgu, es pamanīju, ka dziļa mācīšanās ietekmēs sabiedrību, un veltīju sevi tam, lai noskaidrotu, kā cilvēki var saprast neironu tīklus. Esmu pavadījis pēdējo desmit gadu laikā, strādājot pie tā, jo domāju, ka tas varētu būt viens no atslēgas, lai padarītu AI drošu.
Tā sākas Krisa Olaha “randiņu ar mani doc”, ko viņš ievietoja Twitter 2022. gadā. Viņš vairs nav viens, wager doc paliek savā Github vietnē, “jo tas man bija svarīgs dokuments”, viņš raksta.
Ola aprakstā ir izlaistas dažas lietas, tostarp tas, ka, neskatoties uz to, ka viņš nav ieguvis universitātes grādu, viņš ir antropijas līdzdibinātājs. Mazāk nozīmīgs trūkums ir tas, ka viņš saņēma Tīla stipendiju, kas piešķir 100 000 USD par talantīgiem pametējiem. “Tas man deva lielu elastību, lai koncentrētos uz visu, kas man šķita svarīgs,” viņš man teica 2024. gada intervijā. Cita starpā, lasot rakstus WIRED, viņš mēģināja izveidot 3D printerus. “19 gadu vecumā cilvēkam ne vienmēr ir vislabākā gaume,” viņš atzina. Pēc tam 2013. gadā viņš apmeklēja semināru ciklu par padziļinātu mācīšanos un tika uzmundrināts. Viņš atstāja sesijas ar jautājumu, ko neviens cits, šķiet, neuzdeva: Kas notiek šajās sistēmās?
Olaham bija grūtības ieinteresēt citus šajā jautājumā. Kad viņš 2014. gadā pievienojās Google Mind kā praktikants, viņš strādāja pie dīvaina produkta ar nosaukumu Deep Dream — agrīns eksperiments AI attēlu ģenerēšanā. Neironu tīkls radīja dīvainus, psihedēliskus modeļus, gandrīz tā, it kā programmatūra būtu saistīta ar narkotikām. “Mēs nesapratām rezultātus,” saka Olahs. “Wager viena lieta, ko viņi parādīja, ir tas, ka neironu tīklos ir daudz struktūru.” Viņš secināja, ka vismaz dažus elementus var saprast.
Olahs nolēma atrast šādus elementus. Viņš līdzdibināja zinātnisku žurnālu ar nosaukumu Destilēt lai mašīnmācībā nodrošinātu “lielāku pārredzamību”. 2018. gadā viņš un daži Google kolēģi publicēja rakstu Distill ar nosaukumu “Interpretējamības pamatelementi”. Viņi, piemēram, bija noskaidrojuši, ka specifiski neironi kodē disketes ausu jēdzienu. No turienes Olahs un viņa līdzautori varēja saprast, kā sistēma zināja atšķirību starp, piemēram, labradora retrīveri un tīģera kaķi. Viņi rakstā atzina, ka tas ir tikai sākums neironu tīklu atšifrēšanai: “Mums tie jāpadara cilvēka mērogā, nevis milzīgas informācijas izgāztuves.”
Papīrs bija Olah gulbja dziesma Google. “Patiesībā pakalpojumā Google Mind bija sajūta, ka jūs nedomājāt ļoti nopietni, ja runājat par AI drošību,” viņš saka. 2018. gadā OpenAI viņam piedāvāja iespēju izveidot pastāvīgu interpretējamības komandu. Viņš uzlēca. Trīs gadus vēlāk viņš pievienojās savu OpenAI kolēģu grupai, lai līdzdibinātu Anthropic.













