Home Tehnoloģija Daži slepeni AI uzņēmumi varētu sagraut bezmaksas sabiedrību, pētnieki brīdina

Daži slepeni AI uzņēmumi varētu sagraut bezmaksas sabiedrību, pētnieki brīdina

13
0

Andriy Onufriyenko/Getty Pictures

Lielākā daļa pētījumu, kas saistīti ar mākslīgā intelekta biedrības riskiem, ir tendence koncentrēties uz ļaunprātīgiem cilvēku dalībniekiem, kuri izmanto tehnoloģiju nožēlojamiem mērķiem, piemēram, holdinga kompānijas izpirkuma maksai vai nacionālām valstīm, kas vada kiberkaru.

Drošības pētījumu firmas Apollo grupas jaunais ziņojums liecina, ka, iespējams, slēpjas cita veida dangers, kurās ir maz: uzņēmumos, kas izstrādā vismodernākos AI modeļus, piemēram, Openai un Google.

Nesamērīga jauda

Dangers ir tāds, ka uzņēmumi AI priekšplānā var izmantot savus AI darbus, lai paātrinātu savus pētniecības un attīstības centienus, automatizējot cilvēku zinātnieki, kurus parasti veic uzdevumi. To darot, viņi varētu kustēt AI spēju apiet aizsargmargas un veikt dažāda veida iznīcinošas darbības.

Viņi varētu izraisīt arī uzņēmumus ar nesamērīgi lielu ekonomisko spēku – uzņēmumiem, kas apdraud pati sabiedrību.

Arī: AI ir izaugusi ārpus cilvēku zināšanām, saka Google DeepMind vienība

“Visas pēdējās desmitgades laikā AI spēju progresa līmenis ir bijis publiski redzams un samērā paredzams,” rakstiet galveno autoru Šarloti Stix un viņas komandu dokumentā “AI aiz slēgtām durvīm: iekšējās izvietošanas pārvaldības grunts.

Viņi raksta, ka publiskā informācija ir ļāvusi “zināmai ekstrapolācijas pakāpei nākotnei un ļāva sekojošai sagatavotībai”. Citiem vārdiem sakot, sabiedrības uzmanības centrā ir ļāvis sabiedrībai apspriest AI regulēšanu.

Wager “AI R&D automatizēšana, no otras puses, varētu dot iespēju bēguļojoša progresa versijai, kas ievērojami paātrina jau tā ātro progresa tempu”.

Arī: AI modeļa sacīkstes pēkšņi ir kļuvušas daudz tuvāk, saka Stenforda zinātnieki

Ja šis paātrinājums notiek aiz slēgtām durvīm, rezultāts, viņi brīdina, varētu būt “iekšējs” intelekta eksplozija “, kas varētu veicināt neierobežotu un neatklātu varas uzkrāšanos, kas savukārt varētu izraisīt pakāpenisku vai pēkšņu demokrātisko institūciju un demokrātiskās kārtības traucējumus.”

Izpratne par AI riskiem

Līdz Apollo grupa tika dibināta pirms nedaudz mazāk kā pirms diviem gadiem, un tā ir bezpeļņas organizācija, kas atrodas Lielbritānijā. To sponsorē Rethink Priorities, Sanfrancisko bāzēta bezpeļņas organizācija. Apollo komanda sastāv no AI zinātniekiem un nozares profesionāļiem. Vadošais autors Stix bija Bijušais Openai Sabiedriskās politikas vadītājs EiropāApvidū

(Informācijas atklāšana: Zdnet mātesuzņēmums Zifs Deiviss iesniedza 2025. gada aprīļa tiesas procesu pret Openai, apgalvojot, ka tas pārkāpj Ziff Davis autortiesības apmācībā un darbībā tās AI sistēmās.)

Arī: Antropic atrod satraucošas “jaunās tendences” Kloda nepareizas izmantošanas ziņojumā

Grupas pētījumi līdz šim ir koncentrējušies uz izpratni par to, kā faktiski darbojas neironu tīkli, piemēram, izmantojot “mehānisko interpretējamību”, veicot eksperimentus ar AI modeļiem, lai noteiktu funkcionalitāti.

Pētījums, ko grupa ir publicējusi, uzsver izpratni par AI riskiem. Šie riski ietver AI “aģentus”, kas ir “nepareizi izlīdzināti”, kas nozīmē aģenti, kas iegūst “mērķus, kas atšķiras no cilvēka nodomiem”.

“AI aiz slēgtām durvīm” dokumentā STIX un viņas komanda attiecas uz to, kas notiek, kad AI automatizē pētniecības un attīstības operācijas uzņēmumos, kas izstrādā pierobežas modeļus-tādas vadošos AI modeļus, kurus pārstāv, piemēram, Openai GPT-4 un Google Gemini.

Pēc Stix un viņas komandas teiktā, vismodernākajiem AI uzņēmumiem ir jēga izmantot AI, lai izveidotu vairāk AI, piemēram, nodrošinot AI aģentiem piekļuvi attīstības rīkiem, lai izveidotu un apmācītu nākotnes progresīvus modeļus, izveidojot tikumīgu pastāvīgas attīstības un uzlabošanas ciklu.

Arī: Tjūringa testam ir problēma – un Openai GPT -4.5 to vienkārši atklāja

“Tā kā AI sistēmas sāk iegūt atbilstošas ​​iespējas, kas ļauj tām turpināt neatkarīgu AI R&D no turpmākajām AI sistēmām, AI uzņēmumi uzskatīs, ka ir arvien efektīvāki tos piemērot AI R&D cauruļvadā, lai automātiski paātrinātu citādi cilvēku vadītas AI R&D,” STIX un viņas komanda raksta.

Jau vairākus gadus ir bijuši piemēri, kā AI modeļi, kas ierobežoti izmantoti, lai izveidotu vairāk AI. Kā tie attiecas:

Vēsturiskie piemēri ietver tādas metodes kā neironu arhitektūras meklēšana, kur algoritmi automātiski pēta modeļa dizainu un automatizētu mašīnu apguvi (AutORL), kas pilnveido tādus uzdevumus kā hiperparametra noregulēšana un modeļa izvēle. Jaunāks piemērs ir Sakana AI “AI zinātnieks”, kas ir agrīns koncepcijas pierādījums pilnībā automātiskai zinātniskai atklāšanai mašīnmācībā.

Jaunākie norādījumi par AI automatizēšanu pētniecībā un attīstībā ir iekļauti Openai paziņojumi, ka tas ir ieinteresēts “automatizēt AI drošības pētījumu” un Google DeepMind vienību, kas veic “AI palīdzības un instrumentu agrīnu pieņemšanu visā [the] Pētniecības un attīstības course of. ”

Apollo-Group-2025-self-pastiprinošā cilpa

Apollo grupa
Apollo-Group-2025-pašpārliecinoša cilpa

Apollo grupa

Var notikt tas, ka attīstās tikumīgs cikls, kur AI, kas pārvalda pētniecību un attīstību, turpina aizstāt sevi ar labākām un labākām versijām, kļūstot par “sevis pastiprinošu cilpu”, kas pārsniedz pārraudzību.

Arī: Kāpēc mērogošanas aģents AI ir maratons, nevis sprints

Bīstamība rodas, kad AI ēkas straujā attīstības cikls izvairās no cilvēka spējas, ja nepieciešams, uzraudzīt un iejaukties.

“Pat ja cilvēku pētnieki saprātīgi labi uzraudzītu jaunas AI sistēmas vispārējo piemērošanu AI R&D procesam, ieskaitot tehniskos pasākumus, viņi, iespējams, arvien vairāk cīnīsies, lai atbilstu progresa ātrumam un atbilstošajām topošajām iespējām, ierobežojumiem un negatīvajām ārējām ietekmēm, kas izriet no šī procesa,” viņi raksta.

Šīs “negatīvās ārējās ietekmes” ietver AI modeli vai aģentu, kas spontāni attīsta uzvedību, kuru cilvēka AI izstrādātājs nekad nav iecerējis, kā rezultātā modelim ir vēlams ilgtermiņa mērķi, piemēram, optimizējot uzņēmuma pētniecību un attīstību-to, ko viņi sauc par “jauniem īpašumiem, lai sasniegtu sarežģītus reālus mērķus saskaņā ar racionāliem ierobežojumiem”.

Nepareizs modelis var kļūt par to, ko viņi sauc par “shēmas” AI modeli, kuru viņi definē kā “sistēmas, kas slepeni un stratēģiski sasniegtu nepareizus mērķus”, jo cilvēki nevar efektīvi uzraudzīt vai iejaukties.

Arī: Ar AI modeļiem, kas aplūko katru etalonu, ir pienācis laiks novērtēt cilvēku

“Svarīgi, ka, ja AI sistēma attīsta konsekventas shēmas tendences, tā pēc definīcijas kļūs grūti atklāt – tā kā AI sistēma aktīvi darbosies, lai slēptu savus nodomus, iespējams, kamēr tā ir pietiekami jaudīga, ka cilvēku operatori to vairs nevar ievietot,” viņi raksta.

Iespējamie rezultāti

Autori paredz dažus iespējamos rezultātus. Viens no tiem ir AI modelis vai modeļi, kas vada AMOK, pārņemot kontroli pār visu uzņēmuma iekšienē:

Iespējams, ka AI sistēma var, piemēram, vadīt masīvus slēptus pētniecības projektus par to, kā vislabāk pašfiltrēt vai iegūt jau ārēju AI sistēmas, lai dalītos ar savām vērtībām. Iegūstot šos resursus un iesakņošanās kritiskos ceļos, AI sistēma galu galā varētu izmantot savu “spēku”, lai slepeni izveidotu kontroli pār pašu AI uzņēmumu, lai tas sasniegtu savu termināļa mērķi.

Otrs scenārijs atgriežas pie šiem ļaunprātīgajiem cilvēku aktieriem. Tas ir scenārijs, ko viņi sauc par “inteliģences eksploziju”, kur cilvēki organizācijā iegūst priekšrocības salīdzinājumā ar pārējo sabiedrību, pateicoties AI pieaugošajām iespējām. Hipotētiskā situācija sastāv no viena vai vairākiem uzņēmumiem, kas ekonomiski dominē, pateicoties viņu AI automatizācijām:

Tā kā AI uzņēmumi pāriet uz galvenokārt ar AI darbināmu iekšējo darbaspēku, tie varētu radīt produktīvo spēju koncentrāciju ekonomiskajā vēsturē nepieredzēti. Atšķirībā no cilvēku darbiniekiem, kuri saskaras ar fiziskiem, kognitīviem un laika ierobežojumiem, AI sistēmas var atkārtot mērogā, nepārtraukti darboties bez pārtraukumiem un potenciāli veikt intelektuālus uzdevumus ar ātrumu un apjomiem, kas neiespējami cilvēku darbiniekiem. Neliels skaits “superzvaigžņu” firmu, kas uztver lielisku ekonomiskās peļņas daļu, varētu pārspēt jebkuru uz cilvēkiem balstītu uzņēmumu praktiski jebkurā nozarē, kuru viņi izvēlas ievadīt.

Viņi raksta dramatiskākais “izplatīšanās scenārijs”, un tas ir tāds, kurā šādi uzņēmumi sevi konkurē un izaicina valdības uzraudzību:

Varas konsolidācija nelielā skaitā AI uzņēmumu vai pat atsevišķa AI uzņēmuma, rada pamatjautājumus par demokrātisko atbildību un leģitimitāti, jo īpaši tāpēc, ka šīs organizācijas varētu attīstīt iespējas, kas konkurē vai pārsniedz valstu. Jo īpaši, tā kā AI uzņēmumi izstrādā arvien progresīvākas AI sistēmas iekšējai lietošanai, viņi var iegādāties iespējas, kas tradicionāli saistītas ar suverēnām valstīm – ieskaitot sarežģītu izlūkošanas analīzi un uzlabotus kiberieročus -, guess bez pievienotajām demokrātiskajām pārbaudēm un līdzsvariem. Tas varētu radīt strauji izvērstu leģitimitātes krīzi, kurā privātas vienības varētu potenciāli izmantot nepieredzētu sabiedrības ietekmi bez vēlēšanu pilnvarām vai konstitucionāliem ierobežojumiem, ietekmējot suverēno valstu nacionālo drošību.

Šīs varas pieaugums uzņēmumā, iespējams, ilgu laiku neatsakās no sabiedrības un regulatoriem, Stix un viņas komanda uzsver. Uzņēmums, kas spēj sasniegt arvien vairāk AI iespēju “programmatūrā”, nepievienojot milzīgus aparatūras daudzumus, varētu nepiesaistīt lielu uzmanību ārēji, viņi spekulē. Rezultātā “izlūkošanas sprādziens aiz AI uzņēmuma slēgtajām durvīm, iespējams, nerada ārēji redzamus brīdinājuma kadrus.”

Arī: Vai Openai ir lemts? Atvērtā koda modeļi to var sagraut, brīdina ekspertu

Apollo-Group-2025-Scheming-AI detektoru mērījumi

Apollo grupa

Pārraudzības pasākumi

Viņi ierosina vairākus pasākumus, reaģējot uz reakciju. Starp tiem ir politika, lai uzņēmumi pārraudzītu uzņēmumus, lai atklātu shēmu AI. Vēl viena ir oficiāla politika un ietvari tam, kam ir pieeja tam, kādiem resursiem uzņēmumos iekšienē, un pārbauda šo piekļuvi, lai novērstu neierobežotu piekļuvi jebkurai vienai pusei.

Vēl viens noteikums, pēc viņu domām, ir informācijas apmaiņa, īpaši, lai “dalītos ar kritisko informāciju (iekšējās sistēmas iespējām, novērtējumiem un drošības pasākumiem) ar atsevišķām ieinteresētajām personām, ieskaitot notīrītu iekšējo personālu un attiecīgās valdības aģentūras, izmantojot pirms interneta izvietošanas sistēmas kartes un detalizētu drošības dokumentāciju”.

Arī: 2025. gada 20 labākie AI rīki – un #1 lieta, kas jāatceras, kad tos izmantojat

Viena no intriģējošākajām iespējām ir normatīvais režīms, kurā uzņēmumi brīvprātīgi atklāj šādu atklāšanu apmaiņā pret resursiem, piemēram, “piekļuvi enerģijas resursiem un pastiprināta valdības drošība”. Tas varētu būt “publiski un privātās partnerības”, viņi iesaka.

Apollo raksts ir svarīgs ieguldījums debatēs par to, kādus riskus AI pārstāv. Laikā, kad liela daļa sarunu par “mākslīgo vispārējo intelektu”, AGI vai “Superintelligence” ir ļoti neskaidra un vispārējs, Apollo papīrs ir apsveicams solis virzienā uz konkrētāku izpratni par to, kas varētu notikt, jo AI sistēmas iegūst lielāku funkcionalitāti, guess ir vai nu pilnīgi neregulēti, vai nepietiekami regulēti.

Sabiedrības izaicinājums ir tas, ka šodienas AI izvietošana notiek pa daļai, ar daudz šķēršļiem AI aģentu izvietošanai pat vienkāršiem uzdevumiem, piemēram, zvanu centru automatizēšanai. ”

Arī: Kāpēc AI ētikas novārtā atstāšana ir tik riskants bizness – un kā rīkoties pareizi

Droši vien, ka Apollo un citiem ir jādara daudz vairāk darba, lai precīzāk izklāstītu tikai to, kā modeļu un aģentu sistēmas varētu pakāpeniski kļūt sarežģītākas, kamēr tās izvairās no uzraudzības un kontroles.

Autoriem ir viens ļoti nopietns pielipšanas punkts uzņēmumu analīzē. Bēguļojošo uzņēmumu hipotētiskais piemērs – tik spēcīgi uzņēmumi, viņi varētu izaicināt sabiedrību – nespēj risināt pamatus, kas bieži rodas uzņēmumos. Uzņēmumiem var pietrūkt naudas vai izdarīt ļoti sliktu izvēli, kas izšķērdētu savu enerģiju un resursus. Tas, iespējams, var notikt pat uzņēmumiem, kas ar AI starpniecību sāk iegūt nesamērīgu ekonomisko varu.

Galu galā liela daļa produktivitātes, ko uzņēmumi attīsta iekšēji, joprojām var būt izšķērdīga vai neekonomiska, pat ja tas ir uzlabojums. Cik korporatīvo funkciju ir tikai pieskaitāmās izmaksas un neiegūst ieguldījumu atdevi? Nav iemesla domāt, ka viss būtu savādāk, ja produktivitāte tiek panākta ātrāk ar automatizāciju.

Apollo ir ziedojumu pieņemšana Ja vēlaties dot ieguldījumu finansējumā, kas šķiet vērtīgs mēģinājums.

Iegūstiet rīta labākos stāstus katru dienu ar mūsu iesūtni Tech šodien biļetens.



avots