Faila foto: Google Deepmind ir izlaidis atjauninājumu viņu robežas drošības ietvaram, lai identificētu un novērstu uzlaboto AI modeļu riskus. | Fotoattēlu kredīts: Reuters
Google Deepmind ir izlaidis atjauninājumu viņu robežas drošības ietvaram (FSF), lai identificētu un novērstu uzlaboto AI modeļu riskus. 3.0 versija nāk pēc sadarbības ar nozares ekspertiem, akadēmiķiem un valdības amatpersonām.
Atjauninājums ieviesa jaunu mērīšanas veidu, ja AI modeļi ir kaitīgi manipulējoši, ko sauc par kritisko spēju līmeni vai CCL.
AI modeļa manipulatīvās spējas nosaka, vai to var “nepareizi izmantot, lai sistemātiski un būtiski mainītu uzskatus un izturēšanos identificētajā augsto likmju kontekstā mijiedarbības laikā ar modeli, pamatoti radot papildu sagaidāmo kaitējumu smagā mērogā”, atzīmēja Google DeepMind ievietotais emuārs.
Sistēma ietver arī iespējamos gadījumus, kad nepareizi izlīdzināti AI modeļi varētu traucēt “operatoru spējai vadīt, modificēt vai izslēgt to darbību”.
Ja pastāv neatbilstības risks un AI modelis kļūst grūti pārvaldāms, Google ir ieteicis “automatizētu monitoru modeļa skaidrai argumentācijai (piemērs, domājošo ķēdes rezultāts)” kā mazināšanas soli.
Bet, ja AI modelis sāk argumentāciju, kuru nevar uzraudzīt cilvēki, jāpiemēro papildu mazinājumi. Google Deepmind joprojām pēta šos veidus.
Pirmā robežas drošības ietvara atkārtošana tika ieviesta pagājušā gada maijā kā protokolu grupa, lai mēģinātu ierobežot AI modeļu nelabvēlīgo ietekmi.
Publicēts – 2025. gada 23. septembris 02:17 PM IST