Beigās augustā AI uzņēmums Anthropic paziņoja ka tā tērzēšanas robots Klods nevienam nepalīdzētu uzbūvēt kodolieroci. Saskaņā ar Anthropic teikto, tas bija sadarbojies ar Enerģētikas departamentu (DOE) un Nacionālo kodoldrošības pārvaldi (NNSA), lai pārliecinātos, ka Klods neizpauž kodolnoslēpumus.
Kodolieroču ražošana ir gan precīza zinātne, gan atrisināta problēma. Liela daļa informācijas par Amerikas progresīvākajiem kodolieročiem ir ļoti slepeni, taču sākotnējā kodolzinātne ir 80 gadus veca. Ziemeļkoreja pierādīja, ka īpaša valsts, kas ir ieinteresēta iegādāties bumbu, to var izdarīt, un tai nebija nepieciešama tērzēšanas robota palīdzība.
Kā tieši ASV valdība sadarbojās ar AI uzņēmumu, lai pārliecinātos, ka tērzēšanas robots neizplata sensitīvus kodolnoslēpumus? Un arī: vai kādreiz pastāvēja briesmas, ka tērzēšanas robots varētu palīdzēt kādam izveidot kodolieroču?
Atbilde uz pirmo jautājumu ir tāda, ka tas izmantoja Amazon. Atbilde uz otro jautājumu ir sarežģīta.
Amazon Net Providers (AWS) piedāvājumi Top Secret mākoņpakalpojumi valdības klientiem, kur viņi var uzglabāt sensitīvu un klasificētu informāciju. DOE jau bija vairāki no šiem serveriem, kad tas sāka strādāt ar Anthropic.
“Mēs izvietojām toreizējo Kloda versiju īpaši slepenā vidē, lai NNSA varētu sistemātiski pārbaudīt, vai AI modeļi var radīt vai saasināt kodolriskus,” WIRED stāsta Marina Favaro, kas pārrauga Anthropic Nacionālās drošības politiku un partnerības. “Kopš tā laika NNSA ir apvienojusi secīgus Kloda modeļus drošajā mākoņvidē un sniedz mums atsauksmes.”
NNSA red-teaming course of, proti, vājo vietu pārbaude, palīdzēja Anthropic un Amerikas kodolzinātniekiem izstrādāt proaktīvu risinājumu ar tērzēšanas robotiem atbalstītām kodolprogrammām. Kopā viņi “izstrādāja kodolieroču klasifikatoru, ko var uzskatīt par sarežģītu AI sarunu filtru,” saka Favaro. “Mēs to izveidojām, izmantojot NNSA izstrādātu sarakstu ar kodolieroču riska rādītājiem, konkrētām tēmām un tehniskajām detaļām, kas palīdz mums noteikt, kad saruna varētu nonākt kaitīgā teritorijā. Pats saraksts tiek kontrolēts, wager nav klasificēts, kas ir ļoti svarīgi, jo tas nozīmē, ka mūsu tehniskais personāls un citi uzņēmumi var to ieviest.”
Favaro saka, ka bija vajadzīgi mēneši pielāgošanas un testēšanas, lai klasifikators darbotos. “Tas aptver sarunas, neapzīmējot likumīgas diskusijas par kodolenerģiju vai medicīniskiem izotopiem,” viņa saka.