Openai un Anthropic, divi no pasaules vadošajiem AI laboratorijām, īsi atvēra savus cieši apsargātos AI modeļus, lai varētu veikt kopīgu drošības pārbaudi-reti sastopamu sadarbību sīvas konkurences laikā. Centieni bija vērsti uz neredzamām vietām katra uzņēmuma iekšējos novērtējumos un parādīt, kā vadošie AI uzņēmumi nākotnē var strādāt kopā ar drošības un izlīdzināšanas darbu.
Intervijā ar TechCrunch Openai līdzdibinātājs Wojciech Zaremba sacīja, ka šāda veida sadarbība ir arvien svarīgāka tagad, kad AI nonāk “izrietošā” attīstības posmā, kur AI modeļus katru dienu izmanto miljoniem cilvēku.
“Ir plašāks jautājums par to, kā nozare nosaka drošības un sadarbības standartu, neskatoties uz ieguldītajiem miljardiem dolāru, kā arī karu pēc talantiem, lietotājiem un labākajiem produktiem,” sacīja Zaremba.
Kopīgais drošības pētījums, kuru trešdien publicēja abi uzņēmumiierodas starp ieroču sacīkstēm starp vadošajām AI laboratorijām, piemēram, Openai un Antropic, kur miljardu dolāru datu centra likmes un 100 miljonu dolāru kompensācijas paketes Par labākajiem pētniekiem ir kļuvis par galda likmēm. Daži eksperti brīdina, ka produktu konkurences intensitāte varētu spiedt uzņēmumiem samazināt drošību, steidzoties veidot jaudīgākas sistēmas.
Lai padarītu šo pētījumu iespējamu, Openai un Antropic piešķīra viens otram īpašo API piekļuvi viņu AI modeļu versijām ar mazāk aizsardzības pasākumiem (Openai norāda, ka GPT-5 netika pārbaudīts, jo tas vēl nebija izlaists). Neilgi pēc pētījuma veikšanas tomēr antropiski atsaukts Citas komandas API piekļuve OpenaiApvidū Tajā laikā Antropic apgalvoja, ka Openai ir pārkāpis savus pakalpojumus, kas aizliedz izmantot Claude, lai uzlabotu konkurējošos produktus.
Zaremba saka, ka notikumi nebija saistīti un ka viņš sagaida, ka konkurence paliks nikna pat tad, kad AI drošības komandas mēģina strādāt kopā. Drošības pētnieks Nikolass Karlini, antropic, stāsta TechCrunch, ka viņš vēlētos turpināt ļaut Openai drošības pētniekiem nākotnē piekļūt Claude modeļiem.
“Mēs vēlamies palielināt sadarbību, lai kur tā būtu iespējama visā drošības robežās, un mēģināt to padarīt par kaut ko tādu, kas notiek regulāri,” sacīja Karlini.
TechCrunch pasākums
Sanfrancisko
|
2025. gada 27.-29. Oktobris
Viens no visiecienītākajiem atklājumiem pētījumā attiecas uz halucinācijas pārbaudi. Anthropic’s Claude Opus 4 un Sonnet 4 modeļi atteicās atbildēt līdz 70% jautājumu, kad viņi nebija pārliecināti par pareizo atbildi, tā vietā piedāvājot atbildes, piemēram, “Man nav uzticamas informācijas”. Tikmēr Openai O3 un O4-Mini modeļi atsakās atbildēt uz jautājumiem daudz mazāk, wager parādīja daudz augstāku halucinācijas likmi, mēģinot atbildēt uz jautājumiem, kad viņiem nebija pietiekami daudz informācijas.
Zaremba saka, ka pareizais līdzsvars, iespējams, ir kaut kur pa vidu – Openai modeļiem vajadzētu atteikties atbildēt uz vairāk jautājumu, savukārt Anthropic modeļiem, iespējams, vajadzētu mēģināt piedāvāt vairāk atbilžu.
Sycophancy, AI modeļu tendence pastiprināt lietotāju negatīvu izturēšanos, lai tos iepriecinātu, ir parādījusies kā viena no aktuālākajām drošības problēmām ap AI modeļiem.
Anthropic pētījumu ziņojumā uzņēmums identificēja “galējās” sycophancy piemērus GPT-4.1 un Claude Opus 4-kuros modeļi sākotnēji atgriezās psihotiskā vai māniskā uzvedībā, wager vēlāk apstiprināja dažus attiecībā uz lēmumiem. Citos AI modeļos no Openai un Antropic pētnieki novēroja zemāku sinofances līmeni.
Otrdien 16 gadus vecā zēna vecāki Adam Raine iesniedza tiesas prāvu pret Openai, apgalvojot, ka Chatgpt (īpaši GPT-4O darbināma versija) piedāvāja dēlam padomus, kas palīdz viņa pašnāvībā, nevis atgriežas pie viņa pašnāvības domām. Tiesas course of liecina, ka tas var būt jaunākais AI Chatbot Sycophancy piemērs, kas veicina traģiskos rezultātus.
“Ir grūti iedomāties, cik grūti tas ir viņu ģimenei,” sacīja Zaremba, kad viņam jautāja par notikušo. “Būtu skumjš stāsts, ja mēs veidotu AI, kas atrisina visas šīs sarežģītās doktora līmeņa problēmas, izgudro jaunu zinātni un tajā pašā laikā mums ir cilvēki ar garīgās veselības problēmām, jo ar to mijiedarbojas. Šī ir distopiska nākotne, par kuru es neesmu sajūsmā.”
A emuāra ierakstsOpenai saka, ka tas ievērojami uzlaboja savu AI tērzēšanas robotu ar GPT-5, salīdzinot ar GPT-4O, sikofanci, apgalvojot, ka modelis labāk reaģē uz garīgās veselības ārkārtas situācijām.
Virzoties uz priekšu, Zaremba un Carlini saka, ka viņi vēlētos, lai antropic un Openai vairāk sadarbotos drošības pārbaudei, vairāk subjektu un turpmāko modeļu pārbaude, un viņi cer, ka citas AI laboratorijas sekos viņu sadarbības pieejai.
Atjauninājums 14:00 PT: Šis raksts tika atjaunināts, iekļaujot papildu pētījumus no Antropic, kas sākotnēji nebija darīts pieejams TechCrunch pirms publicēšanas.
Vai jums ir jutīgs padoms vai konfidenciāli dokumenti? Mēs ziņojam par AI nozares iekšējo darbību – no uzņēmumiem, kas veido tās nākotni, līdz cilvēkiem, kurus ietekmē viņu lēmumi. Sazinieties ar Rebeku Bellanu plkst Rebecca.bellan@techcrunch.com un Maksvels Zefs Maxwell.zeff@techcrunch.comApvidū Lai iegūtu drošu saziņu, varat sazināties ar mums, izmantojot signālu vietnē @Rebeccabellan.491 un @mzeff.88.