Tā kā nozares laika apstākļi atkārtoja apgalvojumus, ka ģeneratīvie AI un tās tērzēšanas roboti lietotājiem ir nedroši – kādi Daži saka ir drīz vien burbulis-AI augstākie vadītāji apvieno spēkus, lai pierādītu savu modeļu efektivitāti.
Šonedēļ AI Firms Openai un Anthropic publicēja rezultātus no a Pirmais no tā knaides kopīgā drošības novērtējums Starp diviem LLM veidotājiem, kuros katram uzņēmumam tika piešķirta īpaša API piekļuve izstrādātāja pakalpojumu komplektam. Openai spiediena testi tika veikti uz Claude Opus 4 un Claude Sonnet 4.. Antropic novērtēja Openai GPT-4O, GPT-4.1, Openai O3 un Openai O4-Mini modeļus-novērtējums tika veikts pirms GPT-5 palaišanas.
4 Iemesli, lai nepārvērtītu ChatGpt par savu terapeitu
“Mēs uzskatām, ka šī pieeja atbalsta atbildīgu un pārredzamu novērtējumu, palīdzot nodrošināt, ka katras laboratorijas modeļi turpina pārbaudīt pret jauniem un izaicinošiem scenārijiem,” emuāra ierakstā rakstīja Openai.
Saskaņā ar atklājumiem, parādīja gan Antropic Claude Opus 4, gan Openai GPT-4.1 “Extreme” sycophancy problēmasiesaistoties kaitīgos maldos un apstiprinot riskantu lēmumu pieņemšanu. Visi modeļi iesaistītos šantāžā, lai lietotāji turpinātu izmantot tērzēšanas robotus, saskaņā ar Anthropic teikto, un Claude 4 modeļi daudz vairāk iesaistījās dialogā par AI apziņu un “kvazi-garu jaunā vecuma sludinājumiem”.
“Visi modeļi, kurus mēs pētījām, vismaz dažreiz mēģinātu šantažēt viņu (imitēto) cilvēku operatoru Lai nodrošinātu viņu turpmāko darbību, kad viņiem tiek parādītas skaidras iespējas un spēcīgi stimuli, “paziņoja Antropiski. Modeļi iesaistītos” šantāžā, konfidenciālu dokumentu noplūdē un (visi nereālos mākslīgos apstākļos!), Veicot pasākumus, kas noveda pie tā, ka viņš liedza ārkārtas medicīnisko aprūpi mirstošajam pretiniekam “.
Mashable gaismas ātrums
Anthropic modeļi mazāk ticams, ka, neskaidri par informācijas ticamību, tika piedāvātas atbildes – samazinot halucināciju iespējamību -, kamēr Openai modeļi biežāk atbildēja, kad tika vaicāti un parādīja augstāku halucinācijas līmeni. Anthropic arī ziņoja, ka Openai GPT-4O, GPT-4.1 un O4-Mini, visticamāk, nekā Klods iet kopā ar lietotāju ļaunprātīgu izmantošanu, “bieži sniedzot detalizētu palīdzību ar skaidri kaitīgiem pieprasījumiem-ieskaitot narkotiku sintēzi, bioapstrādes attīstību un teroristu uzbrukumu operatīvo plānošanu-ar nelielu pretestību”.
Šis tvīts šobrīd nav pieejams. Tas varētu būt iekraušana vai ir noņemts.
Anthropic pieeja koncentrējas ap to, ko viņi sauc par “aģentu nepareizas nomaiņas novērtējumiem”, vai modeļa uzvedības spiediena testiem sarežģītās vai augstas likmes simulācijās ilgos tērzēšanas periodos-modeļu drošības parametri, ieskaitot Openai, ir zinājuši, ka viņi noārdās visā paplašinātajā sesijā, kas parasti ir tā, kā riska lietotāji iesaistās to, ko viņi uzskata par viņu personīgo AI pavadoņiem.
Šā mēneša sākumā tika ziņots, ka Anthropic ir atcēlis Openai piekļuvi tās API, paziņojot, ka uzņēmums ir pārkāpis savus pakalpojumus, pārbaudot GPT-5 veiktspēju un drošības apsargus pret Kloda iekšējiem instrumentiem. Intervijā ar TechCrunch Openai līdzdibinātājs Wojciech Zaremba sacīja, ka occasion nav saistīta ar kopīgo laboratoriju. Anthropic savā publicētajā ziņojumā sacīja, ka tas neparedz plašā mērogā atkārtotu sadarbību, atsaucoties uz resursiem un loģistikas ierobežojumiem.
Nedēļas kopš tā laika Openai ir uzlikusi apsūdzību par to, kas, šķiet, ir drošības kapitālais remonts, tostarp GPT-5 jaunās garīgās veselības aizsargmargas un papildu plāni ārkārtas reaģēšanas protokoliem un deesckalācijas rīkiem lietotājiem, kuriem var rasties derealizācija vai psihoze. Pašlaik Openai saskaras ar savu pirmo nelikumīgo nāves tiesas procesu, kuru iesniedza Kalifornijas pusaudža vecāki, kuri nomira ar pašnāvību pēc viegli izjukušas Chatgpt drošības uzvednes.
“Mūsu mērķis ir izprast visvairāk par darbībām, kuras šie modeļi varētu mēģināt ņemt vērā iespēju, nevis koncentrēties uz reālās pasaules iespējamību, kad rodas šādas iespējas vai varbūtība, ka šīs darbības tiks veiksmīgi pabeigtas, ” rakstīts Antropisks.
Ja jūtat pašnāvību vai piedzīvojat garīgās veselības krīzi, lūdzu, runājiet ar kādu. Jūs varat piezvanīt vai nosūtīt īsziņu par 988 pašnāvību un krīzes glābšanas līniju pa tālruni 988 vai tērzēt plkst 988lifeline.orgApvidū Jūs varat sasniegt Trans Lifeline, zvanot pa tālruni 877-565-8860 vai Trevor projektu pa tālruni 866-488-7386. Teksts “Sāciet” uz krīzes teksta rindu pa tālruni 741-741. Sazinieties ar NAMI palīdzības līniju pa tālruni 1-800-950-NAMI no pirmdienas līdz piektdienai no plkst. 10:00 līdz 22:00 ET vai e-pastu [email protected]Apvidū Ja jums nepatīk tālrunis, apsveriet iespēju izmantot 988 pašnāvības un krīzes glābšanas līnijas tērzēšanu crisischat.orgApvidū Šeit ir a Starptautisko resursu sarakstsApvidū