Openai visspējīgākie modeļi halucinē vairāk nekā iepriekšējie

22 aprīlis 2025

Adrienne Bresnahan/Getty Pictures

Openai saka, ka tās jaunākie modeļi, O3 un O4-Mini, ir visspēcīgākie pagaidām. Tomēr pētījumi rāda, ka modeļi arī vairāk halucinē – vismaz divreiz vairāk nekā iepriekšējie modeļi.

Arī: kā izmantot Chatgpt: iesācēja rokasgrāmatu populārākajā AI tērzētavā

Par sistēmas karteziņojums, kas pievienots katram jaunam AI modelim un publicēts ar pagājušās nedēļas izlaidumu, Openai ziņoja, ka O4-Mini ir mazāk precīzs un halucinēts vairāk nekā gan O1, gan O3. Izmantojot PersonQa, iekšēju pārbaudi, kas balstīta uz publiski pieejamu informāciju, uzņēmums atrada O4-Mini halucinētu 48% atbilžu, kas ir trīs reizes O1 likme.

Kamēr O4-Mini ir mazāks, lētāks un ātrāks par O3, un tāpēc netika gaidīts, ka to pārspēs, O3 joprojām halucinēts 33% reakciju vai divreiz lielāks par O1 ātrumu. No trim modeļiem O3 ieguva labāko par precizitāti.

Arī: Openai O1 ir vairāk nekā jebkurš galvenais AI modelis. Kāpēc tas ir svarīgi

“O3 ir tendence iesniegt vairāk prasību kopumā, izraisot precīzākas prasības, kā arī vairāk neprecīzas/halucinētas pretenzijas,” skaidroja Openai ziņojums. “Lai izprastu šī rezultāta cēloni, ir nepieciešams vairāk pētījumu.”

Halucinācijas, kas attiecas uz safabricētajiem apgalvojumiem, pētījumiem un pat URL, turpināja mērīt pat vismodernākos sasniegumus AI. Pašlaik to novēršanai vai identificēšanai nav perfekta risinājuma, lai gan Openai ir izmēģinājis dažas pieejas.

Turklāt faktu pārbaude ir kustīgs mērķis, padarot to grūti iegulšanu un mērogu. Faktu pārbaude ietver zināmu cilvēku izziņas prasmju līmeni, kas AI lielākoties trūkst, piemēram, veselais saprāts, izpratne un kontekstualizācija. Rezultātā halucinācijas modelis lielā mērā balstās uz datu kvalitāti (un piekļuvi internetam, lai iegūtu pašreizējo informāciju).

Nepatiesas informācijas samazināšana apmācības datos var mazināt nepatiesa paziņojuma iespēju lejup pa straumi. Tomēr šis paņēmiens neaizkavē halucinācijas, jo daudzas AI tērzēšanas robota radošās izvēles joprojām nav pilnībā izprotamas.

Kopumā halucināciju riskam ir tendence lēnām samazināties ar katru jauno modeļa izdalīšanos, kas padara O3 un O4-Mini rādītājus nedaudz negaidītus. Lai arī O3 precizitāte ieguva 12 procentpunktus virs O1, tas, ka modelis halucinē divreiz vairāk, liek domāt, ka tā precizitāte nav izaugusi proporcionāli tā iespējām.

Arī: manas divas iecienītās AI lietotnes Linux – un kā es tās izmantoju, lai vairāk paveiktu

Tāpat kā citi nesenie izlaidumi, O3 un O4-Mini ir argumentācijas modeļi, kas nozīmē, ka tie ārēji veic darbības, lai interpretētu uzvedni, ko lietotājs var redzēt. Pagājušajā nedēļā neatkarīgā pētniecības laboratorija tulko Publicēja tā novērtējumukas atklāja, ka O3 bieži falsificē darbības, kuras tā nevar veikt, atbildot uz pieprasījumu, ieskaitot apgalvojumu, ka viņš vada Python kodēšanas vidē, neskatoties uz to, ka tērzētavai nav šādas iespējas.

Turklāt modelis dubultojas, kad noķerts. “[o3] Tālāk attaisno halucinētas izejas, ja to nopratina lietotājs, pat apgalvojot, ka tas izmanto ārēju MacBook Professional, lai veiktu aprēķinus un kopētu izvades ChatGpt, “skaidroja ziņojums. Tulkotais atklāja, ka šie nepatiesie apgalvojumi par skriešanas kodu ir biežāki O-sērijas modeļos (O1, O3-Mini un O3) nekā GPT-sērijas modeļos (4,1 un 4O).

Šis rezultāts ir īpaši mulsinošs, jo argumentācijas modeļiem ir nepieciešams ilgāks laiks, lai sniegtu rūpīgākas, augstākas kvalitātes atbildes. Tulkot līdzdibinātāju Sāru Švetmanu pat Teica TechCrunch Tas “O3 halucinācijas ātrums var padarīt to mazāk noderīgu, nekā tas būtu citādi.”

Arī: tērzēšanas roboti ir izkropļojošas ziņas – pat apmaksātiem lietotājiem

Tulkošanas ziņojumā teikts: “Ir zināms, ka pēc apmācības patiesuma jautājumi pastāv, tie pilnībā neņem vērā paaugstinātu halucinācijas smagumu spriešanas modeļos. Mēs izvirzām hipotēzi, ka šos jautājumus var pastiprināt ar īpašām dizaina izvēlēm O-sērijas argumentācijas modeļos, piemēram, uz rezultātu balstītu pastiprināšanas mācīšanos un iepriekšējo apjomu ķēžu izlaišanu.”

Pagājušajā nedēļā avoti Openai iekšpusē un trešo personu testētāji apstiprināja, ka uzņēmums ir krasi samazinājis jaunus modeļus, ieskaitot O3, drošības pārbaudi. Kamēr sistēmas kartē redzams, ka O3 un O4-Mini ir “aptuveni nominālvērtīgi” ar O1 izturību pret Jailbreak mēģinājumiem (visi trīs punkti no 96% līdz 100%), šie halucinācijas rādītāji rada jautājumus par testēšanas laika mainīšanas mainīšanas ietekmi, kas nav drošībā saistīta.

Lietotājiem joprojām ir faktiski pārbaudīt jebkura AI modeļa izvadi. Šī stratēģija šķiet prātīga, izmantojot jaunākās paaudzes argumentācijas modeļus.

avots

Openai visspējīgākie modeļi halucinē vairāk nekā iepriekšējie

LEAVE A REPLY Cancel reply

jaunākais ieraksts

Deivs Kuljērs saņēma diagnozi bez vēža, kad piedzima mazdēls

Insta360 X5 ar AI darbināmu PureVideo zemas gaismas režīmu, nomaināmu objektīvu...

SNL50 beidzot deva Bilam Burram iespēju pateikt Pearl Jam Eddie Vedder,...

M2 iPad Air vada Home windows 11 rokas, pateicoties emulācijai, pateicoties...

“Tikai zvērs”: Natana Makkinona vajāšana par hokeja dominanci

Ķīna nosoda ASV-Filipīnu “pilna mēroga kaujas” treniņus

Fokusa funkciju komplekti Ziemassvētku diena 2025. gada izlaišana “Track Sung Blue”,...

Playvs paplašina sasniedzamību, iegūstot paaudzes esporta un Playfly koledžas esportu iegādi

Balsojums: kam vajadzētu atvērt vatelīnu Anglijai testa kriketā?

Maurīcija dziļi korupcijas skandālā, kad Makrons apmeklē