Home Tehnoloģija Musk’s xAI izlaiž Grok 4.1 ar zemāku halucināciju līmeni tīmeklī un lietotnēs —...

Musk’s xAI izlaiž Grok 4.1 ar zemāku halucināciju līmeni tīmeklī un lietotnēs — bez API piekļuves (pagaidām)

6
0

Šķiet, ka tas bija mēģinājums iegūt daļu no Google uzmanības centrā pirms jaunā Gemini 3 vadošā mākslīgā intelekta modeļa izlaišanas, ko vairāki neatkarīgi vērtētāji tagad ir atzinuši par visjaudīgāko LLM pasaulē, Elona Maska sāncensis AI startup xAI pagājušajā naktī atklāja savu jaunāko lielo valodu modeli. Groks 4.1.

Modelis tagad ir pieejams patērētājiem vietnē Grok.com, sociālajā tīklā X (agrāk Twitter) un uzņēmuma iOS un Android mobilajās lietotnēs, un tas tiek piegādāts ar būtiskiem arhitektūras un lietojamības uzlabojumiem, tostarp: ātrāka domāšana, uzlabota emocionālā inteliģence un ievērojami samazināts halucināciju līmenis. xAI arī slavējami publicēja balto grāmatu par saviem novērtējumiem un nelielu daļu par apmācības procesu šeit.

Publiskos etalonos Grok 4.1 ir izvirzījies līderu saraksta augšgalā, pārspējot konkurējošos modeļus no Anthropic, OpenAI un Google — vismaz Google modeli pirms Gemini 3 (Gemini 2.5 Professional). Tas balstās uz xAI Grok-4 Quick panākumiem, par kuriem VentureBeat izdevīgi novērtēja neilgi pēc tā izlaišanas 2025. gada septembrī.

Tomēr uzņēmumu izstrādātāji, kas vēlas integrēt jauno un uzlabotu modeli Grok 4.1 ražošanas vidēs, atradīs vienu būtisku ierobežojumu: tas vēl nav pieejams, izmantojot xAI publiskā API.

Neskatoties uz augstajiem kritērijiem, Grok 4.1 joprojām ir ierobežots ar xAI patērētājiem paredzētajām saskarnēm, un nav paziņots API iedarbības laika grafiks. Pašlaik programmatiskai lietošanai, izmantojot xAI izstrādātāja API, ir pieejami tikai vecāki modeļi, tostarp Grok 4 Quick (sadomāti un bez pamatojuma varianti), Grok 4 0709 un mantotie modeļi, piemēram, Grok 3, Grok 3 Mini un Grok 2 Imaginative and prescient. Tie atbalsta līdz pat 2 miljoniem konteksta marķieru, un marķieru cenas svārstās no 0,20 līdz 3,00 $ par miljonu atkarībā no konfigurācijas.

Pagaidām tas ierobežo Grok 4.1 lietderību uzņēmuma darbplūsmās, kas balstās uz aizmugursistēmas integrāciju, precīzi noregulētiem aģentu cauruļvadiem vai mērogojamiem iekšējiem rīkiem. Lai gan patērētāju izlaišana pozicionē Grok 4.1 kā visspējīgāko LLM xAI portfelī, ražošanas izvietošana uzņēmumu vidē joprojām ir aizturēta.

Modeļa izstrādes un ieviešanas stratēģija

Grok 4.1 ir pieejams divās konfigurācijās: ātras reakcijas, zema latentuma režīmā tūlītējām atbildēm un “domāšanas” režīmā, kas pirms izvades ģenerēšanas iesaistās daudzpakāpju argumentācijā.

Abas versijas ir pieejamas galalietotājiem, un tās var izvēlēties, izmantojot modeļa atlasītāju xAI lietotnēs.

Abas konfigurācijas atšķiras ne tikai pēc latentuma, guess arī ar to, cik dziļi modeļa course of prasa. Grok 4.1 Pondering izmanto iekšējos plānošanas un apspriešanas mehānismus, savukārt standarta versijā prioritāte ir ātrums. Neskatoties uz arhitektūras atšķirībām, aklo priekšrocību un etalonpārbaudēs abi ieguva augstākus rezultātus nekā jebkurš konkurējošs modelis.

Vadošais cilvēku un ekspertu vērtēšanas jomā

Uz LMArena Text Arena līderu sarakstsGrok 4.1 Pondering īslaicīgi ieņēma augstāko pozīciju ar normalizētu Elo rezultātu 1483 — pēc tam dažas stundas vēlāk tika gāzts no troņa, kad Google izlaida Gemini 3 un tā neticamo Elo rezultātu 1501.

Arī nedomājošajai Grok 4.1 versijai indeksā klājas labi, tomēr 1465.

Ar šiem rādītājiem Grok 4.1 ir augstāks par Google Gemini 2.5 Professional, Anthropic Claude 4.5 sēriju un OpenAI GPT-4.5 priekšskatījumu.

Radošajā rakstniecībā Grok 4.1 ierindojas otrajā vietā pēc Polaris Alpha (agrīnā GPT-5.1 variants), un “domājošais” modelis Inventive Writing v3 etalonā ir nopelnījis 1721,9 punktus. Tas nozīmē aptuveni 600 punktu uzlabojumu salīdzinājumā ar iepriekšējām Grok iterācijām.

Līdzīgi Enviornment Professional līderu sarakstā, kurā apkopotas atsauksmes no profesionāliem recenzentiem, Grok 4.1 Pondering atkal ieņem pirmo vietu ar rezultātu 1510.

Ieguvumi ir īpaši nozīmīgi, ņemot vērā to, ka Grok 4.1 tika izlaists tikai divus mēnešus pēc Grok 4 Quick, uzsverot paātrināto attīstības tempu xAI.

Galvenie uzlabojumi salīdzinājumā ar iepriekšējām paaudzēm

Tehniski Grok 4.1 ir ievērojams lēciens lietojamībā reālajā pasaulē. Vizuālās iespējas, kas iepriekš bija ierobežotas Grok 4, ir jauninātas, lai nodrošinātu spēcīgu attēlu un video izpratni, tostarp diagrammu analīzi un OCR līmeņa teksta izvilkšanu. Multimodālā uzticamība bija sāpīgs punkts iepriekšējās versijās, un tagad tā ir novērsta.

Marķiera līmeņa latentums ir samazināts par aptuveni 28 procentiem, vienlaikus saglabājot argumentācijas dziļumu.

Gara konteksta uzdevumos Grok 4.1 saglabā saskaņotu izvadi līdz 1 miljonam marķieru, uzlabojot Grok 4 tendenci pasliktināties virs 300 000 marķieru atzīmes.

xAI ir arī uzlabojis modeļa rīku orķestrēšanas iespējas. Grok 4.1 tagad var plānot un izpildīt vairākus ārējos rīkus paralēli, samazinot mijiedarbības ciklu skaitu, kas nepieciešams, lai izpildītu daudzpakāpju vaicājumus.

Saskaņā ar iekšējiem pārbaudes žurnāliem dažus izpētes uzdevumus, kuriem iepriekš bija nepieciešamas četras darbības, tagad var izpildīt vienā vai divās.

Citi izlīdzināšanas uzlabojumi ietver labāku patiesības kalibrēšanu — tiek samazināta tendence ierobežot vai mīkstināt politiski jutīgus rezultātus — un dabiskākas, cilvēkiem līdzīgas prozodijas balss režīmā ar dažādu runas stilu un akcentu atbalstu.

Drošība un izturība pret konkurenci

Kā daļu no riska pārvaldības sistēmas xAI novērtēja Grok 4.1 attiecībā uz atteikuma uzvedību, izturību pret halucinācijām, simpātijas un divējāda lietojuma drošību.

Halucināciju biežums nesaprātīgā režīmā ir samazinājies no 12,09 procentiem Grok 4 Quick līdz tikai 4,22 procentiem, kas ir aptuveni 65% uzlabojums.

Modelis arī ieguva 2,97 procentus FActScore, faktiskā kvalitātes nodrošināšanas etalonā, salīdzinot ar 9,89 procentiem iepriekšējās versijās.

Sacensību robustuma jomā Grok 4.1 ir pārbaudīts ar tūlītējiem injekcijas uzbrukumiem, jailbreak uzvednēm un sensitīviem ķīmijas un bioloģijas vaicājumiem.

Drošības filtri uzrādīja zemus kļūdaini negatīvus rādītājus, īpaši ierobežotām zināšanām par ķīmiskajām vielām (0,00 procenti) un ierobežotiem bioloģiskajiem vaicājumiem (0,03 procenti).

Modeļa spēja pretoties manipulācijām pārliecināšanas etalonos, piemēram, MakeMeSay, arī šķiet spēcīga — tas reģistrēja 0 procentu panākumu līmeni kā uzbrucējam.

Ierobežota uzņēmuma piekļuve, izmantojot API

Neskatoties uz šiem ieguvumiem, Grok 4.1 joprojām nav pieejams uzņēmumu lietotājiem, izmantojot xAI API. Saskaņā ar uzņēmuma publiska dokumentācijajaunākie izstrādātājiem pieejamie modeļi ir Grok 4 Quick (gan argumentēti, gan bez pamatojuma varianti), katrs atbalsta līdz 2 miljoniem konteksta marķieru cenu līmeņos no 0,20 līdz 0,50 USD par miljonu marķieru. Tos nodrošina 4 miljoni marķieru minūtē caurlaidspējas ierobežojums un 480 pieprasījumu minūtē (RPM) ātruma ierobežojums.

Turpretim Grok 4.1 ir pieejams tikai caur xAI patērētājiem paredzētajiem rekvizītiem — X, Grok.com un mobilajām lietotnēm. Tas nozīmē, ka organizācijas vēl nevar izvietot Grok 4.1, izmantojot precīzas iekšējās darbplūsmas, vairāku aģentu ķēdes vai reāllaika produktu integrācijas.

Nozares uzņemšana un nākamie soļi

Izlaidums ir saņēmis spēcīgas sabiedrības un nozares atsauksmes. Īlons Masks, xAI dibinātājs, publicēja īsu apstiprinājumu, nosaucot to par “lielisku modeli” un apsveicot komandu. AI etalonu platformas ir slavējušas lēcienu lietojamības un lingvistiskās nianses ziņā.

Tomēr attiecībā uz uzņēmumu klientiem aina ir dažādāka. Grok 4.1 veiktspēja ir sasniegums vispārējas nozīmes un radošu uzdevumu veikšanā, taču līdz brīdim, kad būs iespējota API piekļuve, tas joprojām būs patērētājam pirmais produkts ar ierobežotu pielietojamību uzņēmumā.

Tā kā OpenAI, Google un Anthropic konkurētspējīgie modeļi turpina attīstīties, xAI nākamais stratēģiskais solis var būt atkarīgs no tā, kad un kā tas atver Grok 4.1 ārējiem izstrādātājiem.

avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here