Home Tehnoloģija Baidu iepazīstina ar patentētu ERNIE 5, kas pārspēj GPT-5 veiktspēju diagrammās, dokumentu...

Baidu iepazīstina ar patentētu ERNIE 5, kas pārspēj GPT-5 veiktspēju diagrammās, dokumentu izpratnē un daudz ko citu

19
0

Dažas stundas pēc tam, kad OpenAI atjaunināja savu vadošo pamatmodeli GPT-5 uz GPT-5.1, solot samazinātu marķieru lietojumu kopumā un patīkamāku personību ar vairāk iepriekš iestatītām opcijām, ķīniešu meklēšanas gigants Baidu iepazīstināja ar savu nākamās paaudzes pamata modeli ERNIE 5.0, līdzās AI produktu jauninājumu komplektam un stratēģiskiem starptautiskiem paplašinājumiem.

Mērķis: pozicionēt kā globālu sāncensi uzņēmumu AI tirgū, kas kļūst arvien konkurētspējīgāks.

ERNIE 5.0, par kuru tika paziņots uzņēmuma Baidu World 2025 pasākumā, ir patentēts, dabiski daudzmodāls modelis, kas paredzēts teksta, attēlu, audio un video satura kopīgai apstrādei un ģenerēšanai.

Atšķirībā no Baidu nesen izlaistā ERNIE-4.5-VL-28B-A3B-Considering, kas ir atvērtā koda saskaņā ar uzņēmumam draudzīgu un pieļaujamu Apache 2.0 licenci, ERNIE 5.0 ir patentēts modelis un ir pieejams tikai caur Baidu ERNIE Bot vietne (man tā bija jāatlasa manuāli modeļu atlasītāja nolaižamajā izvēlnē) un Qianfan mākoņa platformas lietojumprogrammu saskarne (API) uzņēmumu klientiem.

Paralēli modeļa ieviešanai Baidu ieviesa lielus atjauninājumus savā digitālajā cilvēku platformā, bezkoda rīkus un vispārējas nozīmes AI aģentus, kuru mērķis ir paplašināt savu AI nospiedumu ārpus Ķīnas.

Uzņēmums arī ieviesa ERNIE 5.0 Preview 1022 — variantu, kas ir optimizēts teksta intensīviem uzdevumiem, kā arī vispārējais priekšskatījuma modelis, kas līdzsvaro dažādas modalitātes.

Baidu uzsvēra, ka ERNIE 5.0 atspoguļo izmaiņas izlūkdatu izvēršanā mērogā, un izpilddirektors Robins Li norāda: “Kad jūs internalizējat AI, tas kļūst par vietējo iespēju un pārvērš intelektu no izmaksām par produktivitātes avotu.”

Tur, kur ERNIE 5.0 pārspēj GPT-5 un Gemini 2.5 Professional

ERNIE 5.0 etalona rezultāti liecina, ka Baidu ir sasniedzis paritāti vai gandrīz paritāti ar labākajiem Rietumu pamatu modeļiem plašā uzdevumu spektrā.

Publiskajos etalona slaidos, kas tika kopīgoti pasākuma Baidu World 2025 laikā, ERNIE 5.0 priekšskatījums pārspēja OpenAI GPT-5-Excessive un Google Gemini 2.5 Professional vai salīdzināja to. multimodāla spriešana, dokumentu izpratne un uz attēliem balstīta kvalitātes nodrošināšanawager arī demonstrē spēcīgas valodas modelēšanas un koda izpildes spējas.

Uzņēmums uzsvēra savu spēju apstrādāt kopīgās ievades un izvades dažādās modalitātēs, nevis paļauties uz post-hoc modalitātes saplūšanu, ko tas formulēja kā tehnisku diferenciatoru.

Vizuālo uzdevumu jomā ERNIE 5.0 sasniedza vadošos punktus OCRBench, DocVQA un ChartQA — trīs etalonos, kas pārbauda dokumentu atpazīšanu, izpratni un strukturētu datu argumentāciju.

Baidu apgalvo, ka modelis pārspēj gan GPT-5-Excessive, gan Gemini 2.5 Professional šajos uz dokumentiem un diagrammām balstītajos etalonos — jomās, kuras tas raksturo kā galveno uzņēmumu lietojumprogrammām, piemēram, automatizētu dokumentu apstrādi un finanšu analīzi.

Attēlu ģenerēšanā ERNIE 5.0 salīdzināja vai pārsniedza Google Veo3 dažādās kategorijās, tostarp semantisko līdzinājumu un attēla kvalitāti, saskaņā ar Baidu iekšējo GenEval novērtējumu. Baidu apgalvoja, ka modeļa multimodālā integrācija ļauj ģenerēt un interpretēt vizuālo saturu ar lielāku kontekstuālo izpratni nekā modeļi, kas paļaujas uz modalitātes specifiskiem kodētājiem.

Audio un runas uzdevumiem ERNIE 5.0 demonstrēja konkurētspējīgus rezultātus MM-AU un TUT2017 audio izpratnes etalonos, kā arī atbildes uz jautājumiem no runātās valodas ievades. Tā audio veiktspēja, lai gan nav tik ļoti uzsvērta kā vīzija vai teksts, liecina par plašu iespēju nospiedumu, kas paredzēts pilna spektra multimodālu lietojumu atbalstam.

Valodu uzdevumos modelis uzrādīja spēcīgus rezultātus attiecībā uz norādījumiem, atbildēm uz jautājumiem un matemātisku argumentāciju — galvenajām jomām, kas nosaka lielu valodu modeļu lietderību uzņēmumam.

ERNIE 5.0 versijas Preview 1022 variants, kas pielāgots teksta veiktspējai, uzrādīja vēl spēcīgākus valodai raksturīgus rezultātus agrīnā izstrādātāja piekļuves laikā. Lai gan Baidu nepretendē uz plašu pārākumu vispārējās valodas argumentācijā, tā iekšējie novērtējumi liecina, ka ERNIE 5.0 Preview 1022 samazina atšķirību no augstākā līmeņa angļu valodas modeļiem un pārspēj tos ķīniešu valodas veiktspējā.

Lai gan Baidu publiski nepublicēja pilnīgu etalona informāciju vai neapstrādātus rādītājus, tā veiktspējas pozicionēšana liecina par apzinātu mēģinājumu izveidot ERNIE 5.0 nevis kā nišas multimodālu sistēmu, wager gan kā vadošo modeli, kas konkurē ar lielākajiem slēgtajiem modeļiem vispārējas nozīmes spriešanā.

Baidu apgalvo, ka nepārprotami vadošā loma ir strukturētā dokumentu izpratnē, vizuālās diagrammas argumentācijā un vairāku modalitātes integrācijā vienā, vietējā modelēšanas arhitektūrā.. Šo rezultātu neatkarīga pārbaude joprojām tiek gaidīta, taču pieprasīto iespēju klāsts ERNIE 5.0 pozicionē kā nopietnu alternatīvu multimodālā pamata modeļa ainavā.

Uzņēmuma cenu noteikšanas stratēģija

ERNIE 5.0 atrodas pie premium gals Baidu modeļa cenu struktūras. Uzņēmums ir izlaidis īpašu cenu noteikšanu API lietošanai savā Qianfan platformā, saskaņojot izmaksas ar citiem Ķīnas konkurentu, piemēram, Alibaba, augstākā līmeņa piedāvājumiem.

Modelis

Ievades maksa (par 1 000 marķieru)

Izejas izmaksas (par 1 000 marķieru)

Avots

ERNIE 5.0

0,00085 $ (0,006 ¥)

0,0034 $ (0,024 ¥)

Cjaņfaņs

ERNIE 4.5 Turbo (piem.)

0,00011 $ (0,0008 ¥)

0,00045 $ (0,0032 ¥)

Qianfan

Qwen3 (bijušais kodētājs)

0,00085 $ (0,006 ¥)

0,0034 $ (0,024 ¥)

Qianfan

Izmaksu kontrasts starp ERNIE 5.0 un agrākiem modeļiem, piemēram, ERNIE 4.5 Turbo, uzsver Baidu stratēģiju, lai nošķirtu liela apjoma, zemu izmaksu modeļus no augstas veiktspējas modeļiem, kas paredzēti sarežģītiem uzdevumiem un multimodālai spriešanai.

Salīdzinot ar citām ASV alternatīvām, tā joprojām ir vidējā cenu diapazonā:

Modelis

Ievade (/1 miljons marķieru)

Izvade (/1 miljons marķieru)

Avots

GPT-5.1

1,25 ASV dolāri

10,00 USD

OpenAI

ERNIE 5.0

0,85 ASV dolāri

3,40 ASV dolāri

Cjaņfaņs

ERNIE 4.5 Turbo (piem.)

0,11 ASV dolāri

0,45 ASV dolāri

Qianfan

Klods Opuss 4.1

15,00 USD

75,00 USD

Antropisks

Gemini 2.5 Professional

1,25 ASV dolāri (≤200 000) / 2,50 ASV dolāri (>200 000)

10,00 ASV dolāri (≤200 ok) / 15,00 ASV dolāri (>200 000)

Google Vertex AI cenas

Grok 4 (grok-4-0709)

3,00 USD

15,00 USD

xAI API

Globālā paplašināšanās: produkti un platformas

Vienlaikus ar modeļa izlaišanu Baidu paplašinās starptautiskā mērogā:

  • GenFlow 3.0kurā tagad ir vairāk nekā 20 miljoni lietotāju, ir uzņēmuma lielākais vispārējas nozīmes AI aģents, un tam ir uzlabota atmiņa un multimodāla uzdevumu apstrāde.

  • Famoupašattīstošs aģents, kas spēj dinamiski atrisināt sarežģītas problēmas, tagad ir komerciāli pieejams, izmantojot ielūgumu.

  • MeDoBaidu bezkoda veidotāja Miaoda starptautiskā versija, tiek rādīta visā pasaulē, izmantojot medo.dev.

  • Oreātsproduktivitātes darbvieta ar dokumentu, slaidu, attēlu, video un aplādes atbalstu, ir sasniegusi vairāk nekā 1,2 miljonus lietotāju visā pasaulē.

Baidu digitālā cilvēku platforma, kas jau ir ieviesta Brazīlijā, ir arī daļa no globālā virziena. Saskaņā ar uzņēmuma datiem 83% tiešraides straumētāju šā gada iepirkšanās pasākumā “Double 11” Ķīnā izmantoja Baidu digitālo cilvēku tehnoloģiju, tādējādi veicinot GMV pieaugumu par 91%.

Tikmēr Baidu autonomais braucienu pakalpojums Apollo Go ir pārsniedzis 17 miljonus braucienu, apkalpojot bezvadītāja autoparkus 22 pilsētās un pretendējot uz pasaulē lielākā robotaksi tīkla titulu.

Atvērtā pirmkoda vīzijas valodas modelis piesaista nozares uzmanību

Divas dienas pirms vadošā ERNIE 5.0 notikuma Baidu arī izlaida atvērtā pirmkoda multimodālo modeli saskaņā ar Apache 2.0 licenci: ERNIE-4.5-VL-28B-A3B-Considering.

Kā ziņoja mans kolēģis Michael Nuñez no VentureBeat, modelis aktivizē tikai 3 miljardus parametru, vienlaikus saglabājot kopā 28 miljardus, izmantojot Combination-of-Consultants (MoE) arhitektūru efektīvai secinājumu veikšanai.

Galvenie tehniskie jauninājumi ietver:

  • “Domāšana ar attēliem”, kas nodrošina dinamisku uz tālummaiņu balstītu vizuālo analīzi

  • Atbalsts diagrammu interpretācijai, dokumentu izpratnei, vizuālajam pamatojumam un laika izpratnei video

  • Darblaiks ar vienu 80 GB GPU, padarot to pieejamu vidēja lieluma organizācijām

  • Pilnīga saderība ar Transformers, vLLM un Baidu FastDeploy rīku komplektiem

Šis laidiens palielina spiedienu uz slēgtā pirmkoda konkurentiem. Ar Apache 2.0 licencēšanu ERNIE-4.5-VL-28B-A3B-Considering kļūst par dzīvotspējīgu pamata modeli komerciālām lietojumprogrammām bez licencēšanas ierobežojumiem — to piedāvā daži augstas veiktspējas modeļi šajā klasē.

Kopienas atsauksmes un Baidu atbilde

Pēc ERNIE 5.0 palaišanas izstrādātājs un AI vērtētājs Lisans al Gaibs (@scaling01) ievietoja jauktu atsauksmi vietnē X. Lai gan sākotnēji viņi bija pārsteigti par modeļa etalonuzdevumu, viņi ziņoja par pastāvīgu problēmu, kad ERNIE 5.0 SVG ģenerēšanas uzdevumu laikā atkārtoti izsauc rīkus, pat ja tas tika skaidri norādīts.

“ERNIE 5.0 etaloni izskatījās neprātīgi, līdz es to pārbaudīju… diemžēl tas ir RL smadzeņu bojāts vai viņiem ir nopietna problēma ar tērzēšanas platformu / sistēmas uzvedni,” rakstīja Lisans.

Dažu stundu laikā Baidu izstrādātāju atbalsta konts, @ErnieforDevs, atbildēja:

“Paldies par atsauksmēm! Tā ir zināma kļūda — noteikta sintakse var konsekventi to izraisīt. Mēs strādājam pie labojuma. Varat mēģināt pārfrāzēt vai mainīt uzvedni, lai pagaidām no tās izvairītos.”

Ātrais apgrozījums atspoguļo Baidu pieaugošo uzsvaru uz izstrādātāju saziņu, jo īpaši tāpēc, ka tas palīdz starptautiskiem lietotājiem izmantot gan patentētus, gan atvērtā koda piedāvājumus.

Perspektīva Baidu un tās ERNIE pamata LLM saimei

Baidu ERNIE 5.0 iezīmē stratēģisku eskalāciju globālajā pamatu modeļu sacīkstē. Ar veiktspējas apgalvojumiem, kas to pielīdzina vismodernākajām OpenAI un Google sistēmām, kā arī augstākās kvalitātes cenu noteikšanas un brīvpiekļuves alternatīvu kombināciju, Baidu norāda uz savu ambīciju kļūt ne tikai par vietējo AI līderi, wager arī par uzticamu globālās infrastruktūras nodrošinātāju.

Laikā, kad uzņēmumu AI lietotāji arvien vairāk pieprasa multimodālu veiktspēju, elastīgu licencēšanu un izvietošanas efektivitāti, Baidu divvirzienu pieeja — augstākās klases mitinātās API un atvērtā pirmkoda laidieni — var paplašināt tās pievilcību gan korporatīvajās, gan izstrādātāju kopienās.

Joprojām ir jānoskaidro, vai uzņēmuma darbības prasības atbilst trešo pušu pārbaudēm. Taču ainavā, ko veido pieaugošās izmaksas, modeļu sarežģītība un skaitļošanas vājās vietas, ERNIE 5.0 un to atbalstošā ekosistēma nodrošina Baidu konkurētspējīgu pozīciju nākamajā AI ieviešanas vilnī.

avots