Home Tehnoloģija Bytedance atklāj Bagel atvērtā pirmkoda multimodāla AI modeli ar atbalstu attēlu ģenerēšanai,...

Tehnoloģija

Bytedance atklāj Bagel atvērtā pirmkoda multimodāla AI modeli ar atbalstu attēlu ģenerēšanai, rediģēšanai

2 jūnijs 2025

Bytedance pagājušajā nedēļā izlaida jaunu multimodālu mākslīgā intelekta (AI) modeli. Dublēts Bagel, tas ir vizuālās valodas modelis (VLM), kas spēj saprast, ģenerēt un rediģēt attēlus. Pekinas bāzētais tehnoloģiju gigants ir atvērts AI modelī, un to ir iespējams lejupielādēt, izmantojot tādas populāras AI krātuves, piemēram, Github un Hugging Face. Uzņēmums apgalvo, ka Bagel ir spējīgs brīvi veidot vizuālas manipulācijas, multiview sintēzi un pasaules navigāciju, kas padara to spējīgāku attēlu rediģēšanā, salīdzinot ar esošajiem atvērtā koda VLM.

Bydedance’s Bagel pārspēj Gemini-2-EXP attēla rediģēšanā

Github saraksts lappuse Izdzēš vairāk gaismas Bydedance Bagel AI modelim, ieskaitot tā svaru un datu kopas. Tomēr uzņēmums nesniedza sīkāku informāciju par pēc apmācības procesiem vai modeļa arhitektūru. Pašlaik tā ir pieejama ar pieļaujamu Apache 2.0 licenci, kas ļauj izmantot gan akadēmisko, gan komerciālo izmantošanu.

Bagel ir multimodāls AI modelis, kas kā ievadi pieņem gan tekstu, gan attēlus. Atvērtā koda VLM kopumā ir 14 miljardi parametru, no kuriem septiņi miljardi vienlaikus paliek aktīvi. Bytedance apgalvo, ka modelis tika apmācīts uz liela mēroga savstarpēji saistītiem multimodāliem datiem. Tas nozīmē, ka, barojot AI sistēmu, tika apvienoti dažādi datu veidi, piemēram, teksts un attēli. Rezultātā modelis, kas kopīgi apgūts no abām kārtībām, nevis atsevišķi.

Šī metode ļauj pamatu modeļiem iegūt kontekstu starp dažādām kārtībām. Piemēram, ja Bagel tiktu baroti ar attēliem un to parakstiem, tas labāk spētu saprast, ko teksts precīzi attēlo vizuālajā vidē. Tas radītu efektīvāku izlaidi, atbilstoši uzņēmumam.

Bytedance arī apgalvo, ka AI modelim ir labākas attēla rediģēšanas iespējas, salīdzinot ar esošajiem atvērtā koda VLM. Tas var veikt sarežģītus uzdevumus, piemēram, emociju pievienošanu attēlam, noņemt, aizstāt vai pievienot elementus, stila pārsūtīšanu, kā arī brīvas formas rediģēšanas veikšanu. Uzņēmums apgalvo, ka ar šo spēju Bagel spēj nodrošināt ievērojami lielāku izlaidi pasaules modelē.

Pasaules modelis attiecas uz AI sistēmas iekšējo izpratni par to, kā reālā pasaule darbojas vizuāli. Tas ietvertu saistību starp dažādiem objektiem, fizisko kontekstu un tādu fizisko faktoru kā gaismas, vēja, lietus un smaguma ietekmi.

Balstoties uz iekšējo pārbaudi, bytedance apgalvo, ka Bagela spēja pārspēt QWEN2.5-VL-7B, līdzīga izmēra modeli, attēla izpratnē. Tiek arī teikts, ka tas ir augstāks par attēlu ģenerēšanas etaloniem nekā Janus-Professional-7b un Flux-1-dev. Turklāt tiek teikts, ka tas arī pārspēj Gemini-2-EXP uz Gedit-Bench attēlu rediģēšanai.

Tie, kas vēlas izmēģināt AI modeli, vietēji nevadot, var doties uz sejas apskaušanu, kur Bydedance ir izveidojis uz mākoņa bāzes saskarne Lai pārbaudītu tā attēlu analīzi, ģenerēšanu un rediģēšanu.

avots

Bytedance atklāj Bagel atvērtā pirmkoda multimodāla AI modeli ar atbalstu attēlu ģenerēšanai, rediģēšanai

Bydedance’s Bagel pārspēj Gemini-2-EXP attēla rediģēšanā

jaunākais ieraksts

Mičs Marners tirdzniecības lapas kļavu lapu sapņo ar rūgtu pēcgaršu

‘America Get together’: Elons Musks brīdina likumdevējus pret Donalda Trumpa “lielo,...

Vai Orlando Blūms tērzēja Leonardo DiCaprio draudzene Vittoria Ceretti Venēcijā? Šeit...

Mandala slepkavo OTT izlaišanas datumu: kad un kur to skatīties tiešsaistē?

Austrumu krasta skrejlapas saskaras ar ceļojuma murgu pēc laika dzirksteļu kavēšanās...

Kaylee Goncalves ģimene rips prokurorus par Braienu Kohbergera pamata darījumu

Apple plāno mainīt iPhone 17 Professional logotipa izvietojumu

Ķīnas jūnija rūpnīcas darbība negaidīti paplašinās, liecina privātā aptauja

Savanna Krislija runā par potenciālo nākotni politikā

Pat MAGA ir sadusmots par Tech Bros sapni par buldozēšanu federālajām...