Bytedance pagājušajā nedēļā izlaida jaunu multimodālu mākslīgā intelekta (AI) modeli. Dublēts Bagel, tas ir vizuālās valodas modelis (VLM), kas spēj saprast, ģenerēt un rediģēt attēlus. Pekinas bāzētais tehnoloģiju gigants ir atvērts AI modelī, un to ir iespējams lejupielādēt, izmantojot tādas populāras AI krātuves, piemēram, Github un Hugging Face. Uzņēmums apgalvo, ka Bagel ir spējīgs brīvi veidot vizuālas manipulācijas, multiview sintēzi un pasaules navigāciju, kas padara to spējīgāku attēlu rediģēšanā, salīdzinot ar esošajiem atvērtā koda VLM.
Bydedance’s Bagel pārspēj Gemini-2-EXP attēla rediģēšanā
Github saraksts lappuse Izdzēš vairāk gaismas Bydedance Bagel AI modelim, ieskaitot tā svaru un datu kopas. Tomēr uzņēmums nesniedza sīkāku informāciju par pēc apmācības procesiem vai modeļa arhitektūru. Pašlaik tā ir pieejama ar pieļaujamu Apache 2.0 licenci, kas ļauj izmantot gan akadēmisko, gan komerciālo izmantošanu.
Bagel ir multimodāls AI modelis, kas kā ievadi pieņem gan tekstu, gan attēlus. Atvērtā koda VLM kopumā ir 14 miljardi parametru, no kuriem septiņi miljardi vienlaikus paliek aktīvi. Bytedance apgalvo, ka modelis tika apmācīts uz liela mēroga savstarpēji saistītiem multimodāliem datiem. Tas nozīmē, ka, barojot AI sistēmu, tika apvienoti dažādi datu veidi, piemēram, teksts un attēli. Rezultātā modelis, kas kopīgi apgūts no abām kārtībām, nevis atsevišķi.
Šī metode ļauj pamatu modeļiem iegūt kontekstu starp dažādām kārtībām. Piemēram, ja Bagel tiktu baroti ar attēliem un to parakstiem, tas labāk spētu saprast, ko teksts precīzi attēlo vizuālajā vidē. Tas radītu efektīvāku izlaidi, atbilstoši uzņēmumam.
Bytedance arī apgalvo, ka AI modelim ir labākas attēla rediģēšanas iespējas, salīdzinot ar esošajiem atvērtā koda VLM. Tas var veikt sarežģītus uzdevumus, piemēram, emociju pievienošanu attēlam, noņemt, aizstāt vai pievienot elementus, stila pārsūtīšanu, kā arī brīvas formas rediģēšanas veikšanu. Uzņēmums apgalvo, ka ar šo spēju Bagel spēj nodrošināt ievērojami lielāku izlaidi pasaules modelē.
Pasaules modelis attiecas uz AI sistēmas iekšējo izpratni par to, kā reālā pasaule darbojas vizuāli. Tas ietvertu saistību starp dažādiem objektiem, fizisko kontekstu un tādu fizisko faktoru kā gaismas, vēja, lietus un smaguma ietekmi.
Balstoties uz iekšējo pārbaudi, bytedance apgalvo, ka Bagela spēja pārspēt QWEN2.5-VL-7B, līdzīga izmēra modeli, attēla izpratnē. Tiek arī teikts, ka tas ir augstāks par attēlu ģenerēšanas etaloniem nekā Janus-Professional-7b un Flux-1-dev. Turklāt tiek teikts, ka tas arī pārspēj Gemini-2-EXP uz Gedit-Bench attēlu rediģēšanai.
Tie, kas vēlas izmēģināt AI modeli, vietēji nevadot, var doties uz sejas apskaušanu, kur Bydedance ir izveidojis uz mākoņa bāzes saskarne Lai pārbaudītu tā attēlu analīzi, ģenerēšanu un rediģēšanu.