Alibaba QWEN komanda pagājušajā nedēļā izlaida jaunu attēlu paaudzes mākslīgā intelekta (AI) modeli. Dublēts Qwen VLO, tas ir QWEN 2.5 redzes valodas modeļa pēctecis, un tam ir vairāki jauninājumi, salīdzinot ar vecākiem modeļiem. Jaunākais AI attēla modelis atbalsta gan tekstu, gan attēla paaudzi. Tas atbalsta arī teksta ievadi vairākās valodās, ieskaitot angļu un ķīniešu valodu. Papildus attēlu ģenerēšanai, AI modelis spēj veikt arī inline rediģēšanu, lai ģenerētos attēlus, kā arī ievades attēlus.
Qwen VLO pieņem uzvednes vairākās valodās
A postenis X (agrāk pazīstams kā Twitter) Qwen komandas oficiālais rokturis paziņoja par jaunā modeļa izlaišanu. Modeļa tehniskais nosaukums ir QWEN3-235B-A22B, un tas šeit ir pieejams uzņēmuma tērzēšanas saskarnē. Lietotāji var arī izmantot modeli, neiesaistoties.
Sīkrīki 360 darbinieki pārbaudīja AI modeli un atrada tā attēlu ģenerēšanas spēju būt līdzvērtīgi Google’s Imageen 2. Nākamā instrukcija un attēla izvades kvalitāte ir nedaudz zemāka nekā Imagen-3 un Openai GPT-4O darbināmā attēlu ģenerēšanas funkcija. Tomēr tā paaudzes laiks ir ātrāks nekā abi, un tam ir augstāks likmes ierobežojums nekā viņiem.
Uz tā github lappuseUzņēmums sacīja, ka QWEN VLO ir uzlabota attēla izpratne, kas ļauj tam veikt labākus labojumus, neiznīcinot ievades attēla strukturālo integritāti. Tas arī uzlabo kopējo izlaides kvalitāti. Modelis arī labāk izprot neskaidras un beztermiņa uzvednes un var ģenerēt attēlus, kas ir saskaņoti ar lietotāju cerībām.
Papildus attēlu ģenerēšanai un rediģēšanai QWEN VLO var arī veikt ar anotāciju saistītus uzdevumus, piemēram, malu noteikšanu, segmentēšanu, prognozēšanas kartēšanu un daudz ko citu. Uzņēmums sacīja, ka turpmākā modeļa versija varēs pieņemt arī vairākus ievades attēlus un apvienot tos, pamatojoties uz lietotāja pieprasījumiem.
Teksta atveidošana ir uzlabota arī ar jaunāko AI attēlu ģeneratoru. Modeļa testēšanā mēs varējām ģenerēt precīzu tekstu dažādos fontos. Visbeidzot, QWEN VLO atbalsta arī attēlus ar dinamiskām malu attiecībām kā ievadi, ieskaitot galējās attiecības, piemēram, 4: 1 un 1: 3. Uzņēmums drīz plāno pievienot funkciju, lai ģenerētu attēlus dažādās malu attiecībās.