Vai vēlaties gudrāku ieskatu iesūtnē? Reģistrējieties mūsu iknedēļas biļeteniem, lai iegūtu tikai to, kas ir svarīgi uzņēmuma AI, datu un drošības vadītājiem. Abonēt tūlīt
Dziļo pētījumu pazīmju pieaugums un cita AI darbināma analīze ir radījusi vairāk modeļu un pakalpojumu, kas vēlas vienkāršot šo procesu un lasīt vairāk dokumentu, ko uzņēmumi faktiski izmanto.
Kanādas AI uzņēmums Būtībā ir banku darbība ar saviem modeļiem, ieskaitot nesen izlaisto vizuālo modeli, lai uzskatītu, ka uzņēmuma lietošanas gadījumiem būtu jāoptimizē arī dziļo pētījumu funkcijas.
Uzņēmums ir izlaidis Command Augion, vizuālā modeli, kas īpaši vērsts uz uzņēmuma lietošanas gadījumiem, kas balstīts uz tā komandas aizmuguri. 112 miljardu parametru modelis var “atbloķēt vērtīgu ieskatu no vizuālajiem datiem un pieņemt ļoti precīzus, uz datiem balstītus lēmumus, izmantojot dokumentu optisko rakstzīmju atpazīšanu (OCR) un attēlu analīzi”, saka uzņēmums.
“Neatkarīgi no tā, vai tā interpretē produktu rokasgrāmatas ar sarežģītām diagrammām, vai analizējot reālās pasaules ainu fotogrāfijas riska noteikšanai, pavēle, ka redzējums izceļas ar visprasīgākajiem uzņēmuma redzējuma izaicinājumiem,” sacīja uzņēmums emuāra ierakstāApvidū
AI trieciena sērija atgriežas Sanfrancisko – 5. augusts
Nākamais AI posms ir šeit – vai esat gatavs? Pievienojieties līderiem no Block, GSK un SAP, lai apskatītu, kā autonomi aģenti pārveido uzņēmumu darbplūsmas-no reālā laika lēmumu pieņemšanas līdz automatizācijai galīgai līdz galam.
Nostipriniet savu vietu tūlīt – telpa ir ierobežota:
Tas nozīmē, ka pavēle Vīzija var lasīt un analizēt visizplatītākos attēlu veidus, kas nepieciešami uzņēmumiem: grafiki, diagrammas, diagrammas, skenētie dokumenti un PDF.
Tā kā tā ir veidota uz Command A arhitektūru, komandai Vīzijai nepieciešami divi vai mazāk GPU, tāpat kā teksta modelim. Vīzijas modelis saglabā arī komandas A teksta iespējas, lai lasītu vārdus par attēliem un saprot vismaz 23 valodas. Cohere teica, ka atšķirībā no citiem modeļiem pavēle redze samazina uzņēmumu īpašumtiesību kopējās izmaksas un ir pilnībā optimizēta uzņēmumu izguves lietošanas gadījumiem.
Kā Cohere ir arhitektūras komanda a
Cohere teica, ka seko a Llavas arhitektūra Lai izveidotu savu komandu modeļus, ieskaitot vizuālo modeli. Šī arhitektūra vizuālās iezīmes pārvērš par mīksto redzes marķieriem, kurus var iedalīt dažādās flīzēs.
Šīs flīzes tiek nodotas komandā teksta tornī “blīvs, 111b parametri tekstuāli LLM”, sacīja uzņēmums. “Tādā veidā viens attēls patērē līdz 3 328 žetoniem.”
Cohere sacīja, ka tas apmācīja vizuālo modeli trīs posmos: redzes valodas izlīdzināšana, uzraudzīta precizēšana (SFT) un pēc apmācības pastiprināšanas mācīšanās ar cilvēku atgriezenisko saiti (RLHF).
“Šī pieeja ļauj kartēt attēlu kodētāja funkcijas valodas modelim, kas iegulda vietu,” sacīja uzņēmums. “Turpretī SFT stadijā mēs vienlaikus apmācījām redzes kodētāju, redzes adapteri un valodas modeli uz daudzveidīga instrukciju sekojošo multimodālo uzdevumu kopuma.”
Uzņēmuma AI vizualizēšana
Etalona testi parādīja komandu redze, kas pārspēj citus modeļus ar līdzīgām vizuālām iespējām.
Līdzdalīgā pavēlēja vīzija pret Openai‘S GPT 4.1, Meta‘S LLAMA 4 Maverick, Mistrāls‘Pixstral lielais un mistral Medder 3 deviņos etalona testos. Uzņēmums neminēja, ja tas pārbaudīja modeli pret Mistral OCR fokusēto API, Mistral OCR.
Komanda redzējums pārspēj citus modeļus tādos testos kā Chartqa, Ocrbench, AI2D un TextVQA. Kopumā Vīzijas pavēlei vidējais rādītājs bija 83,1%, salīdzinot ar GPT 4.1 78,6%, Llama 4 Maverick 80,5% un 78,3% no Mistral Medium 3.
Lielākā daļa lielo valodu modeļu (LLMS) šajās dienās ir multimodāli, kas nozīmē, ka tie var ģenerēt vai saprast vizuālos multivides, piemēram, fotoattēlus vai video. Tomēr uzņēmumi parasti izmanto vairāk grafisku dokumentu, piemēram, diagrammas un PDF, tāpēc informācijas iegūšana no šiem nestrukturētajiem datu avotiem bieži izrādās grūti.
Pieaugot dziļam pētījumam, ir pieaudzis modeļu ieviešana, kas spēj lasīt, analizēt un pat lejupielādēt nestrukturētus datus.
Cohere arī sacīja, ka tā piedāvā komandai redzējumu atklāta svara sistēmā, cerot, ka uzņēmumi, kas vēlas attālināties no slēgtiem vai patentētiem modeļiem, sāks izmantot savus produktus. Pagaidām izstrādātāju interese ir zināma.