Home Tehnoloģija Pasaulē lielākā atvērtā koda multimodālā datu kopa nodrošina 17 reizes lielāku apmācības efektivitāti,...

Pasaulē lielākā atvērtā koda multimodālā datu kopa nodrošina 17 reizes lielāku apmācības efektivitāti, atbloķējot uzņēmuma AI, kas savieno dokumentus, audio un video

13
0

AI modeļi ir tik labi, cik tie ir apmācīti dati. Šie dati parasti ir jāmarķē, jāapkopo un jākārto, lai modeļi varētu efektīvi mācīties no tiem.

Viens no lielākajiem trūkstošajiem posmiem AI ekosistēmā ir lielas augstas kvalitātes atvērtā koda multimodālās datu kopas pieejamība. Tas mainās šodien, kad tiek ieviesta EMM-1 datu kopa, kas sastāv no 1 miljarda datu pāru un 100 miljoniem datu grupu 5 modalitātēs: teksta, attēla, video, audio un 3D punktu mākoņos. Multimodālās datu kopas apvieno dažāda veida datus, ko AI sistēmas var apstrādāt kopā. Tas atspoguļo to, kā cilvēki uztver pasauli, izmantojot vairākas maņas vienlaikus. Šīs datu kopas ļauj AI sistēmām izdarīt bagātīgākus secinājumus, izprotot attiecības starp datu veidiem, nevis apstrādājot katru modalitāti atsevišķi.

EMM-1 izstrādāja datu marķēšana platformas pārdevējs Ieskaņot. Uzņēmuma platforma ļauj komandām atlasīt, marķēt un pārvaldīt apmācību datus plašā mērogā, izmantojot gan automatizētas, gan cilvēka cilpas darbplūsmas. Līdztekus jaunajam modelim Encord izstrādāja EBind apmācības metodoloģiju, kas par prioritāti nosaka datu kvalitāti, nevis neapstrādātu skaitļošanas mērogu. Šī pieeja ļāva kompaktam 1,8 miljardu parametru modelim pielāgoties līdz pat 17 reizēm lielāku modeļu veiktspējai, vienlaikus samazinot apmācības laiku no dienām uz stundām vienā GPU, nevis GPU klasteros.

"Mūsu lielais triks bija koncentrēties uz datiem un padarīt datus ļoti, ļoti kvalitatīvus," Encord līdzdibinātājs un izpilddirektors Ēriks Landau pastāstīja VentureBeat ekskluzīvā intervijā. "Mēs varējām sasniegt tādu pašu veiktspējas līmeni kā 20 reizes lielāki modeļi, nevis tāpēc, ka bijām īpaši gudri arhitektūrā, wager gan tāpēc, ka mēs to apmācījām ar patiešām labiem datiem."

Datu kvalitātes priekšrocība

Saskaņā ar Landau teikto, Encord datu kopa ir 100 reizes lielāka nekā nākamā salīdzināmā multimodālā datu kopa. Tas darbojas petabaitu mērogā ar terabaitiem neapstrādātu datu un vairāk nekā 1 miljonu cilvēku anotāciju.

Taču mērogs vien neizskaidro veiktspējas pieaugumu. Tehniskās inovācijas koncentrējas uz to, ko Landau sauc par "nenovērtēts" problēma AI apmācībā: datu noplūde starp apmācību un novērtēšanas kopām.

"Noplūdes problēma bija problēma, kurai mēs veltījām daudz laika," Landau paskaidroja. "Daudzās datu kopās ir sava veida noplūde starp dažādām datu apakškopām. Noplūde faktiski uzlabo jūsu rezultātus. Tas liek jūsu vērtējumiem izskatīties labāk. Guess tā ir viena lieta, par kuru mēs bijām diezgan cītīgi."

Datu noplūde rodas, ja informācija no testa datiem netīšām parādās apmācības datos, mākslīgi palielinot modeļa veiktspējas rādītājus. Daudzas etalondatu kopas cieš no šī piesārņojuma. Encord izvietotās hierarhiskās klasterizācijas metodes, lai nodrošinātu tīru atdalīšanu, vienlaikus saglabājot reprezentatīvu sadalījumu starp datu veidiem. Uzņēmums arī izmantoja klasterus, lai novērstu neobjektivitāti un nodrošinātu daudzveidīgu pārstāvību.

Kā EBind palielina efektivitāti

Datu kvalitātes uzlabojumi darbojas vienlaikus ar arhitektūras pieeju, kas paredzēta efektivitātei

Encord EBind paplašina CLIP (kontrastīvās valodas attēla pirmsapmācības) pieeju (sākotnēji izstrādāja OpenAI) no divām modalitātēm līdz piecām. CLIP iemācās saistīt attēlus un tekstu kopīgā attēlojuma telpā, ļaujot veikt tādus uzdevumus kā attēlu meklēšana, izmantojot teksta aprakstus.

Ja CLIP mācās saistīt attēlus un tekstu koplietotā latentā telpā, EBind dara to pašu ar attēliem, tekstu, audio, 3D punktu mākoņiem un video.

Arhitektūras izvēle dod priekšroku parametru efektivitātei. Tā vietā, lai katram modalitātes pārim izvietotu atsevišķus specializētus modeļus, EBind izmanto vienu bāzes modeli ar vienu kodētāju katrai modalitātei.

"Citas metodoloģijas, ko viņi dara, ir tas, ka tās izmanto daudz dažādu modeļu, un tās novirza uz labāko modeli šo pāru iegulšanai, tāpēc tām ir tendence eksplodēt parametru skaitā," Landau teica. "Mēs atklājām, ka mēs varētu izmantot vienu bāzes modeli un tikai apmācīt vienu kodētāju katrai modalitātei, tādējādi saglabājot to ļoti vienkāršu un ļoti efektīvu parametru ziņā, ja mēs padotu šo kopējo arhitektūru patiešām, patiešām labus datus."

Iegūtais modelis konkurē OmniBinddaudz lielāks konkurents multimodālajā telpā, taču tam ir nepieciešami ievērojami mazāk skaitļošanas resursu gan apmācībai, gan secinājumiem. Tas padara EBind izvietojamu vidēs, kurās ir ierobežoti resursi, tostarp robotikas un autonomu sistēmu malas ierīces.

Multimodālas datu kopas uzņēmuma vērtība

Multimodālie modeļi nodrošina uzņēmuma lietošanas gadījumus, kas aptver dažādus datu tipus.

Lielākā daļa organizāciju glabā dažādus datu tipus atsevišķās sistēmās: dokumentus satura pārvaldības platformās, audio ierakstus komunikācijas rīkos, mācību video mācību vadības sistēmās un strukturētus datus datubāzēs. Multimodālie modeļi var meklēt un izgūt visus šos vienlaikus.

"Uzņēmumiem ir dažādi datu veidi. Viņiem nav tikai dokumenti. Viņiem ir audio ieraksti un mācību video, un viņiem ir CSV faili," Landau teica. "Pieņemsim, ka esat jurists un jums ir lietas materiāli, kuros ir video pierādījumi, kā arī dokumenti un ieraksti, un tas viss ir izkaisīts pa daudzām datu krātuvēm. Varat izmantot EBind, lai atlasītu visus atbilstošos datus un apvienotu tos, lai meklētu un parādītu pareizos datus daudz ātrāk, nekā to darītu iepriekš."

Tas pats princips attiecas uz vertikālēm. Veselības aprūpes sniedzēji var saistīt pacientu attēlveidošanas datus ar klīniskajām piezīmēm un diagnostikas audio. Finanšu pakalpojumu uzņēmumi var savienot darījumu ierakstus ar atbilstības zvanu ierakstiem un klientu saziņu. Ražošanas darbības var saistīt aprīkojuma sensoru datus ar apkopes video žurnāliem un pārbaudes ziņojumiem.

Papildus biroja videi fiziskais AI ir vēl viena robeža. Landau uzsvēra autonomos transportlīdzekļus, kas gūst labumu gan no vizuālās uztveres, gan no audio signāliem, piemēram, avārijas sirēnām. Ražošanā un noliktavā roboti, kas apvieno vizuālo atpazīšanu ar audio atgriezenisko saiti un telpisko izpratni, var darboties drošāk un efektīvāk nekā tikai redzes sistēmas.

Uzņēmuma lietošanas gadījums: datora redzes paplašināšana ar multimodālu kontekstu

Captur AIEncord klients, ilustrē, kā uzņēmumi plāno izmantot datu kopu konkrētām biznesa lietojumprogrammām. Startēšana nodrošina mobilo lietotņu attēlu pārbaudi ierīcē, reāllaikā apstiprinot fotoattēlu autentiskumu, atbilstību un kvalitāti pirms augšupielādes. Uzņēmums sadarbojas ar kopīgiem mobilitātes nodrošinātājiem, piemēram, Lime, un piegādes uzņēmumiem, kas iemūžina miljardus paku fotoattēlu.

Captur AI apstrādā vairāk nekā 100 miljonus attēlu ierīcē un specializējas modeļu destilācijā līdz 6–10 megabaitiem, lai tie varētu darboties viedtālruņos bez mākoņa savienojuma. Taču izpilddirektore Šarlote Beksa uzskata, ka multimodālās iespējas ir ļoti svarīgas, lai paplašinātu to izmantošanas gadījumos ar lielāku vērtību.

"Tirgus mums ir milzīgs. Jūs iesniedzat fotogrāfijas atgriešanai un mazumtirdzniecībai. Jūs iesniedzat fotogrāfijas apdrošināšanas kompānijām atlīdzību pieprasīšanai. Jūs iesniedzat fotoattēlus, kad kaut ko ievietojat sarakstā eBay," Bakss pastāstīja VentureBeat ekskluzīvā intervijā. "Daži no šiem lietošanas gadījumiem ir ļoti augsta riska vai vērtīgi, ja kaut kas noiet greizi, piemēram, apdrošināšana, attēls tver tikai daļu no konteksta, un audio var būt svarīgs signāls."

Bakss kā izcilu piemēru minēja digitālās transportlīdzekļu pārbaudes. Kad klienti fotografē transportlīdzekļa bojājumus apdrošināšanas atlīdzību saņemšanai, viņi bieži apraksta notikušo mutiski, uzņemot attēlus. Audio konteksts var ievērojami uzlabot pretenziju precizitāti un samazināt krāpšanu.

"To darot, klients bieži apraksta notikušo," Slikti teica. "Daži no mūsu potenciālajiem klientiem InsurTech ir jautājuši mums, vai mēs tiešām varam veikt arī audio, jo tas lietotājam, kurš iesniedz prasību, pievieno papildu kontekstu."

Izaicinājums slēpjas Captur AI galvenās priekšrocības saglabāšanā: modeļu efektīva darbība ierīcē, nevis mākoņa apstrāde. Uzņēmums plāno izmantot Encord datu kopu, lai apmācītu kompaktus multimodālus modeļus, kas saglabā reāllaika bezsaistes iespējas, vienlaikus pievienojot audio un secīgu attēlu kontekstu.

"Vissvarīgākais, ko varat darīt, ir mēģināt iegūt pēc iespējas vairāk konteksta," Bakss teica. "Vai varat panākt, lai LLM būtu pietiekami mazi, lai tie darbotos ierīcē nākamo trīs gadu laikā, vai arī varat ierīcē darbināt multimodālos modeļus? Datu kvalitātes noteikšana pirms attēla augšupielādes ir interesanta robeža."

Ko tas nozīmē uzņēmumiem

Encord rezultāti apstrīd fundamentālos pieņēmumus par AI attīstību un liek domāt, ka nākamais konkurences kaujas lauks varētu būt datu darbības, nevis infrastruktūras mērogs.

Multimodālās datu kopas paver jaunas iespējas. Iespēja apmācīt modeļus, kas izprot attiecības starp datu tipiem, paver lietošanas gadījumus, kurus nevar risināt vienas modalitātes sistēmas.

Datu operācijas ir pelnījušas līdzvērtīgas investīcijas ar skaitļošanas infrastruktūru. 17 x parametru efektivitātes pieaugums, ko nodrošina labāka datu pārvaldīšana, ir izmaksu ietaupījuma lieluma pakāpe. Organizācijas, kas iepludina resursus GPU klasteros, vienlaikus uzskatot datu kvalitāti par pārdomām, iespējams, optimizē nepareizo mainīgo.

Uzņēmumiem, kas veido multimodālas AI sistēmas, Landau novērtējums atspoguļo stratēģiskās pārmaiņas.

"Mēs varējām sasniegt tādu pašu veiktspējas līmeni kā modeļi, kas ir daudz lielāki, nevis tāpēc, ka bijām īpaši gudri arhitektūrā, wager gan tāpēc, ka mēs to apmācījām ar ļoti labiem datiem kopumā." viņš teica.

avots