Meta tikko izlaidusi jaunu daudzvalodu automātiskās runas atpazīšanas (ASR) sistēma atbalsta vairāk nekā 1600 valodu — tas ir mazāks par OpenAI atvērtā pirmkoda Whisper modeli, kas atbalsta tikai 99 valodas.
Vai arhitektūra arī ļauj izstrādātājiem paplašināt šo atbalstu tūkstošiem citu. Izmantojot funkciju, ko sauc par zero-shot in-context studying, lietotāji var sniegt dažus sapārotus audio un teksta piemērus jaunā valodā secinājumu izdarīšanas laikā, ļaujot modelim pārrakstīt papildu izteikumus šajā valodā bez pārmācības.
Praksē tas paplašina iespējamo pārklājumu līdz vairāk nekā 5400 valodām — aptuveni katrai runātajai valodai ar zināmu rakstību.
Tā ir pāreja no statiskā modeļa iespējām uz elastīgu sistēmu, ko kopienas var pielāgot pašas. Tātad, lai gan 1600 valodas atspoguļo oficiālo apmācību aptvērumu, plašāks skaitlis atspoguļo Omnilingual ASR spēju vispārināt pēc pieprasījuma, padarot to par visplašāko līdz šim izlaisto runas atpazīšanas sistēmu.
Pats labākais: tas ir bijis atvērtā koda avots vienkārša Apache 2.0 licence — nav ierobežojoša, gandrīz atvērtā pirmkoda Llama licence, piemēram, uzņēmuma iepriekšējie laidieni, kuru izmantošanu lielāki uzņēmumi ierobežoja, ja vien tie nav maksājuši licencēšanas maksu, — tas nozīmē, ka pētnieki un izstrādātāji var brīvi pieņemt un ieviest to uzreiz, bez maksas, bez ierobežojumiem, pat komerciālos un uzņēmuma līmeņa projektos!
Publicēts 10. novembrī Meta vietne, Githubkopā ar a demonstrācijas vieta vietnē Hugging Face un tehniskais papīrsMeta Omnilingual ASR komplektā ietilpst runas atpazīšanas modeļu saime, 7 miljardu parametru daudzvalodu audio attēlojuma modelis un masīvs runas korpuss, kas aptver vairāk nekā 350 iepriekš nepietiekami apkalpotas valodas.
Visi resursi ir brīvi pieejami saskaņā ar atvērtajām licencēm, un modeļi atbalsta transkripciju no runas uz tekstu.
“Izmantojot šos modeļus un datu kopu atklātā avotā, mēs cenšamies nojaukt valodas barjeras, paplašināt digitālo piekļuvi un dot iespējas kopienām visā pasaulē,” savā vietnē publicēja Meta. @AIatMeta konts vietnē X
Paredzēts transkripcijai no runas tekstā
Omnilingual ASR pamatā ir runas pārveidošanas sistēma.
Modeļi ir apmācīti pārvērst runāto valodu rakstītā tekstā, atbalstot tādas lietojumprogrammas kā balss palīgi, transkripcijas rīki, subtitri, mutvārdu arhīva digitalizācija un pieejamības līdzekļi valodām, kurās ir maz resursu.
Atšķirībā no iepriekšējiem ASR modeļiem, kuriem bija nepieciešami plaši marķēti apmācības dati, Omnilingual ASR ietver nulles kadru variantu.
Šī versija var transkribēt valodas, kuras tā vēl nekad nav redzējusi, izmantojot tikai dažus audio un atbilstošā teksta piemērus.
Tas ievērojami samazina barjeru jaunu vai apdraudētu valodu pievienošanai, novēršot nepieciešamību pēc lieliem korpusiem vai pārkvalificēšanās.
Modeļu saime un tehniskais dizains
Omnilingual ASR komplektā ir iekļautas vairākas modeļu saimes, kas apmācītas vairāk nekā 4,3 miljonu stundu audio atskaņošanai no 1600+ valodām:
-
wav2vec 2.0 modeļi pašpārraudzītai runas attēlojuma apguvei (300 M–7 B parametri)
-
Uz CTC balstīti ASR modeļi efektīvai uzraudzītai transkripcijai
-
LLM-ASR modeļi, kas apvieno runas kodētāju ar transformatora bāzes teksta dekodētāju mūsdienīgai transkripcijai
-
LLM-ZeroShot ASR modelis, kas ļauj izdarīt secinājumus un pielāgoties neredzētām valodām
Visos modeļos tiek izmantots kodētāja-dekodētāja dizains: neapstrādāts audio tiek pārveidots valodas agnostiskā attēlojumā, pēc tam dekodēts rakstītā tekstā.
Kāpēc mērogam ir nozīme
Lai gan Whisper un līdzīgiem modeļiem ir uzlabotas ASR iespējas globālām valodām, tie neatbilst cilvēku valodu daudzveidības garajai astei. Whisper atbalsta 99 valodas. Meta sistēma:
-
Tieši atbalsta 1600+ valodas
-
Var vispārināt līdz 5400+ valodām, izmantojot konteksta mācīšanos
-
Sasniedz rakstzīmju kļūdu līmeni (CER) zem 10% 78% atbalstīto valodu
Saskaņā ar Meta pētniecisko darbu, atbalstīto valodu vidū ir vairāk nekā 500 valodu, kuras nekad iepriekš neaptvēra neviens ASR modelis.
Šī paplašināšanās paver jaunas iespējas kopienām, kuru valodas bieži tiek izslēgtas no digitālajiem rīkiem
Šeit ir pārskatīta un paplašināta fona sadaļa, kurā ir integrēts plašāks Meta 2025. gada AI stratēģijas konteksts, vadības izmaiņas un Llama 4 uztvere, kā arī tekstā ietverti citāti un saites:
Priekšvēsture: Meta AI kapitālais remonts un atlēciens no Llama 4
Omnilingual ASR izlaišana notiek Meta AI stratēģijas izšķirošajā brīdī pēc gada, ko raksturo organizatoriskas satricinājumi, vadības izmaiņas un nevienmērīga produktu izpilde.
Omnilingual ASR ir pirmais lielais atvērtā pirmkoda modeļa laidiens kopš Llama 4, Meta jaunākā lielā valodas modeļa izlaišanas, kas debitēja 2025. gada aprīlī uz jauktām un galu galā vājām atsauksmēm, ar niecīgu uzņēmumu pielāgošanu salīdzinājumā ar Ķīnas atvērtā pirmkoda modeļu konkurentiem.
Neveiksmes dēļ Meta dibinātājs un izpilddirektors Marks Cukerbergs iecēla Aleksandru Vangu, AI datu piegādātāja Scale AI līdzdibinātāju un iepriekšējo izpilddirektoru. kā galvenais AI virsnieksun sāciet plašas un dārgas darbā pieņemšanas iespējas kas šokēja AI un biznesa kopienas aizraujošas atalgojuma paketes labākajiem AI pētniekiem.
Turpretim Omnilingual ASR ir stratēģiska un reputācijas atiestatīšana. Tas atgriež Meta domēnā, kurā uzņēmums vēsturiski ir bijis vadošais — daudzvalodu AI — un piedāvā patiesi paplašināmu, uz kopienu orientētu kopumu ar minimāliem ienākšanas šķēršļiem.
Sistēmas atbalsts vairāk nekā 1600 valodām un tās paplašināšana līdz vairāk nekā 5000 valodām, izmantojot zero-shot konteksta mācīšanos, vēlreiz apstiprina Meta inženiertehnisko uzticamību valodu tehnoloģijā.
Svarīgi ir tas, ka tas tiek darīts, izmantojot bezmaksas un atļauti licencētu versiju Apache 2.0, izmantojot caurspīdīgu datu kopu ieguvi un reproducējamus apmācības protokolus.
Šī maiņa atbilst plašākām tēmām Meta 2025. gada stratēģijā. Uzņēmums ir pārorientējis savu stāstījumu uz “personīgā superinteliģences” vīziju, ieguldot lielus ieguldījumus infrastruktūrā (tostarp septembra izlaidumā pielāgotus AI paātrinātājus un Arm-based secinājumus). avots vienlaikus samazinot metaversu par labu pamata AI iespējām. Atgriešanās pie publiskiem apmācību datiem Eiropā pēc regulatīvās pauzes arī uzsver tās nodomu konkurēt globāli, neskatoties uz privātuma pārbaudi. avots.
Tādā veidā daudzvalodu ASR ir kas vairāk nekā modeļa izlaidums — tas ir apzināts solis, lai no jauna nostiprinātu stāstījuma kontroli: no Llama 4 sadrumstalotas ieviešanas līdz lietderīgam, uz pētījumiem balstītam ieguldījumam, kas atbilst Meta ilgtermiņa AI platformas stratēģijai.
Uz sabiedrību centrēta datu kopu kolekcija
Lai sasniegtu šo mērogu, Meta sadarbojās ar pētniekiem un kopienas organizācijām Āfrikā, Āzijā un citur, lai izveidotu Omnilingual ASR Corpus — 3350 stundu datu kopu 348 zemu resursu valodās. Līdzstrādnieki saņēma atlīdzību vietējiem runātājiem, un ieraksti tika apkopoti sadarbībā ar grupām, piemēram:
-
Āfrikas nākamās balsis: Geitsa fonda atbalstīts konsorcijs, tostarp Maseno universitāte (Kenija), Pretorijas Universitāte un Datu zinātnes Nigērija
-
Mozilla Basis kopējā balssko atbalsta Open Multilingual Speech Fund
-
Lanfrica / NaijaVoiceskas izveidoja datus 11 Āfrikas valodām, tostarp Igala, Serer un Urhobo
Datu vākšana koncentrējās uz dabisku, nerakstītu runu. Uzvednes tika izstrādātas tā, lai tās būtu kultūras ziņā atbilstošas un atvērtas, piemēram, “Vai labāk ir daži tuvi draugi vai daudz gadījuma paziņu? Kāpēc?” Transkripcijās tika izmantotas izveidotas rakstīšanas sistēmas ar kvalitātes nodrošināšanu, kas iebūvēta katrā solī.
Veiktspējas un aparatūras apsvērumi
Lielākajam komplekta modelim omniASR_LLM_7B ir nepieciešami aptuveni 17 GB GPU atmiņas, lai izdarītu secinājumus, tāpēc tas ir piemērots izvietošanai augstākās klases aparatūrā. Mazāki modeļi (300 M–1 B) var darboties ar mazākas jaudas ierīcēm un nodrošināt reāllaika transkripcijas ātrumu.
Veiktspējas etaloni uzrāda spēcīgus rezultātus pat zemu resursu scenārijos.
-
CER <10% 95% augsta resursa un vidēja resursa valodu
-
SER <10% 36% valodu ar zemu resursu daudzumu
-
Izturība trokšņainos apstākļos un neredzētās jomās, īpaši ar precizēšanu
Nulles kadru sistēma omniASR_LLM_7B_ZS var pārrakstīt jaunas valodas ar minimālu iestatīšanu. Lietotāji nodrošina dažus audio un teksta pāru paraugus, un modelis ģenerē transkripcijas jauniem izteikumiem tajā pašā valodā.
Atvērtā piekļuve un izstrādātāja rīki
Visi modeļi un datu kopa ir licencēti saskaņā ar pieļaujamiem noteikumiem:
-
Apache 2.0 modeļiem un kodam
-
CC-BY 4.0 priekš Daudzvalodu ASR korpuss uz HuggingFace
Instalēšana tiek atbalstīta, izmantojot PyPI un UV:
pip set up omnilingual-asr
Meta nodrošina arī:
-
HuggingFace datu kopas integrācija
-
Iepriekš izbūvēti secinājumu cauruļvadi
-
Valodas koda kondicionēšana uzlabotai precizitātei
Izstrādātāji var skatīt pilnu atbalstīto valodu sarakstu, izmantojot API:
from omnilingual_asr.fashions.wav2vec2_llama.lang_ids import supported_langs
print(len(supported_langs))
print(supported_langs)
Plašākas sekas
Daudzvalodu ASR pārveido valodas pārklājumu ASR no fiksēta saraksta uz an paplašināms karkass. Tas nodrošina:
-
Sabiedrības virzīta nepietiekami pārstāvētu valodu iekļaušana
-
Digitālā piekļuve mutvārdu un apdraudētām valodām
-
Runas tehnoloģiju pētījumi lingvistiski dažādos kontekstos
Būtiski, ka Meta visā pasaulē uzsver ētiskus apsvērumus — iestājas par atvērtā koda līdzdalību un sadarbību ar kopienām, kurās runā dzimtā valoda.
“Neviens modelis nekad nevar paredzēt un iekļaut visas pasaules valodas iepriekš,” teikts Omnilingual ASR dokumentā, “wager Omnilingual ASR ļauj kopienām paplašināt atpazīšanu ar saviem datiem.”
Piekļūstiet rīkiem
Visi resursi tagad ir pieejami:
-
Kods + modeļi: github.com/facebookresearch/omnilingual-asr
-
Datu kopa: huggingface.co/datasets/facebook/omnilingual-asr-corpus
-
Emuāra ieraksts: ai.meta.com/blog/omnilingual-asr
Ko tas nozīmē uzņēmumiem
Uzņēmumu izstrādātājiem, jo īpaši tiem, kas darbojas daudzvalodu vai starptautiskos tirgos, Omnilingual ASR ievērojami samazina barjeru runas pārveidošanas tekstam sistēmu izvietošanai plašākā klientu lokā un ģeogrāfiskajās vietās.
Tā vietā, lai paļautos uz komerciālām ASR API, kas atbalsta tikai šauru augsta resursa valodu kopumu, komandas tagad var integrēt atvērtā pirmkoda konveijeru, kas aptver vairāk nekā 1600 valodu, izmantojot iespēju to paplašināt, iekļaujot vēl tūkstošiem valodu.
Šī elastība ir īpaši vērtīga uzņēmumiem, kas strādā tādās nozarēs kā klientu atbalsts ar balsi, transkripcijas pakalpojumi, pieejamība, izglītība vai pilsoniskās tehnoloģijas, kur vietējās valodas pārklājums var būt konkurences vai regulējuma nepieciešamība. Tā kā modeļi tiek izlaisti saskaņā ar pieļaujamo Apache 2.0 licenci, uzņēmumi var precizēt, izvietot vai integrēt tos patentētās sistēmās bez ierobežojošiem noteikumiem.
Tas arī atspoguļo pāreju ASR ainavā — no centralizētiem, mākoņdatošanas piedāvājumiem uz kopienas paplašināmu infrastruktūru. Padarot daudzvalodu runas atpazīšanu pieejamāku, pielāgojamāku un rentablāku, Omnilingual ASR paver durvis uz jaunas paaudzes uzņēmuma runas lietojumprogrammām, kuru pamatā ir lingvistiska iekļaušana, nevis valodas ierobežojumi.













