Pievienojieties mūsu ikdienas un nedēļas biļeteniem, lai iegūtu jaunākos atjauninājumus un ekskluzīvu saturu par nozares vadošo AI pārklājumu. Uzziniet vairāk
Divu cilvēku startēšana ar vārdu Nari Labs ir ieviesis DIA, 1,6 miljardu parametru teksta-runas (TTS) modeli, kas izstrādāts, lai izveidotu naturālistisku dialogu tieši no teksta uzvednes-un viens no tā veidotājiem apgalvo, ka tas pārspēj konkurējošo patentēto piedāvājuma veiktspēju no līdzīgām vienām vietām, Google Hit NotBooklm AI Podcast paaudzes produkta.
Tas varētu arī apdraudēt Openai neseno GPT-4O-Mini-TTS.
“DIA konkurentu piezīmjdatoru Podcast funkcija, pārspējot Elevenlabs Studio un Sesame atvērto modeli kvalitātē,” sacīja Tobijs Kims, viens no Nari un Dia līdzdibinātājiem, DIA, par viņa konta ziņu sociālajā tīklā X.
A atsevišķs amatsKims atzīmēja, ka modelis tika uzbūvēts ar “nulles finansējumu”, un pievienoja pavedienu: “… Mēs jau no paša sākuma nebijām AI eksperti. Tas viss sākās, kad mēs iemīlējām Notebooklm Podcast funkciju, kad tā tika izlaista pagājušajā gadā. Mēs gribējām vairāk – vairāk kontrolēt balsis, vairāk brīvības scenārijā.
Kims tālāk kreditēja Google par to, ka viņam un viņa līdzstrādniekam ir piekļuve uzņēmuma tensora apstrādes vienības mikroshēmām (TPU), lai apmācītu DIA caur Google pētījumu mākonisApvidū
DIA kods un svari – iekšējā modeļa savienojuma komplekts – tagad ir pieejams lejupielādei un vietējai izvietošanai no ikviena no Apskaužot seju vai GithubApvidū Atsevišķi lietotāji var mēģināt no tā ģenerēt runu Apskaužot seju Telpa.
Uzlabotas vadības ierīces un vairāk pielāgojamas funkcijas
DIA atbalsta niansētas iezīmes, piemēram, emocionālu toni, skaļruņu marķēšanu un neverbālas audio norādes – tas viss ir no vienkārša teksta.
Lietotāji var atzīmēt skaļruņu pagriezienus ar tādām tagiem kā [S1] un [S2]un ietver tādas norādes kā (smiekli), (klepus) vai (notīra rīkli), lai bagātinātu iegūto dialogu ar neverbālu izturēšanos.
Šie tagi tiek pareizi interpretēti ar DIA laikā paaudzes laikā – kaut ko citu, kas nav ticami atbalstīts ar citiem pieejamiem modeļiem, saskaņā ar uzņēmuma piemēru lapu.
Modelis pašlaik ir tikai angļu valodā un nav piesaistīts nevienam skaļruņa balss, ražojot dažādas balsis vienā piegājienā, ja vien lietotāji neizlabo paaudzes sēklu vai nesniedz audio uzvedni. Augšupielādējot klonēšanu, audio kondicionēšana vai balss klonēšana ļauj lietotājiem vadīt runas toni un balss līdzību.
Nari Labs piedāvā koda piemēru, lai atvieglotu šo procesu un Demonstrāciju uz Gradio, lai lietotāji to varētu izmēģināt bez iestatīšanas.
Salīdzinājums ar Elevenlabs un Sesame
Nari piedāvājumi Audio failu piemēru saimnieks Ģenerēts DIA savā jēdziena vietnē, salīdzinot to ar citiem vadošajiem konkurentiem runas un teksta konkurentiem, īpaši viennopoļu studija un sezama CSM-1B, pēdējais ir jauns Teksta-runas modelis no Oculus VR austiņu līdzdibinātāja Brendan Iribe Šī gada sākumā X bija nedaudz vīrusu.
NARI laboratorijas kopīgie piemēri parāda, kā Dia pārspēj konkurenci vairākās jomās:
Standarta dialoga scenārijos DIA labāk apstrādā gan dabisko laiku, gan neverbālās izpausmes. Piemēram, scenārijā, kas beidzas ar (smiekli), DIA interpretē un sniedz faktiskus smieklus, turpretī vienreizēji un sezama izvades tekstuāli aizvietojumi, piemēram, “haha”.
Piemēram, šeit ir dia …
… Un tas pats teikums, ko runā Sitevenlabs Studio
Vairāku pagriezienu sarunās ar emocionālo diapazonu DIA demonstrē vienmērīgākas pārejas un toņu maiņas. Vienā testā ietilpa dramatiska, emocionāli uzlādēta ārkārtas aina. DIA efektīvi padarīja steidzamību un skaļruņu stresu, savukārt konkurējošie modeļi bieži saplacināja piegādi vai zaudēja ritmu.
DIA unikāli apstrādā tikai neverbālus skriptus, piemēram, humoristisku apmaiņu, kas saistīta ar klepu, šņaukšanu un smiekliem. Konkurējošie modeļi neizdevās atpazīt šīs tagus vai pilnībā tos izlaist.
Pat ar ritmiski sarežģītu saturu, piemēram, repa dziesmu tekstiem, Di diale ģenerē plūstošu, veiktspējas stila runu, kas uztur tempu. Tas ir pretrunā ar vienveidīgāku vai nesakarīgu izvadi no Elevenlabs un Sesame 1B modeļa.
Izmantojot audio uzvednes, DIA var paplašināt vai turpināt skaļruņa balss stilu jaunās līnijās. Piemērs, izmantojot sarunu klipu kā sēklu, parādīja, kā DIA caur pārējo scenāriju dialogu pārnesa no parauga vokālās iezīmes. Šī funkcija nav stingri atbalstīta citos modeļos.
Vienā testu komplektā Nari Labs atzīmēja, ka Sesame labākā vietnes demonstrācija, iespējams, izmantoja modeļa iekšējo 8B versiju, nevis publisko 1B kontrolpunktu, kā rezultātā radās plaisa starp reklamēto un faktisko veiktspēju.
Piekļuves un tehnoloģiju specifikācijas
Izstrādātāji var piekļūt DIA no Nari Labs Github krātuve un tā Sejas modeļa lapaApvidū
Modelis darbojas ar Pytorch 2.0+ un Cuda 12.6, un tam ir nepieciešams apmēram 10 GB VRAM.
Secinājumi par uzņēmuma pakāpes GPU, piemēram, NVIDIA A4000, nodrošina aptuveni 40 žetonus sekundē.
Kamēr pašreizējā versija darbojas tikai ar GPU, Nari plāno piedāvāt CPU atbalstu un kvantētu izlaidumu, lai uzlabotu piekļuvi.
Startup piedāvā gan Python bibliotēku, gan CLI rīku, lai turpinātu pilnveidot izvietošanu.
DIA elastība atklāj lietošanas gadījumus no satura izveidošanas līdz palīgtehnoloģijām un sintētiskajiem balss pārraidēm.
NARI Labs arī izstrādā diamenta patērētāja versiju, kas paredzēta gadījuma lietotājiem, kuri vēlas remiksēt vai dalīties ar ģenerētām sarunām. Ieinteresētie lietotāji var dziedāt pa e -pastu uz gaidīšanas sarakstu, lai iegūtu agrīnu piekļuviApvidū
Pilnībā atvērtā koda
Modelis ir sadalīts ar a Pilnībā atvērtā koda Apache 2.0 licencekas nozīmē, ka to var izmantot komerciāliem mērķiem – kaut ko tādu, kas acīmredzami patiks uzņēmumiem vai indie lietotņu izstrādātājiem.
Nari Labs skaidri aizliedz izmantot lietošanu, kas ietver uzdošanos par indivīdiem, dezinformācijas izplatīšanu vai iesaistīšanos nelikumīgās darbībās. Komanda veicina atbildīgu eksperimentu un ir ieņēmusi nostāju pret neētisku izvietošanu.
DIA izstrādes kredītpunkti atbalsta Google TPU Analysis Cloud, Hugging Face nerogpu grantu programmu un iepriekšēju darbu pie skaņu vētras, parakeet un apraksta audio kodeka.
Pati Nari Labs ietver tikai divus inženierus-vienu pilna laika un vienu nepilnu darba laiku-, guess viņi aktīvi aicina sabiedrības ieguldījumus, izmantojot savu Discord serveri un GitHub.
Ar skaidru koncentrēšanos uz izteiksmīgu kvalitāti, reproducējamību un atvērto piekļuvi DIA pievieno atšķirīgu jaunu balsi ģeneratīvo runas modeļu ainavai.
avots