Home Tehnoloģija Balss AI, kas faktiski konvertē: Jauns TTS modelis palielina pārdošanas apjomus 15%...

Balss AI, kas faktiski konvertē: Jauns TTS modelis palielina pārdošanas apjomus 15% lielākajiem zīmoliem

9
0

Pievienojieties pasākumam, kuru uzņēmuma vadītāji uzticas gandrīz divas desmitgades. VB Rework apvieno cilvēkus, kas veido reālu uzņēmumu AI stratēģiju. Uzziniet vairāk


Radīt balsis, kas ir ne tikai cilvēciskas un niansētas, guess arī daudzveidīgs turpina būt cīņa sarunvalodas AI.

Dienas beigās cilvēki vēlas dzirdēt balsis, kas izklausās pēc tām vai ir vismaz dabiskas, ne tikai 20. gadsimta amerikāņu apraides standarta.

Startēšana Rims risina šo izaicinājumu ar Arcana tekstu-runas (TTS)-jaunu runas valodas modeli, kas var ātri ģenerēt “bezgalīgas” jaunas atšķirīgu dzimumu, vecumu, demogrāfijas un valodu balsu, kas balstīta uz vienkāršu paredzēto raksturlielumu teksta aprakstu.

Modelis ir palīdzējis palielināt klientu pārdošanu – par Domino un Wingstop – par 15%.

“Viena lieta ir viena lieta, ja VentureBeat stāstīja patiešām augstas kvalitātes, dzīvībai līdzīgs, reāls modelis,” sacīja Lilija Kliforda, Rime izpilddirektore un līdzdibinātāja. “Tas ir vēl viens, ja ir modelis, kas var ne tikai radīt vienu balsi, guess arī bezgalīgu balsu mainīgumu pēc demogrāfiskajām līnijām.”

Balss modelis, kas “rīkojas cilvēka”

Rime multimodālais un autoregresīvs TTS modelis tika apmācīts dabiskās sarunās ar reāliem cilvēkiem (pretstatā balss aktieriem). Lietotāji vienkārši ieraksta teksta uzvedni balss aprakstā ar vēlamajām demogrāfiskajām īpašībām un valodu.

Piemēram: “Es gribu 30 gadus vecu sievieti, kura dzīvo Kalifornijā un iesaistās programmatūrā,” vai “dod man Austrālijas vīrieša balsi”.

“Katru reizi, kad jūs to darīsit, jūs iegūsit citu balsi,” sacīja Kliffords.

Rime’s Mist V2 TTS modelis tika veidots liela apjoma, uzņēmējdarbības kritiskām lietojumprogrammām, ļaujot uzņēmumiem radīt unikālas balsis viņu biznesa vajadzībām. “Klients dzird balsi, kas ļauj veikt dabisku, dinamisku sarunu, neprasot cilvēku aģentu,” sacīja Kliffords.

Tiem, kas meklē ārpus kastes opcijas, Rime piedāvā astoņus vadošos skaļruņus ar unikālām īpašībām:

  • Luna (sieviete, vēss, guess aizraujošs, gen-z optimists)
  • Celeste (sieviete, silta, bezrūpīga, jautri mīloša)
  • Orions (vīrietis, vecāks, afroamerikānis, laimīgs)
  • Ursa (vīrietis, 20 gadus vecs, enciklopēdiskas zināšanas par 2000. gadu emo mūziku)
  • Astra (sieviete, jauna, platā acis)
  • Estere (sieviete, vecāka, ķīniešu amerikānis, mīlošs)
  • Estelle (sievietes, pusmūža, afroamerikāniete, izklausās tik mīļi)
  • Andromeda (sieviete, jauna, elpaina, jogas vibrācijas)

Modelim ir iespēja pārslēgties starp valodām, un tas var čukstēt, būt sarkastiskam un pat ņirgājamam. Arcana var arī ievietot smieklus runā, kad tiek dots marķieris Apvidū Tas var atgriezties daudzveidīgi, reālistiski rezultāti, sākot no “neliela ķiķināšana līdz lielam gufaw”, saka Rime. Modelis var arī interpretēt Verdzība un pat Pareizi, kaut arī tas nebija skaidri apmācīts to darīt.

“Tas novērš emocijas no konteksta,” Rime raksta tehniskajā rakstā. “Tas smejas, nopūšas, ņurdē, dzirdami elpo un rada smalkus mutes trokšņus. Tas dabiski saka“ um ”un citas neatbilstības. Tam ir jauna uzvedība, ko mēs joprojām atklājam. Īsāk sakot, tas darbojas cilvēku.”

Dabisko sarunu uztveršana

Rime modelis ģenerē audio žetonus, kas tiek dekodēti runā, izmantojot uz kodeku balstītu pieeju, kas Rime saka, ka tas nodrošina “ātrāku sintēzi nekā reāli”. Palaišanas laikā laiks līdz pirmajam audio bija 250 milisekundes, un publiskais mākoņu latentums bija aptuveni 400 milisekundes.

Arcana tika apmācīta trīs posmos:

  • Iepriekšēja apmācība: Rime izmantoja atvērtā pirmkoda lielo valodu modeļus (LLM) kā mugurkaulu un iepriekš apmācīts lielā teksta-auduma pāru grupā, lai palīdzētu Arcana apgūt vispārīgus lingvistiskos un akustiskos modeļus.
  • Uzraudzīta precizēšana ar “masīvu” patentētu datu kopu.
  • Speaker specifiska precizēšana: Rime identificēja skaļruņus, kurus savā datu kopā, sarunās un uzticamībā atrada “visvairāk piemērotību”.

Rime dati ietver sociolingvistiskās sarunu paņēmienus (faktorēšana sociālajā kontekstā, piemēram, klase, dzimums, atrašanās vieta), idiolect (individuālie runas paradumi) un paralingvistiskās nianses (neverbālie komunikācijas aspekti, kas iet kopā ar runu).

Modelis tika apmācīts arī ar akcentu smalkumiem, pildvielu vārdiem (tiem zemapziņas “UHS” un “UMS”), kā arī pauzēm, prosodisko stresa modeļiem (intonācija, laiks, noteiktu zilbju stress) un daudzvalodu kodu pārslēgšana (ja daudzvalodu runātāji pārslēdzas uz priekšu un atpakaļ starp valodām).

Uzņēmums ir izvēlējies unikālu pieeju visu šo datu vākšanai. Kliffords paskaidroja, ka parasti modeļa celtnieki savāc fragmentus no balss aktieriem, pēc tam izveidos modeli, lai reproducētu šīs personas balss īpašības, pamatojoties uz teksta ievadi. Vai arī viņi nokasīs audiogrāmatas datus.

“Mūsu pieeja bija ļoti atšķirīga,” viņa paskaidroja. “Tas bija:“ Kā mēs izveidojam pasaules lielāko patentēto sarunu runas datu kopu? ””

Lai to izdarītu, Rime izveidoja savu ierakstu studiju pagrabā Sanfrancisko un vairākus mēnešus pavadīja, pieņemot darbā cilvēkus pie Craigslist, izmantojot vārdu mutē vai vienkārši cēloņsakarīgi sapulcinājās sevi un draugus un ģimeni. Tā vietā, lai scenārijas sarunas, viņi reģistrēja dabiskās sarunas un chitchat.

Pēc tam viņi anotēja balsis ar detalizētiem metadatiem, dzimuma kodēšanu, vecumu, dialektu, runas ietekmi un valodu. Tas ļāva Rime sasniegt 98 līdz 100% precizitāti.

Klifords atzīmēja, ka viņi pastāvīgi papildina šo datu kopu.

“Kā mēs to izklausāmies personīgi? Jūs nekad tur nokļūsit, ja jūs tikai izmantojat balss aktierus,” viņa sacīja. “Mēs darījām ārkārtīgi smagu lietu, savācot patiešām naturālistiskus datus. Milzīgā slepenā rima mērce ir tā, ka šie nav aktieri. Tie ir īsti cilvēki.”

“Personalizācijas instalācija”, kas rada speciālas balsis

Rime plāno dot klientiem iespēju atrast balsis, kas vislabāk darbosies viņu lietojumprogrammā. Viņi izveidoja “personalizācijas instalācijas” rīku, lai lietotāji varētu veikt A/B testēšanu ar dažādām balsīm. Pēc dotās mijiedarbības API ziņo atpakaļ uz Rime, kas nodrošina analītikas informācijas paneli, kas identificē vislabāk izpildošās balsis, pamatojoties uz panākumu metriku.

Protams, klientiem ir atšķirīgas definīcijas par veiksmīgu zvanu. Ēdināšanas dienestā tas varētu pārdot kartupeļu vai papildu spārnu pasūtījumu.

“Mums mērķis ir tas, kā mēs izveidojam lietojumprogrammu, kas mūsu klientiem ļauj viegli veikt šos eksperimentus paši?”, Sacīja Kliffords. “Tā kā mūsu klienti nav balss liešanas direktori, arī mēs neesam. Izaicinājums kļūst par to, kā padarīt šo personalizācijas analīzes slāni patiešām intuitīvu.”

Vēl viens KPI klients, par kuru maksimāli palielinās, ir zvanītāja vēlme sarunāties ar AI. Viņi ir secinājuši, ka, pārejot uz rimu, zvanītāji, visticamāk, runā ar robotu.

“Pirmo reizi cilvēki ir tādi kā:” Nē, jums nav nepieciešams mani pārsūtīt. Es esmu pilnīgi gatavs ar jums runāt, “” sacīja Kliffords. “Vai arī, kad viņi tiek pārsūtīti, viņi saka“ paldies ”.” (20%, patiesībā, ir sirsnīgi, beidzot sarunas ar robotu).

Mēnesi izsauc 100 miljonus zvanu

Rime skaita klientu Domino, Wingstop, Converse Now un Ylopo starpā. Viņi daudz strādā ar lieliem kontaktu centriem, uzņēmumu izstrādātāji, kas veido interaktīvās balss reakcijas (IVR) sistēmas un telekomunikācijas, atzīmēja Klifords.

“Kad mēs pārgājām uz Rime, mēs redzējām tūlītēju divciparu uzlabošanos, ja mūsu zvani nāks par panākumiem,” sacīja Akshay Kayastha, Conversenow inženierzinātņu direktors. “Darbs ar rimu nozīmē, ka mēs atrisinām tonnu pēdējās jūdzes problēmu, kas rodas, nosūtot augstas ietekmes lietojumprogrammu.”

Ylopo CPO Ge Juefeng atzīmēja, ka viņa uzņēmuma lielā apjoma izejošajam lietojumprogrammai viņiem ir jāveido tūlītēja uzticēšanās patērētājam. “Mēs pārbaudījām katru modeli tirgū un secinājām, ka Rime balsis pārveidoja klientus visaugstākajā līmenī,” viņš ziņoja.

Rime jau palīdz enerģijai gandrīz 100 miljonus tālruņa zvanu mēnesī, sacīja Kliffords. “Ja jūs saucat Domino vai Wingstop, pastāv 80 līdz 90% iespējamība, ka dzirdat rima balsi,” viņa sacīja.

Raugoties nākotnē, Rime vairāk virzīs uz vietējiem piedāvājumiem, lai atbalstītu zemu latentumu. Patiesībā viņi paredz, ka līdz 2025. gada beigām 90% no viņu apjoma būs uz priekšu. “Iemesls tam ir tas, ka jūs nekad nebūsit tik ātrs, ja izmantojat šos modeļus mākonī,” sacīja Kliffords.

Rime arī turpina precīzi pielāgot savus modeļus, lai risinātu citus lingvistiskos izaicinājumus. Piemēram, frāzes, ar kurām modelis nekad nav saskāries, piemēram, Domino mēles sajūta “Meatza ekstravaganzza”. Kā atzīmēja Kliffords, pat ja balss ir personalizēta, dabiska un reaģē reālā laikā, tā neizdosies, ja tā nespēs apstrādāt uzņēmuma unikālās vajadzības.

“Joprojām ir daudz problēmu, kuras mūsu konkurenti uzskata par pēdējās jūdzes problēmām, guess mūsu klienti uzskata par pirmās jūdzes problēmām,” sacīja Kliffords.


avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here