Home Tehnoloģija Pārpildītā balss AI tirgū Openai derības par instrukcijām sekojošai un izteiksmīgai runai,...

Pārpildītā balss AI tirgū Openai derības par instrukcijām sekojošai un izteiksmīgai runai, lai uzvarētu uzņēmuma pieņemšanu

9
0

Vai vēlaties gudrāku ieskatu iesūtnē? Reģistrējieties mūsu iknedēļas biļeteniem, lai iegūtu tikai to, kas ir svarīgi uzņēmuma AI, datu un drošības vadītājiem. Abonēt tūlīt


Openai papildina arvien konkurētspējīgāku AI balss tirgu uzņēmumiem ar tā Jauns modelis, GPT-REALTIMEkas seko sarežģītām instrukcijām un ar balsīm “tas izklausās dabiskāk un izteiksmīgāk”.

Tā kā balss AI turpina augt un klienti atrod tādus lietošanas gadījumus kā klientu apkalpošanas zvani vai tulkošana reāllaikā, reālistiski skanīgu AI balsu tirgus, kas piedāvā arī uzņēmuma līmeņa drošību. Openai apgalvo, ka jaunais modelis nodrošina cilvēciskāku balsi, taču tam joprojām ir jāsacenšas ar tādiem uzņēmumiem kā Elevenlabs.

Modelis būs pieejams reāllaika API, kuru uzņēmums arī parasti darīja pieejamu. Kopā ar GPT-RealTime modeli Openai arī izlaida jaunas balsis API, kuru tā sauc par Cedar un Marin, un atjaunināja citas balsis, lai strādātu ar jaunāko modeli.

Openai tiešraidē sacīja, ka tā sadarbojas ar saviem klientiem, kuri veido balss lietojumprogrammas, lai apmācītu GPT-RealTime un “rūpīgi saskaņoja modeli ar evaliem, kas balstīti uz reālās pasaules scenārijiem, piemēram, klientu atbalstu un akadēmisko apmācību”.


AI mērogošana sasniedz savas robežas

Strāvas robežas, pieaugošās marķiera izmaksas un secinājumu kavēšanās ir uzņēmuma AI pārveidošana. Pievienojieties mūsu ekskluzīvajam salonam, lai atklātu, kā ir labākās komandas:

  • Enerģijas pārvēršana par stratēģisku priekšrocību
  • Arhitektējot efektīvus secinājumus par reālu caurlaidspējas pieaugumu
  • Konkurences IA atbloķēšana ar ilgtspējīgām AI sistēmām

Nostipriniet savu vietu, lai paliktu priekšā:


https://www.youtube.com/watch?v=nfbbmtmjhx0

Uzņēmums atzīmēja modeļa spēju radīt emocionālas, dabiski skanīgas balsis, kas arī atbilst tam, kā izstrādātāji veido tehnoloģiju.

Runas modeļi

Modelis darbojas runas un runas ietvaros, ļaujot tam izprast runāto uzvedni un atbildēt vokāli. Runas un runas modeļi ir ideāli piemēroti reāllaika atbildēm, kur persona, parasti klients, mijiedarbojas ar lietojumprogrammu.

Piemēram, klients vēlas atgriezt dažus produktus un izsaukt klientu apkalpošanas platformu. Viņi varētu sarunāties ar AI balss palīgu, kas atbild uz jautājumiem un pieprasījumiem, it kā viņi runātu ar cilvēku.

Tiešraidē, Openai klienti T-mobile demonstrēja AI balss darbināmu aģentu, kas palīdz cilvēkiem atrast jaunus tālruņus. Cits klients, nekustamā īpašuma meklēšanas platforma Žonglētparādīja aģentu, kurš palīdz kādam sašaurināt apkārtni, lai atrastu perfektu vietu.

Openai sacīja, ka GPT-REALTIME ir tā “vismodernākais, producēšanai gatavs balss modelis”. Tāpat kā citi balss modeļi, tas var mainīt valodas vidējā teikuma vidū. Tomēr Openai pētnieki atzīmēja, ka GPT-REALTIME var sekot sarežģītākām instrukcijām, piemēram, “runā uzsvērti franču akcentā”.

Wager GPT-REALTIME saskaras ar citu modeļu konkurenci, kurus daudzi zīmoli jau izmanto. Vienpadsmit abi Atbrīvota saruna AI 2.0 maijā. Skaņu suns partneri ar ātrās ēdināšanas franšīzēm AI balss piedziņai. Emphatic AI startēšana Ņurdēt ir uzsācis savu EVI 3 modeli, kas lietotājiem ļauj ģenerēt savas balss AI versijas.

Tā kā uzņēmumi atklāj dažādus balss AI lietošanas gadījumus, vēl vispārīgāki modeļa pakalpojumu sniedzēji, kas piedāvā multimodālas LLMS, ir piemērojuši sev. Mistrāls Izlaida jauno Voxtral modeli, norādot, ka tas labi darbosies ar tulkojumu reāllaikā. Google uzlabo savas audio iespējas un iegūst popularitāti ar audio funkciju piezīmjdatorā, kas pārveido pētījumu piezīmes par Podcast apraidi.

Labāka instrukcija seko

Openai sacīja, ka GPT-REALTIME ir gudrāks un labāk saprot vietējo audio, ieskaitot spēju noķert neverbālas norādes, piemēram, smejas vai nopūtos.

Benchmarcining, izmantojot lielo stenda audio novērtējumu, parādīja, ka modelis vērtēja 82,8% precizitāti, salīdzinot ar iepriekšējo modeli, kura rezultāts bija 65,6%. Openai nenodrošināja skaitļu testēšanu GPT-REALTIME pret konkurentu modeļiem.

Openai koncentrējās uz modeļa instrukciju sekošanas iespēju uzlabošanu, nodrošinot, ka modelis efektīvāk ievēro norādījumus. Jaunais modelis sasniedz punktu skaitu 30,5% no MultiChallenge audio etalona. Inženieri arī palielināja funkciju izsaukšanu, lai GPT-RealTime varētu piekļūt pareizajiem rīkiem.

Reāllaika API atjauninājumi

Lai atbalstītu jauno modeli un uzlabotu to, kā uzņēmumi integrē reālā laika AI iespējas to lietojumprogrammās, Openai ir pievienojis vairākas jaunas funkcijas reāllaika API.

Tagad tas var atbalstīt MCP un atpazīt attēlu ievadus, ļaujot tai informēt lietotājus par to, ko tas redz reāllaikā. Šī ir funkcija Google, kas lielā mērā uzsvēra sava projekta Astra prezentācijas laikā pagājušajā gadā.

Reāllaika API var rīkoties arī ar sesijas iniciācijas protokolu (SIP). SIP savieno lietotnes ar tālruņiem, piemēram, publisku tālruņu tīklu vai galda tālruņiem, atverot vairāk kontaktu centra lietošanas gadījumu. Lietotāji var arī saglabāt un atkārtoti izmantot API uzvednes.

Līdz šim cilvēki ir pārsteigti par modeli, lai gan tie joprojām ir sākotnējie nesen izlaistā modeļa testi.

Openai samazināja GPT-REALTIME cenas par 20% līdz USD 32 par miljonu audio ievades žetonu un 64 USD par audio izvades žetoniem.


avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here