Home Tehnoloģija Es pārbaudīju 3 teksta-runas AI modeļus, lai redzētu, kurš ir vislabākais-dzirdiet manus...

Es pārbaudīju 3 teksta-runas AI modeļus, lai redzētu, kurš ir vislabākais-dzirdiet manus rezultātus

15
0

Elyse labāks picaro / zdnet

ZDNET galvenie pārņemšana

  • Tagad ir pieejami vairāki AI rīki, kas var radīt cilvēcisku runu.
  • Dažas AI balsis tagad var čukstēt, smieties un izpildīt citus izteiksmīgus varoņdarbus.
  • TTS rīki atšķiras pēc to reālisma līmeņa un paredzētajām auditorijām.

Mākslīgā intelekta radītās sintētiskās balsis ir labākas vai sliktākas, kļūst par ikdienišķu. Tikmēr to uzņēmumu skaits, kas izstrādā šo tehnoloģiju, strauji pieaug.

Jaunākie jauninājumi AI, piemēram, Transformator arhitektūra-kas veido daudzu ģeneratīvu AI rīku mugurkaulu, ieskaitot lielus valodu modeļus, ģeneratīvus pretinieku tīklus (GAN) un difūzijas modeļus-ir noveduši pie AI sistēmu pieauguma, kas var pārveidot teksta pamudinājumus par dabiski skanošu mākslīgu runu. Tagad ir pieejamas plašas šo teksta-runas (TTS) sistēmas, katrai no tām ir īpašas priekšrocības un trūkumi.

Lai iegūtu skaidrāku izpratni, kas ir vismodernākā, es pārbaudīju trīs no populārākajiem bezmaksas TTS rīkiem, kas šobrīd ir tirgū.

Vienpadsmit abi

https://www.youtube.com/watch?v=otz1ffg5-3w

Elevenlabs tiek plaši uzskatīts par nozares līderi balss reālisma jomā, un es atklāju, ka tas ir saprātīgi precīzs novērtējums manos eksperimentos ar uzņēmuma TTS rīku. Guess šis reālisms jūtas ciešāk saskaņots ar apmācīta balss aktiera vai profesionāla podcaster balsi nekā tas notiek ar parasto cilvēku sarunu – tas ir gandrīz nedaudz arī slīpēts. Tomēr šajā ziņā tā parasti ir vēlamā izvēle daudziem uzņēmumiem un profesionāļiem, kuri meklē uzticamu automatizētu stāstījumu. Tas atbalsta arī vairāk nekā 20 valodas, vēl vairāk paplašinot platformas sasniedzamību un pievilcību.

Uzņēmums arī izlaida jaunu teksta-runas modeli ar nosaukumu V3 kā pētījumu priekšskatījumu pagājušajā mēnesī. Tas atbalsta vairāk nekā 70 valodas, un lietotāji var sagatavot savu AI ģenerēto dialogu ar audio tagiem, kas liek tai smieties, nopūsties vai runāt čukstā, nosaukt tikai dažus piemērus.

Arī: Elevenlabs jaunais AI balss palīgs var automatizēt jūsu iecienītos uzdevumus – un jūs varat to izmēģināt bez maksas

Jūs varat reģistrēties bezmaksas kontam ar Vienpadsmit abiun jūs automātiski saņemsit 10 000 bezmaksas kredītu. Kreisās puses izvēlnē atlasiet opciju “Teksts uz runu” sadaļā “Playground”, un jūs tiksit novirzīts uz lapu, kurā varat ievadīt pielāgotu uzvedni, kuru vēlaties, lai AI sistēma to stāstītu, atlasiet no pielāgotu balsu diapazona un pielāgot parametrus, piemēram, ātrumu un stabilitāti. Uzvednes ir ierobežotas līdz 5000 rakstzīmēm, un katra balss paaudzes iterācijas rakstzīme izmanto vienu kredītu.

Hume ai

https://www.youtube.com/watch?v=clhsd8fucq8

Hume aiS TTS modelis ir vēl viens sāncensis reālistiskākajam balss ģenerējošajam rīkam. Uzņēmums savu patentēto empātisko balss interfeisu (EVI) ir pozicionējis kā AI sistēmu, kas var uztvert un simulēt cilvēka runas smalkumus, piesūcinot to ar dziļāku ticamības slāni. Tāpat kā Elevenlabs, Hume piedāvā plašu iepriekš sagatavotu AI balss rakstzīmju komplektu, katram ir savi izteiksmīgi quirks. Varat arī ģenerēt pielāgotas balsis, aprakstot tās dabiskās valodas uzvednē.

Lai to pārbaudītu, es darīju visu iespējamo, lai aprakstītu Samwise Gamgee balsi no “Gredzenu pavēlnieka”, kā attēlots filmās Sean Astin. Mana uzvedne: “Maiga, guess drosmīga hobite, ar strādnieku šķiru, rietumu lauku briti-iespējams, ar Velsas mājienu-akcentu. Viņam vajadzētu izklausīties nobijies, guess apņēmās pabeigt savu misiju.”

Arī: Šis jaunais teksta-runas AI modelis saprot, ko saka-kā to izmēģināt bez maksas

Pēc tam, kad es pamudināju to pateikt slavenā līnijai no filmas: “Ja es speršu vēl vienu soli, tas būs vistālāk promenade no mājām, kādas jebkad esmu bijis”, tas producēja trīs paraugus, mainoties tonim un uzsvaram. Viņi visi bija iespaidīgi; Manā ausī viņi saturēja zināmu reālisma un emocionālā dziļuma pakāpi, ko neatkārto konkurenti. Tie neizklausījās pēc Astina Sam, guess tas, bez šaubām, bija atspoguļojums, protams, nepilnīgs apraksts, kuru izmantoju kā uzvedni.

Jūs varat arī piparu pauzes, pievienojot “[pause]”Jūsu uzvednē vai pievienojiet slangy infūzijas, piemēram,” y’all “, lai uzlabotu jūsu pielāgoto balsu ticamību.

Apraksts

Ja jūs meklējat AI balss ģenerēšanas rīku, kas piedāvā virkni rediģēšanas funkciju, Apraksts ir tas, kuru izvēlēties.

Uzņēmuma TTS modelis ģenerē audio failus viļņu formas formātā, kuru varat rediģēt tāpat kā jūs Adobe klausīšanās vai līdzīgā platformā. Jūs varat izvēlēties no iepriekš sagatavotu AI balsu bibliotēkas vai iesniegt īsu savas balss ierakstu, un sistēma to klonēs jums.

Es pārbaudīju balss klonēšanas funkciju, lūdzot sistēmu lasīt īsu uzvedni: “Vasaras Ņujorkā kļūst brutāla, un man jāiegulda vairāk augstas kvalitātes gaisa kondicionēšanai.” (Kas ir taisnība.) Pirmoreiz manas balss AI ģenerētā versija noteikti izklausījās kā es, taču bija arī mehāniska kvalitāte, kas mazināja reālismu.

Es nolēmu vēl vienu izmēģināt un atkārtoti ierakstīt manu balsi, šoreiz noņemot manas Bluetooth austiņas un lēnāk un apzināti lasot scenāriju. Rezultāti šoreiz bija daudz reālāki-pārliecinošāka manas balss simulācija, manuprāt, nekā līdzīga balss klonējošā funkcija, ko piedāvā Hjū.

Arī: es runāju ar AI versiju par sevi, pateicoties Hume bezmaksas rīkam – kā to izmēģināt

Varat arī pielāgot katru AI ģenerētā audio gabalu, tieši rediģējot rakstisko uzvedni. Protams, tas nebija ideāls; Mani tuvie draugi un ģimenes locekļi, iespējams, varētu pamanīt atšķirību, taču tas, iespējams, apmānīs manus attālākos paziņas. Es viegli iedomājos, ka izmantojat rīku, lai stāstītu savus rakstus vai kādam līdzīgam lietošanas gadījumam.

Podkasteriem un citiem satura veidotājiem, kuri vēlas ātri pulēt savus audio ierakstus, DeSript piedāvā arī AI funkciju, kas identificē un novērš pildvielu vārdus, nevajadzīgas pauzes, “UMMS” un “UHHS” un citus nevēlamus audio bitus.

ZDNET padoms

Ir svarīgi paturēt prātā, ka šie ir tikai trīs no šobrīd pieejamajiem milzīgajiem TTS modeļiem un ka katram lietotājam būs savas vēlmes, pamatojoties uz viņu profesionālo lomu, tehnoloģiju taupīgumu, budžetu utt. Pirms izvēlaties platformu un palaistat ar to, pavadiet dažas minūtes, spēlējoties ar dažādām iespējām, lai redzētu, kuras lietotāja saskarnes jūtas vistuvākās un kuras piedāvā funkcijas, kas visciešāk sakrīt ar jūsu radošajiem mērķiem. Atcerieties, ka pakalpojumi atšķiras atkarībā no tā, kā viņi izmanto jūsu datus.

Arī: teksts-runas ar sajūtu-šis jaunais AI modelis dara visu, guess noplēsa asaru

Neatkarīgi no tā, kuru platformu jūs galu galā izmantojat, sekojiet līdzi ātrumam, kādā šī tehnoloģija turpina attīstīties. Ļoti drīz mēs, visticamāk, dzīvosim pasaulē, kas piepildīta ar AI balsīm – un daži no tiem varētu izklausīties tāpat kā jūsu pašu.

Vai vēlaties vairāk stāstu par AI? Izrakstīties AI līderu sarakstsmūsu iknedēļas biļetens.



avots

LEAVE A REPLY

Please enter your comment!
Please enter your name here