Ne tik sen, ģeneratīvais AI varēja sazināties tikai ar cilvēku lietotājiem, izmantojot tekstu. Tagad arvien vairāk tiek piešķirts runas spēks – un šī spēja uzlabojas ar dienu.
Ceturtdien AI balss platforma vienreizējas iepazīstināts ar V3, kas uzņēmuma vietnē aprakstīts kā “visu laiku izteiksmīgākais teksta un runas modelis”. Jaunajam modelim var parādīties plašs emociju klāsts un smalki komunikatīvi quirks – piemēram, nopūta, smiekli un čukstēšana -, padarot tās runu cilvēciskāku nekā iepriekšējie uzņēmuma modeļi.
Arī: vai WWDC varētu būt Apple AI pagrieziena punkts? Lūk, ko analītiķi prognozē
A demonstrācija Dalījās ar X, tika parādīts V3, kas ģenerē divu varoņu, viena vīrieša un otras sievietes, balsis, kurām bija viegla saruna par viņu jaunatklāto spēju runāt cilvēciskākās balsīs.
Vienpadsmit V3 (alfa) ieviešana – visizteiktākais teksts runas modelim jebkad.
Atbalstot 70+ valodas, daudzspieču dialogu un audio tagus, piemēram [excited]Verdzība [sighs]Verdzība [laughing]un [whispers]Apvidū
Tagad publiskajā alfa un 80% atlaide jūnijā. pic.twitter.com/n56bersduc– Elevenlabs (@Elevenlabsio) 2025. gada 5. jūnijs
Noteikti nav nevienas no Alexa-esque tonuma plakanuma, wager V3 radītās balsis parasti ir gandrīz pārmērīgi animētas, līdz brīdim, ka viņu smiekli ir vairāk rāpojošāki nekā burvīgi- Uzklausiet patsApvidū
Modelis var arī runāt vairāk nekā 70 valodas, salīdzinot ar tā priekšgājēja V2 robežu 29. Tas tagad ir pieejams publiskajā alfa laikā, un tā cenu zīme ir samazināta par 80% līdz šī mēneša beigām.
AI mijiedarbības nākotne
AI ģenerēta balss ir kļuvusi par galveno inovāciju uzmanības centrā, jo tehnoloģiju izstrādātāji skatās uz cilvēka un mašīnas mijiedarbības nākotni.
Automatizētie palīgi, piemēram, Siri un Alexa, protams, jau sen ir spējuši runāt, wager, tā kā ikviens, kurš regulāri izmanto šīs sistēmas, var apliecināt, viņu balsis ir ļoti mehāniskas, ar diezgan šauru emocionālā ritma un toņu klāstu. Viņi ir noderīgi, lai veiktu ātrus un vienkāršus uzdevumus, piemēram, dziesmas atskaņošanu vai trauksmes iestatīšanu, taču tie neveido lieliskus sarunu partnerus.
No otras puses, daži no jaunākajiem teksta-runas (TTS) AI rīkiem ir izstrādāti, lai runātu balsīs, kas ir maksimāli reālistiskas un saistošas.
Arī: jums nevajadzētu uzticēties AI par terapiju – lūk, kāpēc
Lietotāji var uzaicināt V3, piemēram, runāt balsīs, kuras ir viegli pielāgojamas, izmantojot “audio tagus”. Padomājiet par tiem kā stilistiskiem filtriem, kas modificē izvadi un kurus var tieši ievietot teksta uzvednēs: “satraukti”, “skaļi”, “dzied”, “smejas”, “dusmīga” utt.
Elevenlabs nav vienīgais uzņēmums, kas sacenšas, kas veido dzīvīgākos TTS modeļus, kurus lielo tehnoloģiju uzņēmumi pārdod kā intuitīvāku un pieejamāku veidu, kā mijiedarboties ar AI.
Maija beigās Sidevenlabs konkurents Hume AI atklāja savu empātisko balss interfeisu (EVI) 3 modeli, kas lietotājiem ļauj ģenerēt pielāgotas balsis, aprakstot tās dabiskajā valodā. Līdzīgi niansētas sarunvalodas spējas tagad tiek piedāvātas arī caur Google Gemini 2.5 Professional Flash modeli.
Vai vēlaties vairāk stāstu par AI? Reģistrējieties inovācijāmmūsu iknedēļas biļetens.