2023 m. sausio 31 d. 14:11

„Microsoft“ teksto vertimo į kalbą sistema per tris sekundes gali nukopijuoti balsą ir įgarsinti tekstą

2023 m. sausio 31 d. 14:11

Lrytas.lt

Nuo pat pirmojo teksto vertimo į kalbą (angl. text-to-speech, TTS) modelio išleidimo mokslininkai ieškojo būdų, kaip patobulinti šių sistemų kalbos generavimo būdą. Naujausias „Microsoft“ modelis „VALL-E“ šiuo požiūriu yra reikšmingas žingsnis į priekį, pasakoja futurologas Rayus Hammondas.

Daugiau nuotraukų (1)

„VALL-E“ – tai TTS modelis, kuris gali generuoti kalbą bet kokiu balsu, „išgirdęs“ vos trijų sekundžių to balso pavyzdį. Tai didelis patobulinimas, palyginus su ankstesniais modeliais, kuriems reikėjo daug ilgesnio mokymo laikotarpio, kad būtų galima sukurti naują balsą.

Be to, generuojamoje kalboje išlieka balso intonacija, „charizma“ ir stilius. Tai svarbus žingsnis į priekį siekiant, kad TTS sistemos skambėtų natūraliau.

Kompanija „Microsoft“ paskelbė keletą veikiančio modelio pavyzdžių – ir akivaizdu, kad tai yra didelė pažanga TTS technologijose.

balsas Microsoft

„Microsoft“ teksto vertimo į kalbą sistema per tris sekundes gali nukopijuoti balsą ir įgarsinti tekstą

Rekomenduojame

Fantastinis ginklas, įžymybių skandalas ir Kinijos šmėkla: gaisras Los Andžele paskendo sąmokslo teorijų dūmuose (2)

„D. Trumpo fejerverkai“ – politikos senbuvių akimis: ar sugrįžęs JAV prezidentas gali pradėti karą?

Ar A. Širinskienės išėjimas sukels domino efektą? Seimo užkulisiai bruzda, bet „aušriečiai“ neigia (7)

Ašaras pakeitė šypsena: A. Širinskienė paaiškino, kodėl paliko R. Žemaitaitį (16)