„VALL-E“ – tai TTS modelis, kuris gali generuoti kalbą bet kokiu balsu, „išgirdęs“ vos trijų sekundžių to balso pavyzdį. Tai didelis patobulinimas, palyginus su ankstesniais modeliais, kuriems reikėjo daug ilgesnio mokymo laikotarpio, kad būtų galima sukurti naują balsą.
Be to, generuojamoje kalboje išlieka balso intonacija, „charizma“ ir stilius. Tai svarbus žingsnis į priekį siekiant, kad TTS sistemos skambėtų natūraliau.
Kompanija „Microsoft“ paskelbė keletą veikiančio modelio pavyzdžių – ir akivaizdu, kad tai yra didelė pažanga TTS technologijose.