– Be kitų projektų, bendrovė „Tilde IT“ vysto lietuvių kalbos atpažinimą ir sintezavimą. Kokia tai technologija ir kokiu principu veikia?
– „Tilde IT“ kalbos technologijų srityje dirba jau senai ir šitą kalbos atpažinimo bei sintezavimo technologiją mes pradėjome vystyti dar 2019-ais metais. Dalyvavome Všį „Lietuvos verslo paramos agentūros“ projektuose, kurie finansuoja intelektų projektus ir tuomet buvo sukurta ši technologija. Pats projektas truko 24 mėnesius, buvo vykdomi įvairūs tyrimai, eksperimentai, nes tuo metu tai buvo visiškai nauja technologija. Jos tikslumas yra daugiau nei 80 proc., o tai atitinka visų kitų pasaulinio lygio kalbų atpažinimo tikslumą ir kokybę, todėl lietuvių kalba niekuo nenusileidžia kitų pasaulio kalbų šnekos atpažinimo ir sintezavimo technologijoms.
Technologija veikia giliųjų neuroninių tinklų principu, atpažįstama natūrali šnekamoji kalba ir ji užrašoma tekstu, o tam reikia surinkti nemažai įšnekėto teksto pavyzdžių. Surenkami įvairaus amžiaus vyriški ir moteriški balsai, tuomet tie garsynai apdorojami, paruošiami neuroninių tinklų modeliui, o ten jau patys tinklai veikia panašiai kaip žmogaus smegenys ir atpažįsta, sudėlioja garsus, paverčia juos tekstu.
Dabar vartotojai gali laisvai prisijungti ir naudotis šia paslauga. Jie gali įkelti garso failą ir gauti parašytą tekstą, taip pat galima įdiktuoti kalbą, kuri bus transkribuojama ekrane. O balso sintezavimo metu vartotojas gali užrašytą tekstą pasiūlyti įgarsinti vyrišku arba moterišku balsu.
– Kokios yra jūsų technologijos sąsajos su Vilniaus universiteto vykdomu projektu „LIEPA“ („Lietuvių šneka valdomos paslaugos“)?
– „LIEPA“ ir „LIEPA-2“ projektai kuria savo atpažinimą, o mes kuriam savąjį. Tuo metu, 2016-17 metais, kai technologija buvo kuriama, skirtumas buvo toks, kad mes kūrėme technologiją, kuri atpažįsta ir išskiria žmogaus kalbą bet kokioje aplinkoje. Nesvarbu, ar jūs esate triukšmingoje aplinkoje, ar muzika fone groja, automobilis pravažiuoja ar kažkas kalba šalia, technologija yra sukurta išskirti būtent jūsų kalbėjimą eliminuojant aplinkinius garsus.
„LIEPA“ tuo metu darė laboratorinę garso kokybę, paskui jie irgi perėjo prie triukšmingos aplinkos, ir dabar jų technologija sėkmingai veikia. Visgi tuo metu mes buvome pirmieji, kurių technologija realiuoju laiku atpažįsta šneką ir paverčia ją tekstu. „LIEPA“ sukūrė garsyną savo projekto rėmuose ir surinko 100 valandų garsyno, mes tą garsyną panaudojome savo šnekos atpažinimo technologijai – aišku, turėjome ir savo surinktų, bet panaudojome ir jų, nes kuo daugiau resursų ir kuo jie įvairesni, tuo rezultatas yra geresnis.
– Su kokiais iššūkiais susiduriate kuriant tokią technologiją?
– Pirmiausia, resursai. Tokiam dalykui reikalingi yra didžiuliai garsyno kiekiai, audio įrašai, kurie turi būti sudaryti iš skirtingo amžiaus, lyties, dialekto balsų – nes technologija vienodai gerai turi atpažinti lietuviškai kalbantį rusakalbį arba žemaitį, kalbantį bendrine lietuvių kalba.
Kitas iššūkis – triukšmai. Technologija turi atpažinti garsą ne tik sterilioje bei ramioje, bet ir triukšmingoje aplinkoje, todėl reikia išmokyti ją eliminuoti triukšmus. Pavyzdžiui, jei kažkas kalba susirinkimo metu ir fone spragsi tušinukas, tai technologijai nesvarbu, ar kalba žmogus, ar spragsi tušinukas – tai yra garsas, ir ji kiekvieną garsą fiksuoja. Ji turi atpažinti, kad tušinuko traškėjimas nėra tas garsas, kuris sudaro žodį, frazę ar skiemenį, ir jį turi išimti iš bendro garso takelio.
Dar vienas iššūkis yra maža rinka – nes mes esame maža tauta, maža kalba ir vartotojų kiekis ribotas. Norėtume į pasaulį išeiti su šita technologija, tačiau pasauliui lietuvių kalbos nelabai reikia – reikia tik tiek, kiek yra šnekančių lietuviškai.
– „Tilde IT“ kol kas lietuvių kalbos atpažinimą siūlo tik stacionarių kompiuterių sistemoms. Ar planuojate pritaikyti tokią paslaugą ir išmaniesiems/mobiliesiems įrenginiams?
– Mūsų tikslas nebuvo sukurti programėlę mobiliems įrenginiams, mes savo paslaugas matome šiek tiek plačiau. Jas siekiame pritaikyti kitų elektroninių paslaugų apimtyse, integruoti į klientų sistemas, galinčias kartu su jomis veikti – pavyzdžiui, virtualusis asistentas. Dabar pokalbio su automatiniu asistentu langelyje klausimą įrašote tekstu, o mes dirbame ties tuo, kad tie virtualieji asistentai bendrautų ne tekstu, o balsu – tai reiškia, išgirstų, kas jam yra sakoma, atpažintų šneką ir tada pateiktų atsakymą balsu – tai yra, susintezuotų.
Tiesa, sukūrėme mobiliąją programėlę „Tildės Balsas“, bet ji veikia labiau kaip demonstracinė priemonė. Ja norime parodyti, ką mūsų šnekos atpažinimo technologija geba, kaip ji veikia. Ten galite įdiktuoti tekstus ir naudoti įvairias komandas – tarkime, galite įdiktuoti tekstinius pranešimus, pastabas, rašomus laiškus, susidėlioti dienotvarkę, galite įkalbėti „Google Maps“ arba „Waze“ adresus, jei važiuojate mašina ir turite laisvų rankų įrangą, galite balsu ieškoti kontaktų, paprašyti, kad tekstus perskaitytų balsu. Programėlė veikia puikiai, galite pabandyti ir galbūt tai taps įprasta rutina – pavyzdžiui, važiuojant į darbą susidėlioti darbų ar pirkinių sąrašą.
– Kiek intensyviai žmonės naudojasi lietuvių kalbos atpažinimo paslauga internete?
– Mobiliąja programėle naudojasi gal kiek mažiau žmonių, bet pačią šnekos atpažinimo paslaugą intensyviai naudoja tiek įmonės, tiek individualūs asmenys. Patarčiau ją naudoti žurnalistams, kurie gali įkelti interviu balso įrašą ir gauti tekstą. Šią technologiją naudoja ir medijų monitoringo įmonės, kurios klientams teikia tam tikrą analizę apie tai, kas buvo pasakyta apie vieną ar kitą įmonę žiniose, spaudoje, taip pat įmonės, kurios gamina subtitrus. Dar vienas šnekos atpažinimo pritaikomumas yra susirinkimų protokolavimas – pavyzdžiui, kai vyksta susirinkimas ir nėra laiko daryti tų vadinamųjų susitikimo minučių (angl. meeting minutes), jūs galite įrašą paversti tekstu, transkribuoti jį ir pasidaryti protokolą – todėl atkrenta nemažai rankinio darbo.
– Vertinant kalbos atpažinimo prasme – ar lietuvių kalba turi kažkokių privalumų, ar kaip tik, sukelia kokių nors papildomų iššūkių?
– Nėra nei privalumų, nei trūkumų, kiekviena kalba unikali. Renkamas garsynas, apmokami varikliai, tai yra standartas, kaip ir kitoms kalboms. Kodėl mes pasiekėme tokį aukštą kalbos atpažinimo kokybės lygį? Todėl, kad visų kalbų atpažinimo technologijos veikia tuo pačiu principu – kuo daugiau resursų, tuo tikslesnis kalbos atpažinimas.
– Ar lietuvių kalbos vystymas elektroninėje erdvėje bus paklausus ateityje atsižvelgiant į jaunosios kartos polinkį dažniau vartoti anglų kalbą?
– Aš sakyčiau, kad lietuvių kalba bus paklausi ateityje tol, kol mes kalbėsime lietuviškai. Mes atsibudus pirmiausia pagalvojame lietuviškai, sapnuojame irgi lietuviškai ir yra natūralu, kad technologijose egzistuoja lietuvių kalba. Mūsų tikslas ir yra, kad lietuvių kalba, šnekos atpažinimas atsirastų kiekviename įrenginyje.
– Ar lietuvių kalba galėtų atsidurti tokių gigančių kaip „Apple“ ar „Microsoft“ akiratyje, kalbant apie šnekos atpažinimo technologiją?
– Jeigu paprastai ir trumpai, tai lietuvių kalba atsiras „Apple“, „Google“ ir kituose gamintojuose tada, kai jie įsidiegs lietuvių kalbos palaikymo funkciją. Šnekos atpažinimo technologija turi didžiulį potencialą ateityje ir visi didieji žaidėjai tą supranta.
Jie orientuojasi į dideles rinkas – tarkime, „Siri“, „Amazon Alexa“ ar „Google Assistant“ asistentai kalba didžiųjų šalių kalbomis (anglų, rusų, vokiečių, prancūzų, italų ir kt.). Ta pati „Amazon Alexa“ šiuo metu kalba 8 kalbomis ir palaiko dar 10 dialektų.
Dialektas – tai kaip pas mus būtų aukštaičių, žemaičių, dzūkų, taip ir čia gali būti australų anglų, britų anglų, amerikiečių anglų, tai ir yra dialektai, nes skiriasi šiek tiek vartojimas, tarimas.
„Google Assistant“ šiuo metu turi 12 kalbų ir 13 dialektų, o „Siri“ – 21 kalbą ir nesuskaičiuojamą daugybę dialektų. Taigi, klausimo, ar atsiras nėra – tikrai ankščiau ar vėliau atsiras, tik klausimas, kada. Visa tai atsiremia į žmogiškuosius ir piniginius resursus.
Norint vystyti mažesnių kalbų technologijas, reikia turėti resursų, kalbančių arba bent suprantančių ta kalba. Naujų kalbų pridėjimas visada atsiremia į resursus – kiek gali surinkti resursų, kad tą technologiją išvystytum, ir kiek gali atlikti tyrimų.
Aišku, didieji gamintojai visada gali ieškoti rinkoje jau veikiančių sprendimų. Mūsų atveju, jie galėtų bendradarbiauti su mumis – tik tam, matyt, dar neatėjo laikas. Bet mes esame pasiruošę.