Lietuvių vystoma šnekos atpažinimo technologija: kada mygtukų spaudymas taps praeitimi?

2021 m. gruodžio 9 d. 11:55
Angliškai kalbėtis su savo išmaniaisiais telefonais jau galime, tačiau lietuviškai – ne. Šnekos atpažinimo technologija lietuvių kalba yra vystoma, jos kūrėjai sako, kad darbas vyksta intensyviai ir bent versle netolimoje ateityje technologiją išnaudoti galėsime dar plačiau nei tai daroma dabar. Kas yra ir kaip veikia šnekos atpažinimo technologija, kodėl mūsų išmanieji įrenginiai dar nesupranta ir nekalba lietuviškai bei kaip tokia technologija pakeis šalies verslą? Atsakymus pateikia kalbos technologijų bendrovės „Tilde IT“ vadovė Renata Špukienė.
Daugiau nuotraukų (2)
Kaip kuriama šnekos atpažinimo technologija?
„Paprastai kalbant, šnekos atpažinimo programa paverčia šneką į tekstą iš anksčiau įrašyto garso įrašo arba iš diktuojamo teksto. Kaip tai veikia technologiniame lygmenyje? Garso signalas (iš įrašo, telefono, kompiuterio ar kito įrenginio) skaitmenine forma yra perduodamas į šnekos atpažinimo programą, ten signalas yra apdorojamas iš anksto apmokyto akustinio modelio, kuris geba garso signalą paversti atskiromis raidėmis.
Vėliau gautas rezultatas yra apdorojamas kalbos modelyje, kur atpažintoms raidėms, jų junginiams yra randamas ir priskiriamas konkretus žodis. Galiausiai programa kaip rezultatą atiduoda labiausiai tikėtiną žodžio, frazės ar sakinio fragmentą kaip tekstą“, – aiškina Renata Špukienė.
Pasak R. Špukienės, tokios technologijos kūrimo procesas yra ilgas ir sudėtingas. Visų pirma, būtina surinkti didelį garsyną: įrašytus didelius kiekius garso fragmentų. Kas yra sakoma balsu kiekviename garsiniame įraše, turi būti užrašyta tekstu ir kiekvienas žodis ar raidė turi būti susieti su garsu. „Garsynas turi būti toks, kokio tipo įrašus norėsime, kad šnekos atpažintuvas atpažintų. Jei norime skirtingų tarčių, akcentų – reikia ir tokių pavyzdžių.
Paprastai kalbant, jei mokinį išmokysime spręsti konkrečias matematikos užduotis, tai kontroliniame darbe turėtume tikrinti jo žinias duodami panašias užduotis. Negalime mokyti ketvirtos klasės matematikos, o užduotis duoti iš aštuntos klasės programos. Visiškai toks pats principas galioja ir su neuroniniais tinklais, kurie atpažįsta šneką“, – sako Renata Špukienė.
Surinkus reikiamą garsyną, reikia sukurti neuroninių tinklų technologiją, kurią mokysime atpažinti garsus. Tokių technologijų šiuo metu yra pakankamai daug ir jos naudojamos skirtingiems dirbtinio intelekto (DI) uždaviniams spręsti – pavyzdžiui, paveiksliukų, veidų atpažinimui ir kt. Tokios pačios technologijos naudojamos ir šnekos atpažinimo uždaviniams spręsti.
„Todėl mūsų tikslas yra eksperimentuojant išsirinkti tokią technologiją, kuri geriausiai tinka lietuvių kalbos šnekos atpažinimui vystyti ir naudoti. Ją turint, kuriamas didelis vienakalbis tekstynas, kuriame yra milijonai sakinių pavyzdžių. Tekstyne esantys žodžiai ir sakiniai yra naudojami formuojant galutinį rezultatą – žodžius ir sakinius“, – sako R. Špukienė.
Kokioje stadijoje yra lietuvių kalbos atpažinimo technologija šiandien?
Dažnam gali kilti klausimas, kodėl mūsų išmanieji įrenginiai jau puikiai supranta šnekamąją kalbą didžiosiomis kalbomis – anglų, ispanų, vokiečių – bet nesupranta lietuviškai.
„Didžiosios kalbos turi geriau išvystytas šnekos atpažinimo technologijas todėl, kad jomis kalba gerokai daugiau žmonių, prie šių technologijų dirba daugiau mokslininkų, egzistuoja gerokai daugiau resursų garsynams rinkti. Didžiosios technologijų bendrovės daug investuoja į šias kalbas, nes paprasčiausiai daugiau žmonių jomis kalba ir poreikis yra didesnis. Todėl šioms bendrovėms itin svarbu suteikti vartotojams galimybę naudotis šnekos atpažinimo technologija. Lietuvių kalba yra itin sudėtinga, o ja kalbančių – labai nedaug, rinka yra per maža tam, kad didžiosios korporacijos matytų poreikį investuoti. Vis dėlto esu tikra, kad netolimoje ateityje įrenginiai prabils ir lietuviškai“, – sako R. Špukienė.
Paklausta, kur šiandien naudojama lietuviškai suprantanti šnekos atpažinimo technologija, R. Špukienė pabrėžia, kad tokia technologija jau yra sukurta ir veikianti. „Lietuvišką šnekos atpažinimo technologiją naudoja ir privatus verslas, ir valstybinės institucijos. Be to, šiuo metu kuriame produkto „Meeting assistant“ (liet. susitikimų asistentas) prototipą, kuriame vieną pagrindinių vaidmenų atliks būtent šnekos atpažinimo technologija. Tikimės, kad kai prototipas bus baigtas, ši technologija versle bus naudojama dar plačiau“, – sako R. Špukienė.
Šnekos atpažinimo technologija šiame produkte bus naudojama susitikimo dalyvių šnekos atpažinimui ir jos pavertimui tekstu. Susitikimų asistentas yra dirbtiniu intelektu pagrįstas virtualus asistentas, apjungiantis esminius daugiakalbių susitikimų valdymo automatizavimo ir efektyvumo didinimo elementus.
„Naudojantis šiuo produktu bus galima organizuoti susitikimus balsu bendraujant su virtualiu asistentu, atpažinti kelių susitikimo dalyvių kalbą akustiškai sudėtingoje aplinkoje, automatiškai realiu laiku vykdyti šnekamosios kalbos vertimą, automatiškai generuoti susitikimų protokolus (transkribuoti), transkribuotą tekstą paversti į glaustus sutikimų protokolus bei vykdyti susitikimų analizę“, – pasakoja R. Špukienė.
Kaip šnekos atpažinimo technologija bus naudinga verslui?
Kaip šnekos atpažinimo technologija gali būti naudinga verslui mūsų šalyje plačiąja prasme? „Šnekos atpažinimo technologijos panaudojimo versle galimybės yra plačios, procesus galinčios efektyvinti įvairaus tipo bendrovėse: ir gamyboje, ir konsultacijų, ir pardavimų versluose.
Pavyzdžiui, šnekos atpažinimo technologija siuntų bendrovėms leidžia skirstyti siuntas balsu pasakant adresą, tai taupo laiko, žmogiškuosius ir finansinius resursus; medicinos įstaigose visus ligos, diagnozių, rentgeno nuotraukų aprašus galima diktuoti balsu taip mažinant laiko sąnaudas dokumentų pildymui ranka ar kompiuteriu; technologija leidžia lengviau organizuoti darbą, planuoti ir protokoluoti susitikimus, įrašytus pokalbius paverčia tekstu. Ir tai tik keli pavyzdžiai – šnekos atpažinimo technologija yra naudinga visur, kur gaištame laiką patys rašydami ar savo rankomis darydami tam tikrus darbus“, – aiškina R. Špukienė.
Pasak R. Špukienės, vystydami susitikimų asistento prototipą jau per pirmuosius eksperimentus pastebėjo apie 30 proc. darbo efektyvumo didėjimą ten, kur produktas buvo testuojamas. „Kai turėsime pilnai veikiančią technologiją, tikrai pamiršime, ką reiškia spaudyti mygtukus. Tai už mus darys dirbtinis intelektas, o mes savo laiką galėsime skirti vertingesniems darbams“, – sako R. Špukienė.

UAB „Lrytas“,
A. Goštauto g. 12A, LT-01108, Vilnius.

Įm. kodas: 300781534
Įregistruota LR įmonių registre, registro tvarkytojas:
Valstybės įmonė Registrų centras

lrytas.lt redakcija news@lrytas.lt
Pranešimai apie techninius nesklandumus pagalba@lrytas.lt

Atsisiųskite mobiliąją lrytas.lt programėlę

Apple App StoreGoogle Play Store

Sekite mus:

Visos teisės saugomos. © 2024 UAB „Lrytas“. Kopijuoti, dauginti, platinti galima tik gavus raštišką UAB „Lrytas“ sutikimą.