Automatinio šnekos atpažinimo technologija yra pagrįsta giluminių neuroninių tinklų modeliu, kuris dirbtinį intelektą išmoko atpažinti žodžius ir tam tikras jų struktūras. Mokymui panaudota daugiau kaip 250 valandų garsynas, 58 milijonai lietuviškų sakinių ir per 600 tūkstančių žodžių. Ypatingas dėmesys skirtas raktažodžiams, susijusiems su verslo komunikacija.
„Anksčiau norint stebėti TV, radijo laidas ar video įrašus socialiniuose tinkluose bei internete, prireikdavo daug žmogiškojo darbo. Kasdien fiziškai peržiūrėdavome keliasdešimt valandų įrašų. Tačiau eterio stebėjimo poreikiai auga dešimtis kartų – nes nuolat daugėja video turinio, o auditorijos fragmentuojasi skirtinguose kanaluose. Tad ši optimalių kaštų technologija padės operatyviai analizuoti didėjančius netekstinės informacijos srautus ir matyti išsamų komunikacijos vaizdą“, – sakė „Kantar TNS“ Komunikacijos monitoringo ir analizės skyriaus vadovas Deividas Butkus.
Darbą pagreitins aštuonis kartus
Sprendimo technologiją kūrusios „Tilde IT“ bendrovės direktorė Renata Špukienė sako, kad didžiausias iššūkis buvo kalbos unikalumas – mat kitaip nei anglų kalboje, lietuvių žodžių kintamos galūnės gerokai išplečia galimas reikšmes. Sukurta technologija sugeba greitai paversti garsą tekstu, naudoja skyrybos ženklus, o atpažinimo tikslumas žinių laidų atveju siekia apie 90 procentų.
„Iki šiol norint perklausyti ir tekstu paversti, t.y. sutranskribuoti, valandos įrašą – žmogui prireikdavo maždaug keturių valandų. Dabar tokios trukmės įrašą paversti tekstu dirbtinio intelekto sistema gali per pusvalandį. Be to, lygiagrečiai bus dirbama keliais kanalais, tokiu būdu dar labiau padidinant apdorojamos medžiagos apimtis. O tuomet jau darbas vyksta kaip ir su tekstu: lengva paieška pagal raktažodžius, archyvavimas, subtitravimas“, – dėstė R. Špukienė.
Pasak D. Butkaus, technologija itin supaprastins ir naudojimąsi archyvine garso bei TV medžiaga.
„Nepaversti tekstu garso įrašai yra pasmerkti anksčiau ar vėliau nugulti užmarštin. Juk paieškos varikliai iš esmės randa tik tai, kas įtraukta pavadinime ar reportažo apraše. Todėl seniau būdavo itin keblu rasti, tarkime, penkerių metų senumo video įrašą su reikiamu raktažodžiu, pavyzdžiui, PVM lengvata. Su šia inovacija tai bus paprasta. O darbuotojai daugiau laiko galės skirti analizei ir konsultacijoms, o ne juodam techniniam darbui“, – sakė „Kantar TNS“ monitoringo ir analizės skyriaus vadovas. Be to, technologija padės iškart rasti reikiamas vietas įraše ir net pateiks išklotines su laiko titrais, kuriose atkarpose yra reikiami raktažodžiai.
Be pritaikymo komunikacijos analizei, „Kantar TNS“ nagrinėja galimybes naudoti šnekos atpažinimą atliekant medijų reklamos monitoringą ir kokybinius tyrimus.
Geriau žurnalistams ir skambučių centrų darbuotojams
„Tilde IT“ vadovė R. Špukienė įsitikinusi, kad tokia sistema keliskart paspartins ne tik žiniasklaidos monitoringą. Panaudojimas gerokai platesnis: operatyvus žinių laidų subtitravimas, pagreitintas interviu ar tekstų po renginio parengimas žurnalistams, paprastesnis susirinkimų ar posėdžių stenografavimas – tai tik keli šios technologijos pritaikymo būdai.
Pasak jos, neuroniniais tinklais grindžiamo dirbtinio intelekto technologija, pritaikyta ištisinės lietuvių kalbos atpažinimui, yra pirmoji Lietuvoje. Latvijoje jau veikia “„Tilde“ kurtas latvių kalbos atpažinimo prototipas.
„Kantar TNS“ ir „Tilde IT“ ekspertai prognozuoja, jog vis daugėjant garso ir vaizdo informacijos, ilgainiui be šnekos atpažinimo technologijų negalės išsiversti jokia su duomenimis dirbanti bendrovė ar organizacija. Vis dėlto, nors šis dirbtinis intelektas ir pagreitins bei suefektyvins darbą su audio ir video medžiaga, pasak ekspertų, be žmogaus dalyvavimo kol kas neišsivers.