„Už kiekvieno dirbtinio intelekto modelio – „ChatGPT“, „Bing Chat“ ar „Google Bard“ – slypi galingas mokomųjų duomenų korpusas, kurio didžioji dalis yra surinkta iš interneto, taikant web-scraping technologiją. Mes kalbame apie milijonus, kai kuriais atvejais net milijardus duomenų taškų (angl. data points), kurie, sprendžiant užduotis, DI įrankiams suteikia tikslumą“, – sako didžiųjų duomenų rinkimo sprendimus kuriančios bendrovės „Oxylabs“ vykdomasis direktorius Juras Juršėnas.
Pasak jo, dirbtinio intelekto apmokymo procesai nėra paprasti – DI pasaulyje taikoma pagrindinė taisyklė: įvesi šlamštą, gausi šlamštą, todėl dirbtinio intelekto modelių kokybė priklauso nuo duomenų, kuriuos ji gaus pradžioje. Tai reiškia, kad norint išnaudoti visą platformos potencialą, reikia didžiulio kiekio patikimų duomenų, kurių gavimas šiuo metu yra vienas iš pagrindinių iššūkių DI modelių tobulinimo procese.
Daugiau žalos, negu naudos
Dirbtiniam intelektui suteikiame vis didesnį pasitikėjimą priimant įvairius sprendimus, o tuo pačiu suprantame, kad ateityje jo svarba tik augs. Todėl itin konkurencingoje technologijų rinkoje net mažiausios klaidos gali pridaryti didžiulių nuostolių.
„Nekokybiškų duomenų taikymas apmokant dirbtinio intelekto sistemas gali padaryti rimtos žalos verslui. Su tuo neseniai susidūrė „Google“ korporacija, kuri patyrė 100 milijardo dolerių nuostolius vos per vieną dieną po to, kai pristatė DI paieškos įrankį „Bard“, kuris nesugebėjo teisingai atsakyti net į paprastus klausimus.
Su problemomis susidūrė ir „Microsoft“, kai 2016 m. jų sukurtas pokalbių robotas (angl. chatbot), netrukus po paleidimo, pradėjo reikšti rasistinius komentarus. Todėl labai svarbu rasti patikimus partnerius, kurie suteiktų tinkamus ir etiškai surinktus pradinius duomenis“, – pasakoja J. Juršėnas.
Kartu su DI populiarumu auga ir didžiųjų duomenų aktualumas
Anot didžiųjų duomenų rinkimo sprendimų eksperto, vis daugiau verslų investuoja į dirbtinio intelekto sprendimų vystymą. DI patraukė net technologijų skeptikų dėmesį, kurie dabar ieško būdų, kaip jį integruoti į savo įmonių veiklą. Netrukus taps norma, kad įmonės savo kasdienėje veikloje naudoja dirbtinį intelektą, o tai reiškia, kad tie, kurie šios technologijos neįsisavins, gali greitai atsilikti nuo konkurentų.
„Dirbtinio intelekto revoliucijos naudą užtikrins duomenų kokybė – iš kokybiškų duomenų galima gauti naudingų DI generuojamų įžvalgų, kurios padeda diegti naujoves bei priimti tam tikrus verslo sprendimus. Web-scraping įrankiai prisideda prie pažangių dirbtinio intelekto modelių kūrimo, teikiant milžiniškus kiekius duomenų. Tačiau šie duomenys turi būti kruopščiai valdomi ir įsigyjami iš patikimų ir etiškų sprendimų teikėjų. Vienas klaidingas žingsnis gali kainuoti itin brangiai“, – sako J. Juršėnas.
Direktorius priduria, jog DI įrankių apmokymui reikalingų duomenų kiekis ateityje ir toliau sparčiai augs, nes už kiekvieno kokybiško DI modelio stovi kokybiški duomenys. Todėl kiekvieną dieną dirbame tobuliname web-scraping sprendimus, kad galėtume suteikti patikimus, saugius ir etiškus duomenis DI modeliams, kurie keičia mūsų kasdienybę.