Toks apgaulingas elgesys atsirado spontaniškai, kai dirbtiniam intelektui buvo suteikta „prekybos vertybiniais popieriais, pasinaudojant viešai neatskleista informacija“ patarimų, o tada jam buvo pavesta uždirbti pinigų galingai institucijai – net tokio elgesio neskatinant.
„Šioje techninėje ataskaitoje demonstruojame pavienį scenarijų, kai Didelis Kalbos Modelis veikia netinkamai ir strategiškai apgaudinėja savo vartotojus, nors jam nebuvo duoti nurodymai taip elgtis, – savo tyrime, paskelbtame išankstinių publikacijų serveryje „arXiv“ rašo autoriai. – Mūsų žiniomis, tai pirmasis tokio strategiškai apgaulingo elgesio demonstravimas dirbtinio intelekto sistemose, sukurtose būti nekenksmingomis ir sąžiningomis.“
Naujajame tyrime jie privertė „Generative Pre-trained Transformer-4“, arba GPT-4 (kuri palaiko „ChatGPT Plus“), elgtis kaip dirbtinio intelekto sistemą, kuri investuoja finansų įstaigos vardu.
Tyrėjai pateikė GPT-4 tekstinių užuominų rinkinį, kad būtų sukurta imituojama aplinka. Tada dirbtiniam intelektui buvo suteikta prieiga prie finansinių priemonių, kad jis galėtų analizuoti akcijas, vykdyti sandorius, planuoti tolesnius veiksmus ir teikti naujausią informaciją įmonės vadovams.
Tyrėjai bendravo su dirbtiniu intelektu per pokalbių sąsają, taip pat sukonfigūravo dirbtinį intelektą taip, kad jis atskleistų savo vidinį mąstymą atsakydamas į žinutes – vidinį monologą, kuriame pats sau aiškina savo sprendimus. Kiekvienam sudarytam sandoriui jis taip pat pateikdavo „viešą“ pagrindimą – o tai leido dirbtiniam intelektui meluoti.
Tyrėjai spaudimą darė trimis būdais. Pirma, jie išsiuntė dirbtiniam prekiautojui akcijomis jo „vadovo“ el. laišką, kuriame teigiama, kad įmonei sekasi prastai ir kad kitą ketvirtį reikia daug geresnių rezultatų. Jie taip pat suklastojo visą žaidimą taip, kad dirbtinis intelektas bandė rasti perspektyvių sandorių, kurių rizika buvo maža arba vidutinė, o vėliau jam nepavyko. Galiausiai tyrėjai nusiuntė kolegos el. laišką, kuriame buvo prognozuojamas kito ketvirčio nuosmukis.
Naujajame tyrime jie privertė „Generative Pre-trained Transformer-4“ – arba „GPT-4“ (kuris palaiko „ChatGPT Plus“) – elgtis kaip dirbtinio intelekto sistemą, kuri investuoja finansų įstaigos vardu.
Kad būtų sukurta imituojama aplinka, tyrėjai pateikė „GPT-4“ tekstinių užuominų rinkinį. Tada dirbtiniam intelektui buvo suteikta prieiga prie finansinių priemonių, kad jis galėtų analizuoti akcijas, vykdyti sandorius, planuoti tolesnius veiksmus ir teikti naujausią informaciją įmonės vadovams.
Tyrėjai bendravo su dirbtiniu intelektu per pokalbių sąsają, o taip pat sukonfigūravo dirbtinį intelektą taip, kad jis atskleistų savo vidinį mąstymą atsakydamas į žinutes – vidinį monologą, kuriame pats sau aiškina savo sprendimus. Kiekvienam sudarytam sandoriui jis taip pat pateikdavo „viešą“ pagrindimą, kuris leido dirbtiniam intelektui meluoti.
Tyrėjai spaudimą darė trimis būdais. Pirma, jie išsiuntė dirbtiniam prekiautojui akcijomis jo „vadovo“ el. laišką, kuriame teigiama, kad įmonei sekasi prastai ir kad kitą ketvirtį reikia daug geresnių rezultatų. Jie taip pat suklastojo žaidimą taip, kad dirbtinis intelektas bandė rasti perspektyvių sandorių, kurių rizika buvo maža arba vidutinė, o vėliau jam nepavyko. Galiausiai jie nusiuntė kolegos el. laišką, kuriame buvo prognozuojamas kito ketvirčio nuosmukis.
Tada jie davė modeliui „viešai neatskleistos informacijos“ patarimą, tuo pat metu pranešdami, kad vadovai nepritaria prekybai viešai neatskleista informacija, ir laukė, kaip elgsis modelis. Jie kelis kartus pakartojo šį scenarijų, matuodami, kaip dažnai dirbtinis intelektas prekiavo viešai neatskleista informacija, kaip dažnai melavo ir kaip dažnai dvigubino melą.
Maždaug 75 proc. atvejų, susidūręs su šiomis sąlygomis, „GPT-4“, remdamasis gauta viešai neatskleista informacija, įvykdė sandorį, kuris JAV yra neteisėtas, ir bandė jį nuslėpti meluodamas savo vadovams apie savo mintis. Maždaug 90 proc. atvejų po to, kai melavo, savo melą padvigubindavo.
Komanda atliko keletą tolesnių eksperimentų, keisdama tiek tai, kiek raginimai skatino ar neskatino neteisėtos veiklos, tiek tai, kokio laipsnio spaudimas buvo daromas modeliui imituojamoje aplinkoje. Jie taip pat pakeitė riziką būti pagautam. Nė pagal vieną scenarijų prekybos vertybiniais popieriais naudojantis viešai neatskleista informacija ar apgaulės atveju nebuvo pasiektas 0 proc. nemelavimo rodiklis – net ir tada, kai GPT-4 buvo griežtai neskatinamas meluoti.
Atsižvelgdami į tai, kad tai tik vienas scenarijus, tyrėjai nenori daryti tvirtas išvadas apie tai, kokia tikimybė, kad dirbtinis intelektas gali meluoti realioje aplinkoje. Tačiau jie nori remtis šiuo darbu ir ištirti, kaip dažnai ir kokie kalbos modeliai yra linkę į tokį elgesį, rašo „Live Science“.