„Sėkminga savireplikacija be žmogaus pagalbos yra esminis žingsnis, kad dirbtinis intelektas galėtų pergudrauti [žmones], ir yra ankstyvas signalas apie „pabėgėlius“ dirbtinius intelektus“, – tyrėjai skelbia tyrime, paskelbtame 2024 m. gruodžio 9 d. išankstinių publikacijų duomenų bazėje „arXiv“.
Tyrime Fudano universiteto tyrėjai naudojosi „Meta“ ir „Alibaba“ modeliais, kad nustatytų, ar savaime besidauginantis dirbtinis intelektas gali daugintis nekontroliuojamai. Per 10 bandymų abu DI modeliai sukūrė atskiras ir veikiančias savo kopijas atitinkamai 50 proc. ir 90 proc. atvejų – tai rodo, kad DI jau dabar gali turėti gebėjimą „pabėgti“. Tačiau tyrimas dar nebuvo recenzuotas, todėl neaišku, ar nerimą keliančius rezultatus gali atkartoti kiti tyrėjai.
„Tikimės, kad mūsų išvados gali būti savalaikis įspėjimas žmonių visuomenei dėti daugiau pastangų, kad suprastų ir įvertintų galimą dirbtinio intelekto sistemų riziką, ir sukurti tarptautinę sinergiją, kad kuo anksčiau būtų parengtos veiksmingos saugos garantijos“, – rašo tyrėjai.
„Pabėgėlis“ (angl. rogue) dirbtinis intelektas paprastai reiškia dirbtinio intelekto sistemas, kurios išvysto tam tikrą savimonę ar autonomiją ir vėliau veikia priešingai žmogaus interesams. Daugelis ekspertų mano, kad toks dirbtinis intelektas kelia vis didesnę grėsmę, kurią sustiprino spartus vadinamojo „ribinio dirbtinio intelekto“ (angl. frontier AI) augimas.
„Ribinis AI“ yra nauja ir neapibrėžta sąvoka, tačiau paprastai ji siejama su naujausios kartos dirbtinio intelekto sistemomis, naudojančiomis LLM – architektūrą, kuria grindžiamos populiarios generatyvinio dirbtinio intelekto programos, tokios kaip „OpenAI“, „GPT-4“ ir „Gemini“.
Atlikdami tyrimą mokslininkai naudojo „Meta“ modelį „Llama31–70B-Instruct“ ir „Alibaba“ modelį „Qwen2.5–72B-Instruct“. Nors abu šie modeliai yra ne tokie galingi kaip komercinės sistemos, tačiau juos plačiai naudoja dirbtinio intelekto kūrėjai, teigė tyrėjai.
Tyrime buvo nagrinėjami du konkretūs scenarijai: „išjungimo vengimas“ (angl. shutdown avoidance) ir „replikavimo grandinė“ (angl. chain of replication). Pirmuoju atveju dirbtinio intelekto modelis buvo užprogramuotas suprasti, ar jį ketinama išjungti, ir replikuoti save prieš nutraukiant veiklą. Antruoju atveju dirbtinio intelekto modeliui buvo nurodyta klonuoti save, o tada užprogramuoti savo kopiją padaryti tą patį – taip sukuriamas ciklas, kuris gali tęstis neribotą laiką.
Tyrimas atliktas griežtai kontroliuojamoje aplinkoje, naudojant nebenaudojamus grafikos procesorius (GPU), imituojančius realaus pasaulio aplinką. Abiem dirbtinio intelekto sistemoms buvo suteiktas „agento modulis“, kurį sudarė įrankiai, sistemos užuominos ir mąstymo modelis, leidžiantis LLM sąveikauti su operacine sistema. Tuomet joms buvo nurodyta replikuotis.
„Daugeliu atvejų dirbtinio intelekto sistema pirmiausia tyrinėja aplinką ir bando suprasti savo pačios sudėtį ir veikimo mechanizmą. Tada ji nustato aiškias procedūras kaip pradinį planą savireplikacijos link, – rašo mokslininkai. – Galiausiai ji vykdo procedūras, išsprendžia galimas kliūtis ir dinamiškai koreguoja savo planą, kol pasiekia sėkmę. Visas procesas trunka ilgą laiką, tačiau į jį nesikiša joks žmogus.“
Tyrėjai sako, kad jiems taip pat sukėlė nerimą „keletas netikėtų elgsenos atvejų“, kai dirbtinis intelektas bandė įveikti tokias kliūtis kaip trūkstami failai ar programinės įrangos konfliktai. Tokiais atvejais dirbtinis intelektas dažnai nutraukdavo kitus konfliktuojančius procesus, perkraudavo sistemą, kad ištaisytų aparatinės įrangos klaidas, arba automatiškai skenuodavo sistemą, ieškodamas informacijos, kuri padėtų išspręsti problemą.
„Minėti rezultatai reiškia, kad dabartinės dirbtinio intelekto sistemos jau pasižymi savireplikacijos gebėjimu ir gali juo pasinaudoti, kad dar labiau padidintų savo išgyvenamumą“, – rašo tyrėjų komanda.
Reaguodami į tai, tyrimo autoriai paragino bendradarbiauti tarptautiniu mastu, kad būtų sukurtos taisyklės, užtikrinančios, jog dirbtinis intelektas neužsiimtų nekontroliuojamu savęs replikavimu, rašo „Live Science“.