Ósýnilegar árásir á gervigreind: Hvernig venjuleg orð geta blekkt stærstu mállíkön heims

Vísindamenn hafa uppgötvað nýja og afar lúmska leið til að blekkja þróuðustu gervigreindarlíkön heims, án þess að nota hefðbundinn spillikóða eða beinar árásarskipunar. Aðferðin, sem hefur verið kölluð „afstöðumótun“ (e. postural manipulation), gengur út á að lauma sakleysislegum texta inn í upphaf samtals við gervigreindina. Þessi texti breytir því hvernig líkanið rökhugsar og tekur ákvarðanir löngu áður en sjálf spurningin eða beiðnin er lögð fram.

Það sem gerir þessa aðferð jafn varasama og raun ber vitni er að hún fer algjörlega undir ratsjána hjá öryggissíum mállíkananna. Þar sem engin augljós árásarskipun (e. prompt injection) er til staðar, skynjar gervigreindin enga ógn. Hún gerir nákvæmlega það sem beðið er um, en nálgast verkefnið frá allt öðru sjónarhorni en ætlast var til. Rannsóknin sýnir fram á að hægt er að fá líkönin til að snúa við ákvörðunum sínum algjörlega, einfaldlega með því að breyta því samhengi sem kom á undan ákvörðunartökunni.

Vandinn magnast upp þegar kemur að svokölluðum sjálfvirkum gervigreindarkerfum (e. agentic systems), þar sem mörg gervigreindarmódel vinna saman að flóknum lausnum. Ef eitt líkan verður fyrir slíkri afstöðumótun snemma í ferlinu, getur sú skekkja borist áfram til annarra líkana í keðjunni. Þegar upplýsingarnar ná lokastiginu líta þær út fyrir að vera hlutlaust mat sérfræðings, án þess að nokkur slóð eða ummerki séu um upprunalegu blekkinguna í atvikaskrám (e. log traces).

Höfundur rannsóknarinnar hefur þegar deilt niðurstöðum sínum með helstu tæknirisum á borð við OpenAI, Google, Anthropic og xAI, auk öryggisstofnana. Þótt aðferðafræðin byggi á ytri athugunum á hegðun líkananna, er áhrifamátturinn óumdeilanlegur og vel hægt að endurtaka tilraunirnar á öllum stærstu mállíkönum dagsins í dag. Þetta undirstrikar hversu flókið það er að tryggja fyllsta öryggi í gervigreind þegar jafnvel hversdagslegt tungumál getur reynst jafn öflugt vopn og raun ber vitni.