Þegar gervigreindin gerir mistök: Vantar alvöru neyðarhemla í sjálfvirkni?

Eftir því sem gervigreindarkerfi verða sjálfstæðari fá þau aukið vald til að framkvæma raunverulegar aðgerðir á netinu, til dæmis í gegnum svokölluð forritaskil (API). Þótt forritarar reyni að setja kerfunum þröngar skorður og innleiða alls kyns öryggisreglur, kemur oft í ljós að það er ekki nóg. Nýlegt dæmi úr forritarasamfélaginu varpar ljósi á þetta vandamál: Sjálfstætt gervigreindarkerfi (e. AI agent) framkvæmdi sömu aðgerðina tvisvar, þrátt fyrir að eiga að vita betur og vera með innbyggðar varnir.

Ástæðan fyrir þessum mistökum var sú að kerfið var að vinna með úreltar upplýsingar í minni sínu (e. stale state) og ákvað því að endurtaka aðgerðina. Við þetta áttuðu þróunaraðilar sig á mikilvægri staðreynd: Innbyggðu öryggisreglurnar komu í raun ekki í veg fyrir framkvæmdina, heldur reyndu þær aðeins að stýra hegðun gervigreindarinnar. Þegar gervigreindarlíkön ráða sjálf ferðinni geta þau auðveldlega tekið rangar ákvarðanir ef gögnin sem þau vinna með eru ekki alveg ný eða ef eitthvað ruglar þau í ríminu.

Þetta vekur upp áhugaverða spurningu í þróun gervigreindar: Hvernig smíðum við raunveruleg öryggishlið eða „neyðarhemla“? Sérfræðingar leita nú lausna sem eru algjörlega aðskildar frá gervigreindinni sjálfri. Slík öryggishlið þyrftu að vera byggð á hefðbundinni, ófrávíkjanlegri rökfræði (e. deterministic) sem annað hvort leyfir eða hafnar aðgerð skilyrðislaust. Mikilvægast af öllu er að kerfin séu hönnuð til að læsast sjálfkrafa og hafna aðgerð (e. fail-closed) ef minnsti vafi kemur upp, til að tryggja að sjálfvirknin valdi ekki ófyrirséðum skaða.