Ný mæling: Gervigreindin Claude skáldar minnst allra

Eitt stærsta vandamálið við nútíma gervigreind er svokallaðar ofskynjanir (e. hallucinations), þar sem mállíkön setja fram rangfærslur af mikilli sannfæringu. Nýlega vakti athygli nýr samanburðarkvarði, sem í hálfkæringi hefur verið kallaður „kjaftæðiskvarðinn“ (e. bullshit benchmark). Hann varpar ljósi á það hversu oft mismunandi gervigreindarforrit grípa til þess ráðs að skálda upplýsingar þegar þau vita ekki svörin.

Niðurstöðurnar draga upp mjög skýra mynd af stöðunni á markaðnum. Samkvæmt mælingunni sker gervigreindin Claude, sem þróuð er af sprotafyrirtækinu Anthropic, sig verulega frá helstu keppinautum sínum. Á meðan vinsæl líkön á borð við ChatGPT frá OpenAI og Gemini frá Google eiga það oftar til að fullyrða hluti sem eiga sér enga stoð í raunveruleikanum, virðist Claude mun varkárari og áreiðanlegri.

Þessi munur er engin tilviljun, enda hefur Anthropic lagt ríka áherslu á öryggi og nákvæmni í þróun sinni allt frá upphafi. Fyrir notendur sem reiða sig á gervigreind til að vinna úr mikilvægum gögnum, stunda rannsóknir eða skrifa fagtexta, getur þessi munur á áreiðanleika skipt sköpum. Margir tækniáhugamenn telja raunar að þessi hæfileiki Claude til að halda sig við staðreyndir sé ein og sér næg ástæða til að velja líkanið fram yfir stærstu keppinautana.