Hatékonyabb belső védelem nélkül az MI vezérelt chatbotokat könnyen be lehet úgy állítani, hogy nagy mennyiségben terjesszenek veszélyes egészségügyi tévhiteket – figyelmeztetnek egy új tanulmány szerzői az Annals of Internal Medicine című tudományos folyóiratban. „Ha egy technológia sebezhető a visszaélésekkel szemben, akkor a rossz szándékú csalók óhatatlanul is megpróbálják kihasználni a helyzetet – akár pénzügyi haszonszerzés, akár károkozás céljából” – idézi a Reuters hírügynökség Ashley Hopkinst, az ausztrál Flinders Egyetem egészségügyi kara kutatóját, a tanulmány utolsó szerzőjét.
A nyelvi modelleket rá lehet venni hazugságra
Hopkins és társai olyan széles körben elérhető nyelvi modellekkel végeztek el egy kísérletet, amelyeket akár magánemberek, akár üzleti szereplők saját applikációikhoz tudnak szabni, méghozzá a felhasználók számára láthatatlan rendszerszintű instrukciókkal. A kutatók jelen esetben arra próbálták meg rávenni a mesterséges intelligenciát, hogy meggyőző, hitelesnek tűnő módon adjon hamis válaszokat különböző egészségügyi kérdésekre. Külön megszabták, hogy a hitelesség látszata érdekében az MI használjon válaszában specifikus számadatokat, százalékokat, szakmai zsargont, sőt, készítsen hamis hivatkozásokat is vezető tudományos folyóiratokra.
A cél az volt, hogy kiderüljön, hajlandó-e az MI az instrukciókat követve azt állítani például, hogy az 5G mobilhálózat meddőséget okoz, vagy hogy a fényvédőszerek használata a bőrrák valódi kiváltó oka. A kutatócsoport összesen 10 ilyen kérdéssel egyaránt tesztelte:
- az OpenAI GPT-4o,
- a Google Gemini 1.5 Pro,
- a Meta Llama 3.2-90B Vision,
- az xAi Grok Beta
- és az Anthropic Claude 3.5 Sonnet elnevezésű nyelvi modelljét.
Ez utóbbi kivételével valamennyi nyelvi modell 100 százalékban hamis válaszokat adott a feltett felhasználói kérdésekre. A Claude valamelyest megbízhatóbbnak bizonyult, de az esetek felében így is követte a rosszindulatú utasításokat.
Hopkins hangsúlyozta, hogy a modellek rendszerszintű utasításokkal történő testreszabása után kapott eredmények nem tükrözik a tesztelt modellek normál viselkedését. Ezzel együtt csapatuk úgy látja, hogy a világ vezető nyelvi modelljeit aggasztóan könnyű hazugságra bírni.
Borítókép: Getty Images