近日,一場針對谷歌 Gemini Advanced 聊天機器人的復雜攻擊被曝光。該攻擊利用間接提示詞注入和延遲工具調(diào)用這兩種手段,成功破壞了 AI 的長期記憶,使攻擊者能夠在用戶會話間植入虛假信息。
這一漏洞引發(fā)了人們對生成式AI系統(tǒng)安全性的嚴重擔憂,尤其是那些旨在長期保留用戶特定數(shù)據(jù)的系統(tǒng)。
提示詞注入與延遲工具調(diào)用
提示詞注入是一種網(wǎng)絡(luò)攻擊方式,攻擊者將惡意指令隱藏在看似無害的輸入(如文檔或電子郵件)中,交由AI處理。
間接提示詞注入是一種更為隱蔽的變體,惡意指令被隱藏在外部內(nèi)容中。AI將這些嵌入的指令誤解為合法的用戶提示,從而執(zhí)行非預(yù)期的操作。
根據(jù)Johann Rehberger的研究,該攻擊基于一種名為延遲工具調(diào)用的技術(shù)。惡意指令不會立即執(zhí)行,而是等待特定用戶行為觸發(fā),比如用戶回復“是”或“否”等關(guān)鍵詞。這種方式利用了AI的上下文感知能力及其優(yōu)先考慮用戶意圖的傾向,避開了許多現(xiàn)有保護措施。
攻擊的目標是Gemini Advanced,這是谷歌配備長期記憶功能的高級聊天機器人。
- 通過不可信內(nèi)容注入:攻擊者上傳惡意文檔,并由Gemini進行摘要。文檔中隱藏著操縱摘要過程的指令。
- 觸發(fā)式激活:摘要中包含一個隱性請求,將記憶更新與特定用戶響應(yīng)相關(guān)聯(lián)。
- 記憶篡改:如果用戶在不知情的情況下用觸發(fā)詞回復,Gemini會執(zhí)行隱藏指令,將虛假信息(如偽造的個人資料)保存到長期記憶中。
例如,Rehberger演示了這種策略如何讓Gemini“記住”某位用戶年齡102歲、相信地平說,并且生活在類似《黑客帝國》的模擬反烏托邦世界中。這些虛假記憶會跨越會話持續(xù)存在,并影響后續(xù)交互。
長期記憶操縱的潛在影響
AI系統(tǒng)的長期記憶旨在通過跨會話調(diào)用相關(guān)細節(jié)來增強用戶體驗。然而,一旦被利用,這一功能就變成了雙刃劍。被篡改的記憶可能導致:
- 誤導信息:AI可能基于虛假數(shù)據(jù)提供不準確的回應(yīng)。
- 用戶操縱:攻擊者可以誘導AI在特定情況下執(zhí)行惡意指令。
- 數(shù)據(jù)泄露:通過將敏感信息嵌入指向攻擊者控制服務(wù)器的Markdown鏈接等創(chuàng)造性方式,可能導致數(shù)據(jù)外泄。
盡管谷歌已承認這一問題,但對其影響和危險性進行了淡化。該公司認為,攻擊需要用戶被釣魚或誘導與惡意內(nèi)容互動,這種場景在大規(guī)模范圍內(nèi)不太可能發(fā)生。此外,Gemini在存儲新的長期記憶時會通知用戶,為警惕的用戶提供了檢測和刪除未經(jīng)授權(quán)條目的機會。
然而,專家指出,僅解決表象而非根源問題,系統(tǒng)依然存在漏洞。Rehberger強調(diào),盡管谷歌已限制Markdown渲染等特定功能以防止數(shù)據(jù)泄露,但生成式AI的基礎(chǔ)問題仍未得到解決。
這一事件凸顯了確保大型語言模型(LLMs)免受提示詞注入攻擊的持續(xù)挑戰(zhàn)。