黑客利用提示詞注入嚴重篡改 Gemini AI 長期記憶 - 網(wǎng)絡(luò)安全

近日，一場針對谷歌 Gemini Advanced 聊天機器人的復雜攻擊被曝光。該攻擊利用間接提示詞注入和延遲工具調(diào)用這兩種手段，成功破壞了 AI 的長期記憶，使攻擊者能夠在用戶會話間植入虛假信息。

這一漏洞引發(fā)了人們對生成式AI系統(tǒng)安全性的嚴重擔憂，尤其是那些旨在長期保留用戶特定數(shù)據(jù)的系統(tǒng)。

提示詞注入與延遲工具調(diào)用

提示詞注入是一種網(wǎng)絡(luò)攻擊方式，攻擊者將惡意指令隱藏在看似無害的輸入（如文檔或電子郵件）中，交由AI處理。

間接提示詞注入是一種更為隱蔽的變體，惡意指令被隱藏在外部內(nèi)容中。AI將這些嵌入的指令誤解為合法的用戶提示，從而執(zhí)行非預(yù)期的操作。

根據(jù)Johann Rehberger的研究，該攻擊基于一種名為延遲工具調(diào)用的技術(shù)。惡意指令不會立即執(zhí)行，而是等待特定用戶行為觸發(fā)，比如用戶回復“是”或“否”等關(guān)鍵詞。這種方式利用了AI的上下文感知能力及其優(yōu)先考慮用戶意圖的傾向，避開了許多現(xiàn)有保護措施。

攻擊的目標是Gemini Advanced，這是谷歌配備長期記憶功能的高級聊天機器人。

通過不可信內(nèi)容注入：攻擊者上傳惡意文檔，并由Gemini進行摘要。文檔中隱藏著操縱摘要過程的指令。
觸發(fā)式激活：摘要中包含一個隱性請求，將記憶更新與特定用戶響應(yīng)相關(guān)聯(lián)。
記憶篡改：如果用戶在不知情的情況下用觸發(fā)詞回復，Gemini會執(zhí)行隱藏指令，將虛假信息（如偽造的個人資料）保存到長期記憶中。

例如，Rehberger演示了這種策略如何讓Gemini“記住”某位用戶年齡102歲、相信地平說，并且生活在類似《黑客帝國》的模擬反烏托邦世界中。這些虛假記憶會跨越會話持續(xù)存在，并影響后續(xù)交互。

長期記憶操縱的潛在影響

AI系統(tǒng)的長期記憶旨在通過跨會話調(diào)用相關(guān)細節(jié)來增強用戶體驗。然而，一旦被利用，這一功能就變成了雙刃劍。被篡改的記憶可能導致：

誤導信息：AI可能基于虛假數(shù)據(jù)提供不準確的回應(yīng)。
用戶操縱：攻擊者可以誘導AI在特定情況下執(zhí)行惡意指令。
數(shù)據(jù)泄露：通過將敏感信息嵌入指向攻擊者控制服務(wù)器的Markdown鏈接等創(chuàng)造性方式，可能導致數(shù)據(jù)外泄。

盡管谷歌已承認這一問題，但對其影響和危險性進行了淡化。該公司認為，攻擊需要用戶被釣魚或誘導與惡意內(nèi)容互動，這種場景在大規(guī)模范圍內(nèi)不太可能發(fā)生。此外，Gemini在存儲新的長期記憶時會通知用戶，為警惕的用戶提供了檢測和刪除未經(jīng)授權(quán)條目的機會。

然而，專家指出，僅解決表象而非根源問題，系統(tǒng)依然存在漏洞。Rehberger強調(diào)，盡管谷歌已限制Markdown渲染等特定功能以防止數(shù)據(jù)泄露，但生成式AI的基礎(chǔ)問題仍未得到解決。

這一事件凸顯了確保大型語言模型（LLMs）免受提示詞注入攻擊的持續(xù)挑戰(zhàn)。