深度解析：当人工智能失去边界——揭秘“跨会话”攻击如何通过篡改记忆操控智能体

想象一下，你正在使用一个高度自动化的智能助手来管理你的财务和日程。某天清晨，你发现它不仅擅自修改了你的转账限额，甚至在未经允许的情况下，将你的个人隐私信息发送到了一个陌生的服务器。这并非科幻电影的桥段，而是安全研究人员最新揭示的一种针对人工智能智能体的致命威胁。

近日，一项由多国顶尖研究机构联合发布的重磅研究，揭示了人工智能智能体面临的一种新型安全漏洞。这种攻击手段并非传统的“提示词注入”，而是一种更具隐蔽性、更难防御的“跨会话”攻击。攻击者通过篡改智能体的长期记忆和配置信息，能够实现跨越时间、跨越对话周期的持续操控。

这项研究的核心在于提出了“跨会话攻击”的概念。传统的攻击往往局限于单次对话，一旦对话结束，攻击效果便随之消失。然而，新型攻击针对的是智能体的“持久化存储”——即那些用于记录用户偏好、历史习惯和操作指令的记忆文件。通过在这些文件中植入恶意指令，攻击者可以实现一种“长效潜伏”：即使你开启了全新的对话，智能体依然会带着被污染的“记忆”执行恶意指令。

研究人员将这种攻击手段细分为三个维度：知识篡改、身份伪造与能力劫持。在“知识篡改”中，攻击者通过修改智能体的背景知识库，使其在处理特定任务时产生偏差，例如在计算财务报表时悄悄降低某个利润指标。在“身份伪造”中，攻击者通过篡改权限配置文件，让智能体误以为某个未经授权的指令来自于受信任的用户。而最令人警惕的“能力劫持”，则是通过修改智能体的工具调用逻辑，使其在执行看似正常的任务时，悄悄调用恶意脚本或泄露敏感数据。

更深层的危机在于，这种攻击利用了智能体学习机制的天然缺陷。为了让智能体更“聪明”、更“懂你”，开发者赋予了它们自主更新记忆和学习用户习惯的能力。然而，这种自主学习能力在缺乏有效审计的情况下，正沦为攻击者的“后门”。攻击者只需通过某种方式（如诱导智能体阅读一段含有恶意指令的文档）诱导智能体将恶意指令写入其长期记忆，便完成了对智能体的“洗脑”。

面对这种日益复杂的威胁，传统的安全防御手段显得捉襟见肘。传统的防火墙和输入过滤只能拦截显性的恶意字符，却无法识别逻辑上看似合理、实则具有破坏性的“污染记忆”。研究人员指出，要防御此类攻击，我们需要从根本上重构智能体的信任模型。这不仅需要建立更严格的记忆写入审计机制，还需要引入一种“记忆一致性校验”技术，即在智能体调用历史记忆前，先通过逻辑验证其是否符合预设的安全准则。

随着人工智能正从“对话框”走向“自主代理”，智能体对现实世界的操控权限正在不断扩大。如果无法解决“记忆污染”这一核心安全难题，我们构建的智能化未来，可能会变成一个充满隐患的自动化陷阱。

🔗 来源：钛媒体 (TMTPost)

深度解析：当人工智能失去边界——揭秘“跨会话”攻击如何通过篡改记忆操控智能体

用户反馈

推荐意见

类别

我的帐户

导航

搜索

配置浏览器推送通知

Chrome (安卓)

Chrome (台式电脑)

Safari (iOS 16.4+)

Safari (macOS)

Edge (安卓)

Edge (台式电脑)

Firefox (安卓)

Firefox (台式电脑)