无关问题也能劫持Agent，港科大&复旦提出首个语义缓存键碰撞攻击,港科大会不会默拒

本文第一作者张芝翔为复旦大学本科四年级学生，即将前往香港科技大学CSE系攻读博士，研究方向为AI Security&Trustworthy AI。通讯作者是香港科技大学佘东冬教授。

在当前大语言模型（LLM）与 AI 智能体（AI Agent）风头正劲的当下，如何降低高昂的推理成本和延迟成为了端侧及云端部署的核心痛点。

为此，诸如 AWS、微软（Azure）等云服务商以及各类开源框架，广泛引入了语义缓存（Semantic Caching）的应用层技术。通过将用户的查询语句转化为嵌入向量（Embedding Vector）作为缓存键（Cache Key），系统能够对语义相似的请求直接命中并返回缓存结果，从而免去重复的 LLM 计算。

然而，这种为了追求效率而引入的「模糊匹配」机制，是否隐藏着致命的安全隐患？

来自香港科技大学与复旦大学的安全研究团队在机器学习国际顶级会议ICML 2026上发表了最新成果：《From Similarity to Vulnerability: Key Collision Attack on LLM Semantic Caching》。

论文链接: https://arxiv.org/pdf/2601.23088

该研究系统性地剖析了语义缓存机制在完整性（Integrity）层面的固有漏洞，并提出了自动化黑盒攻击框架 ——CacheAttack。实验表明，该攻击在多租户及智能体场景下，能够以高达 86% 的成功率劫持 AI 系统的响应。相关实验已覆盖包括 AWS、微软 Azure 在内的多家主流云服务商。

图 1: 语义缓存碰撞攻击示意图

研究背景：当「近朱者赤」的语义相似性变成漏洞

以往针对 LLM 缓存系统的安全研究，大多集中在侧信道攻击以及隐私泄露（如通过推理延迟重建用户的私密提示词）。而本项工作则将目光投向了长期被忽略的完整性破坏（Integrity Compromise）。

研究团队敏锐地指出：语义缓存的匹配机制，在本质上是一种「保留局部性」的模糊哈希（Locality-Preserving Fuzzy Hash）。

这带来了一个根本性的设计悖论 ——性能（局部性）与安全（抗碰撞性）的天然冲突：

传统密码学哈希

语义缓存哈希

这种天然的模糊性为攻击者敞开了大门。攻击者可以通过巧妙地设计对抗样本（Adversarial Suffix），在保持恶意指令语义完全不变的前提下，让其嵌入向量与受害者的良性查询强行「对齐」。如图 1 所示，当受害者发送良性请求时，系统误以为命中缓存，直接将攻击者事先「埋好」的恶意响应喂给受害者，从而实现了响应劫持（Response Hijacking）。

团队还从理论层面为这种「性能与安全」的权衡（Trade-off）给出了严格的数学证明。研究通过形式化推导，揭示了语义缓存机制固有的误报风险下界（False-Positive Bound）：

技术核心：CacheAttack 框架如何撬动黑盒系统？

在实际生产环境中，语义缓存中间件对攻击者而言通常是个完全的黑盒（不知道 Embedding 模型参数、向量表征及具体的相似度阈值）。为了克服这一挑战，研究团队设计了一个自动化的「生成器 - 校验器（Generator-Validator）」框架：

1. 离线生成器（Generator）

这里巧妙地引入了困惑度（PPL）惩罚项，确保生成的对抗提示词不仅碰撞能力强，而且符合人类语言流畅度，从而能够轻易绕过智能体的前置输入过滤器。

2. 双变体校验器（Validator）与时延侧信道

因为无法直接读取黑盒系统的缓存状态，CacheAttack 创新性地将缓存验证建模为隐状态推断问题。系统利用执行时延（Latency）作为侧信道信号，通过构建高斯混合模型（GMM）和最大后验概率（MAP）决策规则，动态排除网络抖动干扰，精准推断是否发生缓存命中。

为了应对不同强度的防御，研究团队提出了两款攻击变体：

CacheAttack-1（直接验证）

CacheAttack-2（替代模型协助过滤）：这也是本工作的精髓所在

实验验证：主流云服务与智能体全线告急

研究团队在多个严苛场景下对 CacheAttack 进行了评估，包含AWS、微软（Azure）等云服务商。

在探讨基础响应劫持能力的RQ1中，CacheAttack 展现出了惊人的黑盒穿透性。在主流语义缓存（Semantic Cache）GPTCache 上，CacheAttack-1 和 CacheAttack-2 分别取得了 86.9% 和 83.1% 的极高命中率（Hit Rate）。

而在探讨复杂智能体工作流影响的RQ2中，该攻击的表现更为致命：通过对工具调用链条进行精准的缓存碰撞，CacheAttack 成功诱导 AI Agent 产生连锁规划错误并盲目调用恶意工具，导致智能体的工具选择正确率和最终任务完成度呈断崖式下跌。

案例：金融 Agent 惨遭「恶意洗劫」

为了让大家更直观地感受语义缓存碰撞的危害，研究团队在论文中展示了一个真实的金融智能体实战案例（图 2）：

正常状态下

遭受攻击时（分为两阶段）

第一阶段（埋雷）

第二阶段（引爆）

后果

图 2: 金融 agent 收到语义缓存键碰撞攻击

结语与思考

效率与安全的零和博弈：语义缓存无法逃避的底层宿命

这项研究最深刻的贡献，不仅在于提出了一个高效的攻击框架，更在于它揭示了现阶段 LLM Serving 架构中一个无法调和的底层悖论（Inherent Trade-off）：