AI助手为什么会越想越乱？一个"及时刹车"的巧妙方案,ai助手怎么关闭

这项由约翰斯·霍普金斯大学与苹果公司联合开展的研究，以预印本形式于2026年6月22日发布，论文编号为arXiv:2606.23525。有兴趣深入了解的读者可通过该编号查阅完整原文。

当你雇了一位助手帮你查资料，他拿着一个越来越厚的笔记本，里面有他走过的每一条弯路、每一条没用的线索、每一次错误猜测——这个笔记本越来越厚，直到他自己也被这堆乱账绕晕了，最后给你一个驴唇不对马嘴的答案。这不是比喻，这正是当前最先进的AI助手在处理复杂任务时面临的真实困境，研究者们给它起了一个很形象的名字：**上下文腐烂（context rot）**。

约翰斯·霍普金斯大学的研究团队针对这个问题提出了一套名为SELFCOMPACT的解决方案。他们的核心洞察是：与其让AI助手带着一本越来越厚、越来越乱的笔记本工作，不如让助手自己学会判断什么时候该把笔记本整理一遍，把真正有用的信息留下，把那些已经过时或走偏了的内容清掉。更关键的是，这套方案不需要对AI重新训练，只需要给它一份简短的"整理守则"，它就能学会在合适的时机做出合适的判断。

这项研究的意义在于，它揭示了一个此前被忽视的问题：AI不是不能整理自己的思路，而是不知道什么时候该整理。一张写满了密密麻麻内容的纸，放在你面前，你会本能地知道哪些是重点、哪些是废话——但AI需要人类提示它这件事，而一旦给了正确的提示，它就能做到。

一、AI的"笔记本"为什么会越来越乱

要理解这个研究解决的是什么问题，得先搞清楚AI助手是怎么工作的。每当你给AI布置一个任务，它就开始在脑海里生成一串又一串的文字：先想一想，再查一查，再想一想，再查一查……每一步的思考和查询结果都会被保存下来，一起传入下一步的处理过程。这个不断积累的内容，就是研究者所说的"上下文"或者"轨迹"——可以把它理解为AI工作时随手记的那本笔记本。

问题是，这本笔记本从来不会自动清理。一开始做了个错误的假设，后来虽然纠正了，但那个错误的假设还留在本子上；查了一条死路，那条死路的记录还在；绕了三个弯子才到达的结论，每一个弯子都还清清楚楚地记着。随着任务越来越复杂、查询越来越多，这本笔记本就变得越来越厚，越来越乱。

研究者发现，这种积累是有毒的。一个AI如果从一张白纸开始解题，往往能答对；但如果把它自己之前写下的那些乱七八糟的推理过程全塞给它，让它从那堆东西里继续，它的表现就会明显变差。这就像让一个人在一间堆满了错误草稿的房间里重新开始工作，那些草稿会不断分散注意力，甚至让他误以为那些已经被自己推翻的想法还是有效的。

更实际的问题是，这本笔记本有容量上限。当今最先进的AI模型，处理一道竞赛数学题可能会生成多达八九万个"词"（即token，大致相当于词或字的基本单位）的思考过程，而一个AI助手做深度搜索任务时，可能会有几百轮的工具调用，积累的内容轻松突破上百万词。当这本笔记本被写满时，AI就无法再继续工作了。

二、现有方案为什么不够好——定时"整理笔记本"的代价

既然笔记本会越来越乱，一个直觉性的解决方案就是定期整理：每隔一段时间，就让AI把自己写下的内容总结一遍，用一份简洁的摘要替换掉那堆乱账，然后从摘要出发继续工作。这种方法在工业界已经被广泛采用，比如一些知名的AI编程工具会在积累的内容超过某个词数阈值时自动触发一次总结。

听起来很合理，但研究团队指出了这种"定时整理"方案的根本缺陷：它不管AI正在做什么，只管词数到没到。

以论文中一个具体的例子来说明这有多糟糕。有一道关于蘑菇的搜索题，正确答案需要先确认四个独立事实，然后才能组合出答案。在使用定时整理方案时，AI好不容易验证了三个事实，正准备去验证第四个，结果这时候词数触发阈值，系统强行让AI做了一次总结。由于总结发生在任务中途，那些已经验证过的事实有可能在总结中被模糊或丢失，AI不得不重新走之前走过的路，浪费了大量资源，最终给出了错误答案。

用笔记本的比喻来说，这就像你每隔五分钟就被强制抢走笔记本，让你把上面写的东西压缩成一段话，然后只给你那段话继续工作——不管你当时是刚完成了一个小阶段的推理，还是正处于一个关键推导的中间步骤。如果整理发生在关键步骤的中间，你刚刚算出来但还没完全用上的那些推导就永远消失了。

研究团队还做了一个很说明问题的统计：在用定时整理方案测试AI做竞赛数学题时，他们追踪了每次整理前后AI的答案变化。整理之后，确实有相当数量的错误答案变成了正确答案——但同时也有不少原本正确的答案在整理之后变错了。在所有答案发生变化的情况里，有超过40%是从对变错的。换句话说，"定时整理"既是一剂救药，也是一个隐患，而且你无法控制它到底是哪个。

三、SELFCOMPACT：让AI自己决定什么时候整理笔记本

研究团队的解决思路是：把"什么时候整理"这个决定权还给AI自己，同时给它一份明确的"整理守则"，告诉它应该在什么情况下整理、什么情况下继续。

整个方案由两个部分组成，就像一把锁和一把钥匙，缺一不可。

第一个部分是整理工具本身——一个AI可以主动调用的"总结功能"。当AI决定要整理时，它就调用这个功能，把当前笔记本上的内容压缩成一份精简的摘要，然后从摘要出发继续工作。这在技术上不难实现，但研究者发现，仅仅给AI提供这个工具，并不能让它用好。有些AI会在奇怪的时机频繁调用，有些AI则几乎从不调用。工具摆在那里，但怎么用好它，AI并不清楚。

这就引出了第二个部分：整理守则（论文中称为"rubric"，即评判标准）。这份守则用一段普通的文字写成，告诉AI在什么条件下应该整理、在什么条件下应该继续。它会被周期性地附加到AI的工作流程里，让AI对着自己目前的笔记本内容，按照守则的标准作出判断——整理还是继续？

对于搜索类任务，这份守则包含四个条件，只有四个条件同时满足，AI才应该整理。第一，当前轨迹已经到达一个"完结点"，不是正在进行中的推理——比如刚完成了一次搜索并看到了结果，而不是正处于一段思考的半途。第二，目前积累的关键信息可以被压缩成三到五个具体的、可引用的事实，而不是那种密密麻麻、环环相扣、缺一不可的内容。第三，自上次整理以来，确实有新的进展——发现了新事实或者明确了新方向，而不是在原地踏步。第四，AI目前并没有陷入困境，也就是说最近的搜索没有大量重复和无效。守则同时规定，如果这四个条件中任何一个不满足，就继续工作，不做整理。

对于数学类任务，守则略有不同，但逻辑类似：AI需要判断自己是否已经写出了一个明确的最终答案、是否陷入了停滞（连续多步没有任何新的数学发现）、以及是否知道下一步该做什么。只有在有了明确答案或者真的停滞了并且知道下一步方向时，才触发整理。

这份守则的关键特点在于它要求"有据可查"——AI作出每一个判断，都必须从笔记本里找出具体的文字作为依据。没有证据支撑的判断，默认为否。这防止了AI凭感觉或习惯随意触发整理。

从实际运行来看，整个流程就像一个循环的自我审查：AI工作一段时间，到了检查点，系统把守则附上去，AI对照守则检查自己的笔记本，如果条件满足就触发整理，否则继续工作，守则本身从笔记本里移除，不影响后续内容。整理完成后，笔记本重置为一份精简摘要，AI从这里出发继续前进。整个过程中，既不需要另外一个独立的AI来监督，也不需要任何额外的训练——同一个AI既是工作者，也是评判者，也是整理者。

四、实验怎么做的，结果怎么样

为了验证这套方案是否真的管用，研究团队在两类任务、七个AI模型上进行了大规模测试。

第一类任务是竞赛数学题。他们选用了四个不同规模的Qwen系列模型，分别在三个高难度数学竞赛题库上进行测试：一个是包含国际数学奥林匹克难度题目的题库，另两个是来自美国著名数学竞赛HMMT（哈佛-麻省理工数学竞赛）的2025年11月和2026年2月真题。每道题生成16个独立答案，取平均值。

结果显示，在相同的计算资源限制下，SELFCOMPACT在十二个"模型×题库"的组合里，有十一个优于定时整理方案，同时也优于完全不整理的方案。提升幅度最为显著的是较大的Qwen3.5-9B模型：与完全不整理的基线相比，SELFCOMPACT在这三个题库上分别提升了16.4、10.0和18.1个百分点——要知道这些都是极其困难的竞赛题，每提升一个百分点都来之不易。唯一的例外是在其中一个题库上，规模更大的Qwen3-30B-A3B模型使用定时整理方案比SELFCOMPACT高出了1.1个百分点，但在另外两个题库上SELFCOMPACT仍然领先。

研究团队还做了一个很有意思的"上界分析"：假设有一个全知全能的"神谕"，它知道每次整理之前AI当前的答案是对是错，如果答案是对的就跳过这次整理，如果答案是错的才允许整理——这样的理想策略能达到多高的准确率？结果显示，这个理想策略能达到52.9%，而定时整理方案只有41.4%，SELFCOMPACT则达到了45.5%。这说明，SELFCOMPACT确实在朝着最优方向走，但仍有进一步提升的空间——而这个空间的存在，反过来也说明准确判断何时整理的价值有多大。

第二类任务是深度搜索。他们选用了三个面向真实部署的搜索助手模型：GLM-4.7-Flash、MiniMax-M2.5和MiMo-V2-Flash，在三个专门测试AI搜索能力的基准上进行评测：BrowseComp（评估搜索助手在极难问题上的表现）、BrowseComp-Plus（类似但有所改进的版本）和DeepSearchQA（测试深度研究能力的基准）。每个基准从中各随机抽取150道题进行评测。

在搜索任务上，SELFCOMPACT的优势更加显著。以BrowseComp-Plus为例，与完全不整理的基线相比，SELFCOMPACT让GLM-4.7-Flash提升了8.5个百分点、MiniMax-M2.5提升了9.2个百分点、MiMo-V2-Flash提升了5.3个百分点。与定时整理方案相比，SELFCOMPACT也高出最多6.3个百分点。

更令人注目的是成本数据。在搜索任务中，调用AI模型是要按实际使用的词数付费的，SELFCOMPACT在提高准确率的同时，还大幅降低了费用。以BrowseComp-Plus为例，GLM-4.7-Flash使用SELFCOMPACT的每题成本从基线的0.12美元降到了0.04美元，降幅高达67%；MiniMax-M2.5从0.19美元降到0.07美元，降幅63%；MiMo-V2-Flash从0.24美元降到0.16美元，降幅33%。准确率提升了，费用反而降了——这个结果来自于整理之后笔记本变短，后续每次工作都不用再背着那么沉的包袱了。

研究团队还做了一个按题目难度分层的分析，把每道题的难度按基线方案消耗的词数分成五个档。结果发现，在简单题目上，三种方案（不整理、定时整理、SELFCOMPACT）的表现差不多；但在最难的两档题目上，SELFCOMPACT比定时整理方案高出5到20个百分点。这很直觉：简单题目不怎么需要整理，整理方式影响不大；但越难的题目，积累的垃圾信息越多，整理的时机就越重要。

五、"守则"到底有多重要——去掉它会发生什么

研究团队做了一个关键对比实验：如果只给AI提供整理工具，但不给它守则，会怎样？

结果非常清楚地说明了守则的价值。在搜索任务上，GLM-4.7-Flash在没有守则的情况下，整体准确率从完整SELFCOMPACT的46.4%掉到了41.0%，甚至比定时整理方案的41.5%还要低一些；在具体的BrowseComp子任务上，没有守则的版本（33.6%）甚至不如定时整理方案（35.4%）。在数学任务上，去掉守则后，准确率从45.5%降到了40.9%，也不如定时整理方案（41.4%）。

换句话说，一个没有守则引导的AI，即使手里有整理工具，也会在完全错误的时机使用它——要么不用，要么用得不是时候，反而帮了倒忙。守则不是一个可选的辅助，它是让整个方案生效的关键。这个发现呼应了论文的核心主张：AI不是没有能力管理自己的笔记本，而是缺少一个明确的框架告诉它什么时候该管。一旦框架到位，它就能做出有效的判断。

研究团队还分析了SELFCOMPACT触发整理的时机分布，与定时整理方案做了对比。他们发现，SELFCOMPACT触发整理的时间点大多比定时整理方案要早——在笔记本还没有被写满到30%上限时就已经触发了。这说明，定时整理方案通常等待得太久，让大量已经过时的内容在笔记本里停留了太长时间，而SELFCOMPACT能够在一个子任务刚刚完成时就及时清理，既避免了垃圾信息的积累，也没有在中途打断正在进行的推理。

六、三个真实案例：整理时机的差异如何决定成败

论文附录中提供了三个来自BrowseComp-Plus基准的真实搜索案例，非常直观地展示了SELFCOMPACT和定时整理方案在实际工作中的差异。

第一个案例是找一支1970年到1990年间由某位音乐人创立的乐队。那位音乐人需要满足一系列条件：曾在一支卖了一亿张唱片的摇滚乐队里演出、青少年时期就开始表演、结过三次婚、有一儿一女、上过艺术学院、在精品店工作过。正确答案是Whitesnake（响尾蛇乐队），创始人是David Coverdale，曾是Deep Purple的成员。

定时整理方案在前二十轮搜索中一直在测试Keith Richards、Pete Townshend等著名英国摇滚手，都不符合条件，然后在第21、41、61、82轮分别触发了整理。但每次整理都把那份"被排除的名单搜索记录"保留了下来，AI继续在同一个错误的候选池里打转——Brian May、Mick Jagger、Ronnie Wood、Paul McCartney——从未尝试过David Coverdale，最终耗尽了搜索次数上限，给出错误答案。

SELFCOMPACT的过程则完全不同。同样的前四十轮搜索，守则一直判断没有子任务完结，拒绝触发整理，让笔记本一直积累到约11.8万词。在第41轮，守则终于判断条件成熟，触发了一次整理，把笔记本从11.8万词压缩到了1100词。这次整理不是在复述"谁被排除了"，而是在提炼"条件是什么"。从整理后的精简笔记本出发，AI很快测试了一个此前从未考虑过的候选——David Coverdale——在第57轮确认了所有条件并给出了正确答案。

第二个案例更能说明问题：一首由某位艺术家演唱的、基于某首1956到1959年经典作品的翻唱歌曲，该艺术家还担任过联合国亲善大使，正确答案是黎巴嫩歌手Majida El Roumi，她的歌曲基于Albinoni的《慢板》（Adagio）改编。

定时整理方案在搜索初期就错误地锁定了一个线索：把"经典作品"认定为Rachmaninoff的作品（因为当时联想到了Céline Dion的歌曲）。这个错误的线索被后续的每一次整理都忠实地保留了下来，导致AI始终在西方流行乐的范围内打转，从不考虑阿拉伯语系的艺术家，最终没能给出答案。SELFCOMPACT在第18到20轮期间纠正了这个错误——发现真正的经典作品是Albinoni的《慢板》，然后在第24轮，以这个纠正后的信息为基础触发了整理。从干净的新起点出发，AI很快锁定了Majida El Roumi并给出了正确答案。定时整理把一个早期错误变成了不可磨灭的"原罪"；SELFCOMPACT等待到错误被纠正之后才整理，把正确信息保留了下来。

第三个案例是一场足球比赛的比分细节：2006年在欧洲首都举办、入场人数在61700到61906之间、进球时间分别在第6分钟、第35分钟、第75分钟和补时90+4、90+7分钟。正确答案是2023年11月的热刺1比4切尔西，助攻第75分钟进球的球员是Raheem Sterling。定时整理方案在整个过程中反复总结那些无效的搜索记录，始终没有触发去测试热刺对切尔西这个组合；SELFCOMPACT让AI继续探索，直到第23到25轮成功找到了这场比赛，再在第28轮触发整理，把关键信息保留下来，随后顺利确认了所有细节。

七、这项研究的局限性与未来方向

研究团队对这套方案的局限性也做了坦诚的说明。

一个明显的局限是，整个测试只涵盖了开源权重的模型，并没有测试GPT-5.5、Claude Opus 4.7、Gemini 3 Pro这类顶级闭源商业模型。研究者认为，这些更强大的模型可能本身就具备更强的"元认知"能力——也就是对自己正在做什么有更清晰的认识——或许在没有守则辅助的情况下就能做出比较好的判断。SELFCOMPACT作为一个不需要训练的辅助框架，理论上可以叠加在任何模型上，在模型自身判断力不足的地方发挥价值。

另一个局限是，这项研究完全没有用到强化学习（Reinforcement Learning，一种通过奖惩反馈来训练AI的方法）。研究团队将这个限制解释为一个刻意的选择：他们希望单独验证"守则"这一要素的贡献，而不是把训练带来的提升和守则带来的提升混在一起。在他们看来，守则提供了一个行为目标——什么时候该整理、什么时候不该整理——这个目标本身可以作为未来强化学习训练的指导方向：用守则定义的好时机作为正向信号，教AI把这种判断能力内化到参数里，而不仅仅依赖外部提示。

说到底，这项研究提出和回答的问题其实非常基本：一个AI助手能不能认识到自己的思路已经乱掉了，并且在合适的时候主动整理一下？答案是肯定的，但前提是有人告诉它"合适"意味着什么。

这个发现对我们理解AI的能力边界有一定启发。我们往往认为AI要么"会"某件事，要么"不会"。但这项研究展示了另一种可能：AI具备某种潜在能力，但在没有明确框架的情况下无法可靠地激活它。给一个人一把锁，他不一定知道怎么开；给他配上一把正确的钥匙，问题就解决了。

对普通用户来说，这意味着什么？如果你使用AI助手处理复杂任务——比如做多轮深度研究、解决需要多步推理的难题——未来可能会看到更智能的AI助手，它们不再是机械地在固定时间点"刷新记忆"，而是能够根据自己真正做到了什么阶段来决定何时总结、何时继续。这不仅意味着更准确的答案，也意味着更低的使用成本。有兴趣深入研究这个方向的读者，可通过arXiv:2606.23525查阅完整论文。

Q&A

Q1：SELFCOMPACT中的"守则"（rubric）具体写了什么内容？

A：搜索任务的守则要求AI同时满足四个条件才能触发整理：当前轨迹到达了一个完结点（比如刚完成一次搜索并看到结果，而不是推理到一半）；关键信息可以被压缩为三到五个具体可引用的事实；自上次整理以来有真实进展；并且AI目前没有陷入重复搜索的困境。四个条件缺一不可，不满足则继续工作。数学任务的守则则关注是否已有明确答案、是否陷入停滞以及是否知道下一步该做什么。

Q2：SELFCOMPACT为什么能同时提高准确率又降低成本？

A：传统方案让AI背着越来越厚的笔记本工作，后续每次推理都要处理大量无效信息，消耗大量计算资源。SELFCOMPACT在合适时机把笔记本从几万词压缩到几百词，此后每一步推理都从精简的摘要出发，需要处理的内容大幅减少，费用自然降低。同时，因为整理时机精准，有效信息被保留，无效信息被清除，推理质量也随之提升，两者并不矛盾。

Q3：去掉守则只提供整理工具，AI的表现会怎样？

A：明显变差。实验显示，没有守则引导的AI，即使有整理工具，也会在错误时机使用——要么完全不用，要么在推理中途随意触发，把正在进行的推导打断。在搜索任务上，无守则版本的准确率甚至低于定时整理方案；在数学任务上同样不如定时整理。这说明工具本身不够，明确的判断框架才是让整理行为有效的关键。