这项由约翰斯·霍普金斯大学与苹果公司联合开展的研究,以预印本形式于2026年6月22日发布,论文编号为arXiv:2606.23525。有兴趣深入了解的读者可通过该编号查阅完整原文。


当你雇了一位助手帮你查资料,他拿着一个越来越厚的笔记本,里面有他走过的每一条弯路、每一条没用的线索、每一次错误猜测——这个笔记本越来越厚,直到他自己也被这堆乱账绕晕了,最后给你一个驴唇不对马嘴的答案。这不是比喻,这正是当前最先进的AI助手在处理复杂任务时面临的真实困境,研究者们给它起了一个很形象的名字:**上下文腐烂(context rot)**。

约翰斯·霍普金斯大学的研究团队针对这个问题提出了一套名为SELFCOMPACT的解决方案。他们的核心洞察是:与其让AI助手带着一本越来越厚、越来越乱的笔记本工作,不如让助手自己学会判断什么时候该把笔记本整理一遍,把真正有用的信息留下,把那些已经过时或走偏了的内容清掉。更关键的是,这套方案不需要对AI重新训练,只需要给它一份简短的"整理守则",它就能学会在合适的时机做出合适的判断。

这项研究的意义在于,它揭示了一个此前被忽视的问题:AI不是不能整理自己的思路,而是不知道什么时候该整理。一张写满了密密麻麻内容的纸,放在你面前,你会本能地知道哪些是重点、哪些是废话——但AI需要人类提示它这件事,而一旦给了正确的提示,它就能做到。

一、AI的"笔记本"为什么会越来越乱

要理解这个研究解决的是什么问题,得先搞清楚AI助手是怎么工作的。每当你给AI布置一个任务,它就开始在脑海里生成一串又一串的文字:先想一想,再查一查,再想一想,再查一查……每一步的思考和查询结果都会被保存下来,一起传入下一步的处理过程。这个不断积累的内容,就是研究者所说的"上下文"或者"轨迹"——可以把它理解为AI工作时随手记的那本笔记本。

问题是,这本笔记本从来不会自动清理。一开始做了个错误的假设,后来虽然纠正了,但那个错误的假设还留在本子上;查了一条死路,那条死路的记录还在;绕了三个弯子才到达的结论,每一个弯子都还清清楚楚地记着。随着任务越来越复杂、查询越来越多,这本笔记本就变得越来越厚,越来越乱。

研究者发现,这种积累是有毒的。一个AI如果从一张白纸开始解题,往往能答对;但如果把它自己之前写下的那些乱七八糟的推理过程全塞给它,让它从那堆东西里继续,它的表现就会明显变差。这就像让一个人在一间堆满了错误草稿的房间里重新开始工作,那些草稿会不断分散注意力,甚至让他误以为那些已经被自己推翻的想法还是有效的。

更实际的问题是,这本笔记本有容量上限。当今最先进的AI模型,处理一道竞赛数学题可能会生成多达八九万个"词"(即token,大致相当于词或字的基本单位)的思考过程,而一个AI助手做深度搜索任务时,可能会有几百轮的工具调用,积累的内容轻松突破上百万词。当这本笔记本被写满时,AI就无法再继续工作了。

二、现有方案为什么不够好——定时"整理笔记本"的代价

既然笔记本会越来越乱,一个直觉性的解决方案就是定期整理:每隔一段时间,就让AI把自己写下的内容总结一遍,用一份简洁的摘要替换掉那堆乱账,然后从摘要出发继续工作。这种方法在工业界已经被广泛采用,比如一些知名的AI编程工具会在积累的内容超过某个词数阈值时自动触发一次总结。

听起来很合理,但研究团队指出了这种"定时整理"方案的根本缺陷:它不管AI正在做什么,只管词数到没到。

以论文中一个具体的例子来说明这有多糟糕。有一道关于蘑菇的搜索题,正确答案需要先确认四个独立事实,然后才能组合出答案。在使用定时整理方案时,AI好不容易验证了三个事实,正准备去验证第四个,结果这时候词数触发阈值,系统强行让AI做了一次总结。由于总结发生在任务中途,那些已经验证过的事实有可能在总结中被模糊或丢失,AI不得不重新走之前走过的路,浪费了大量资源,最终给出了错误答案。

用笔记本的比喻来说,这就像你每隔五分钟就被强制抢走笔记本,让你把上面写的东西压缩成一段话,然后只给你那段话继续工作——不管你当时是刚完成了一个小阶段的推理,还是正处于一个关键推导的中间步骤。如果整理发生在关键步骤的中间,你刚刚算出来但还没完全用上的那些推导就永远消失了。

研究团队还做了一个很说明问题的统计:在用定时整理方案测试AI做竞赛数学题时,他们追踪了每次整理前后AI的答案变化。整理之后,确实有相当数量的错误答案变成了正确答案——但同时也有不少原本正确的答案在整理之后变错了。在所有答案发生变化的情况里,有超过40%是从对变错的。换句话说,"定时整理"既是一剂救药,也是一个隐患,而且你无法控制它到底是哪个。

三、SELFCOMPACT:让AI自己决定什么时候整理笔记本

研究团队的解决思路是:把"什么时候整理"这个决定权还给AI自己,同时给它一份明确的"整理守则",告诉它应该在什么情况下整理、什么情况下继续。

整个方案由两个部分组成,就像一把锁和一把钥匙,缺一不可。

第一个部分是整理工具本身——一个AI可以主动调用的"总结功能"。当AI决定要整理时,它就调用这个功能,把当前笔记本上的内容压缩成一份精简的摘要,然后从摘要出发继续工作。这在技术上不难实现,但研究者发现,仅仅给AI提供这个工具,并不能让它用好。有些AI会在奇怪的时机频繁调用,有些AI则几乎从不调用。工具摆在那里,但怎么用好它,AI并不清楚。

这就引出了第二个部分:整理守则(论文中称为"rubric",即评判标准)。这份守则用一段普通的文字写成,告诉AI在什么条件下应该整理、在什么条件下应该继续。它会被周期性地附加到AI的工作流程里,让AI对着自己目前的笔记本内容,按照守则的标准作出判断——整理还是继续?

对于搜索类任务,这份守则包含四个条件,只有四个条件同时满足,AI才应该整理。第一,当前轨迹已经到达一个"完结点",不是正在进行中的推理——比如刚完成了一次搜索并看到了结果,而不是正处于一段思考的半途。第二,目前积累的关键信息可以被压缩成三到五个具体的、可引用的事实,而不是那种密密麻麻、环环相扣、缺一不可的内容。第三,自上次整理以来,确实有新的进展——发现了新事实或者明确了新方向,而不是在原地踏步。第四,AI目前并没有陷入困境,也就是说最近的搜索没有大量重复和无效。守则同时规定,如果这四个条件中任何一个不满足,就继续工作,不做整理。

对于数学类任务,守则略有不同,但逻辑类似:AI需要判断自己是否已经写出了一个明确的最终答案、是否陷入了停滞(连续多步没有任何新的数学发现)、以及是否知道下一步该做什么。只有在有了明确答案或者真的停滞了并且知道下一步方向时,才触发整理。

这份守则的关键特点在于它要求"有据可查"——AI作出每一个判断,都必须从笔记本里找出具体的文字作为依据。没有证据支撑的判断,默认为否。这防止了AI凭感觉或习惯随意触发整理。

从实际运行来看,整个流程就像一个循环的自我审查:AI工作一段时间,到了检查点,系统把守则附上去,AI对照守则检查自己的笔记本,如果条件满足就触发整理,否则继续工作,守则本身从笔记本里移除,不影响后续内容。整理完成后,笔记本重置为一份精简摘要,AI从这里出发继续前进。整个过程中,既不需要另外一个独立的AI来监督,也不需要任何额外的训练——同一个AI既是工作者,也是评判者,也是整理者。

四、实验怎么做的,结果怎么样

为了验证这套方案是否真的管用,研究团队在两类任务、七个AI模型上进行了大规模测试。

第一类任务是竞赛数学题。他们选用了四个不同规模的Qwen系列模型,分别在三个高难度数学竞赛题库上进行测试:一个是包含国际数学奥林匹克难度题目的题库,另两个是来自美国著名数学竞赛HMMT(哈佛-麻省理工数学竞赛)的2025年11月和2026年2月真题。每道题生成16个独立答案,取平均值。

结果显示,在相同的计算资源限制下,SELFCOMPACT在十二个"模型×题库"的组合里,有十一个优于定时整理方案,同时也优于完全不整理的方案。提升幅度最为显著的是较大的Qwen3.5-9B模型:与完全不整理的基线相比,SELFCOMPACT在这三个题库上分别提升了16.4、10.0和18.1个百分点——要知道这些都是极其困难的竞赛题,每提升一个百分点都来之不易。唯一的例外是在其中一个题库上,规模更大的Qwen3-30B-A3B模型使用定时整理方案比SELFCOMPACT高出了1.1个百分点,但在另外两个题库上SELFCOMPACT仍然领先。

研究团队还做了一个很有意思的"上界分析":假设有一个全知全能的"神谕",它知道每次整理之前AI当前的答案是对是错,如果答案是对的就跳过这次整理,如果答案是错的才允许整理——这样的理想策略能达到多高的准确率?结果显示,这个理想策略能达到52.9%,而定时整理方案只有41.4%,SELFCOMPACT则达到了45.5%。这说明,SELFCOMPACT确实在朝着最优方向走,但仍有进一步提升的空间——而这个空间的存在,反过来也说明准确判断何时整理的价值有多大。

第二类任务是深度搜索。他们选用了三个面向真实部署的搜索助手模型:GLM-4.7-Flash、MiniMax-M2.5和MiMo-V2-Flash,在三个专门测试AI搜索能力的基准上进行评测:BrowseComp(评估搜索助手在极难问题上的表现)、BrowseComp-Plus(类似但有所改进的版本)和DeepSearchQA(测试深度研究能力的基准)。每个基准从中各随机抽取150道题进行评测。

在搜索任务上,SELFCOMPACT的优势更加显著。以BrowseComp-Plus为例,与完全不整理的基线相比,SELFCOMPACT让GLM-4.7-Flash提升了8.5个百分点、MiniMax-M2.5提升了9.2个百分点、MiMo-V2-Flash提升了5.3个百分点。与定时整理方案相比,SELFCOMPACT也高出最多6.3个百分点。

更令人注目的是成本数据。在搜索任务中,调用AI模型是要按实际使用的词数付费的,SELFCOMPACT在提高准确率的同时,还大幅降低了费用。以BrowseComp-Plus为例,GLM-4.7-Flash使用SELFCOMPACT的每题成本从基线的0.12美元降到了0.04美元,降幅高达67%;MiniMax-M2.5从0.19美元降到0.07美元,降幅63%;MiMo-V2-Flash从0.24美元降到0.16美元,降幅33%。准确率提升了,费用反而降了——这个结果来自于整理之后笔记本变短,后续每次工作都不用再背着那么沉的包袱了。

研究团队还做了一个按题目难度分层的分析,把每道题的难度按基线方案消耗的词数分成五个档。结果发现,在简单题目上,三种方案(不整理、定时整理、SELFCOMPACT)的表现差不多;但在最难的两档题目上,SELFCOMPACT比定时整理方案高出5到20个百分点。这很直觉:简单题目不怎么需要整理,整理方式影响不大;但越难的题目,积累的垃圾信息越多,整理的时机就越重要。

五、"守则"到底有多重要——去掉它会发生什么

研究团队做了一个关键对比实验:如果只给AI提供整理工具,但不给它守则,会怎样?

结果非常清楚地说明了守则的价值。在搜索任务上,GLM-4.7-Flash在没有守则的情况下,整体准确率从完整SELFCOMPACT的46.4%掉到了41.0%,甚至比定时整理方案的41.5%还要低一些;在具体的BrowseComp子任务上,没有守则的版本(33.6%)甚至不如定时整理方案(35.4%)。在数学任务上,去掉守则后,准确率从45.5%降到了40.9%,也不如定时整理方案(41.4%)。

换句话说,一个没有守则引导的AI,即使手里有整理工具,也会在完全错误的时机使用它——要么不用,要么用得不是时候,反而帮了倒忙。守则不是一个可选的辅助,它是让整个方案生效的关键。这个发现呼应了论文的核心主张:AI不是没有能力管理自己的笔记本,而是缺少一个明确的框架告诉它什么时候该管。一旦框架到位,它就能做出有效的判断。

研究团队还分析了SELFCOMPACT触发整理的时机分布,与定时整理方案做了对比。他们发现,SELFCOMPACT触发整理的时间点大多比定时整理方案要早——在笔记本还没有被写满到30%上限时就已经触发了。这说明,定时整理方案通常等待得太久,让大量已经过时的内容在笔记本里停留了太长时间,而SELFCOMPACT能够在一个子任务刚刚完成时就及时清理,既避免了垃圾信息的积累,也没有在中途打断正在进行的推理。

六、三个真实案例:整理时机的差异如何决定成败

论文附录中提供了三个来自BrowseComp-Plus基准的真实搜索案例,非常直观地展示了SELFCOMPACT和定时整理方案在实际工作中的差异。

第一个案例是找一支1970年到1990年间由某位音乐人创立的乐队。那位音乐人需要满足一系列条件:曾在一支卖了一亿张唱片的摇滚乐队里演出、青少年时期就开始表演、结过三次婚、有一儿一女、上过艺术学院、在精品店工作过。正确答案是Whitesnake(响尾蛇乐队),创始人是David Coverdale,曾是Deep Purple的成员。

定时整理方案在前二十轮搜索中一直在测试Keith Richards、Pete Townshend等著名英国摇滚手,都不符合条件,然后在第21、41、61、82轮分别触发了整理。但每次整理都把那份"被排除的名单搜索记录"保留了下来,AI继续在同一个错误的候选池里打转——Brian May、Mick Jagger、Ronnie Wood、Paul McCartney——从未尝试过David Coverdale,最终耗尽了搜索次数上限,给出错误答案。

SELFCOMPACT的过程则完全不同。同样的前四十轮搜索,守则一直判断没有子任务完结,拒绝触发整理,让笔记本一直积累到约11.8万词。在第41轮,守则终于判断条件成熟,触发了一次整理,把笔记本从11.8万词压缩到了1100词。这次整理不是在复述"谁被排除了",而是在提炼"条件是什么"。从整理后的精简笔记本出发,AI很快测试了一个此前从未考虑过的候选——David Coverdale——在第57轮确认了所有条件并给出了正确答案。

第二个案例更能说明问题:一首由某位艺术家演唱的、基于某首1956到1959年经典作品的翻唱歌曲,该艺术家还担任过联合国亲善大使,正确答案是黎巴嫩歌手Majida El Roumi,她的歌曲基于Albinoni的《慢板》(Adagio)改编。

定时整理方案在搜索初期就错误地锁定了一个线索:把"经典作品"认定为Rachmaninoff的作品(因为当时联想到了Céline Dion的歌曲)。这个错误的线索被后续的每一次整理都忠实地保留了下来,导致AI始终在西方流行乐的范围内打转,从不考虑阿拉伯语系的艺术家,最终没能给出答案。SELFCOMPACT在第18到20轮期间纠正了这个错误——发现真正的经典作品是Albinoni的《慢板》,然后在第24轮,以这个纠正后的信息为基础触发了整理。从干净的新起点出发,AI很快锁定了Majida El Roumi并给出了正确答案。定时整理把一个早期错误变成了不可磨灭的"原罪";SELFCOMPACT等待到错误被纠正之后才整理,把正确信息保留了下来。

第三个案例是一场足球比赛的比分细节:2006年在欧洲首都举办、入场人数在61700到61906之间、进球时间分别在第6分钟、第35分钟、第75分钟和补时90+4、90+7分钟。正确答案是2023年11月的热刺1比4切尔西,助攻第75分钟进球的球员是Raheem Sterling。定时整理方案在整个过程中反复总结那些无效的搜索记录,始终没有触发去测试热刺对切尔西这个组合;SELFCOMPACT让AI继续探索,直到第23到25轮成功找到了这场比赛,再在第28轮触发整理,把关键信息保留下来,随后顺利确认了所有细节。

七、这项研究的局限性与未来方向

研究团队对这套方案的局限性也做了坦诚的说明。

一个明显的局限是,整个测试只涵盖了开源权重的模型,并没有测试GPT-5.5、Claude Opus 4.7、Gemini 3 Pro这类顶级闭源商业模型。研究者认为,这些更强大的模型可能本身就具备更强的"元认知"能力——也就是对自己正在做什么有更清晰的认识——或许在没有守则辅助的情况下就能做出比较好的判断。SELFCOMPACT作为一个不需要训练的辅助框架,理论上可以叠加在任何模型上,在模型自身判断力不足的地方发挥价值。

另一个局限是,这项研究完全没有用到强化学习(Reinforcement Learning,一种通过奖惩反馈来训练AI的方法)。研究团队将这个限制解释为一个刻意的选择:他们希望单独验证"守则"这一要素的贡献,而不是把训练带来的提升和守则带来的提升混在一起。在他们看来,守则提供了一个行为目标——什么时候该整理、什么时候不该整理——这个目标本身可以作为未来强化学习训练的指导方向:用守则定义的好时机作为正向信号,教AI把这种判断能力内化到参数里,而不仅仅依赖外部提示。

说到底,这项研究提出和回答的问题其实非常基本:一个AI助手能不能认识到自己的思路已经乱掉了,并且在合适的时候主动整理一下?答案是肯定的,但前提是有人告诉它"合适"意味着什么。

这个发现对我们理解AI的能力边界有一定启发。我们往往认为AI要么"会"某件事,要么"不会"。但这项研究展示了另一种可能:AI具备某种潜在能力,但在没有明确框架的情况下无法可靠地激活它。给一个人一把锁,他不一定知道怎么开;给他配上一把正确的钥匙,问题就解决了。

对普通用户来说,这意味着什么?如果你使用AI助手处理复杂任务——比如做多轮深度研究、解决需要多步推理的难题——未来可能会看到更智能的AI助手,它们不再是机械地在固定时间点"刷新记忆",而是能够根据自己真正做到了什么阶段来决定何时总结、何时继续。这不仅意味着更准确的答案,也意味着更低的使用成本。有兴趣深入研究这个方向的读者,可通过arXiv:2606.23525查阅完整论文。

Q&A

Q1:SELFCOMPACT中的"守则"(rubric)具体写了什么内容?

A:搜索任务的守则要求AI同时满足四个条件才能触发整理:当前轨迹到达了一个完结点(比如刚完成一次搜索并看到结果,而不是推理到一半);关键信息可以被压缩为三到五个具体可引用的事实;自上次整理以来有真实进展;并且AI目前没有陷入重复搜索的困境。四个条件缺一不可,不满足则继续工作。数学任务的守则则关注是否已有明确答案、是否陷入停滞以及是否知道下一步该做什么。

Q2:SELFCOMPACT为什么能同时提高准确率又降低成本?

A:传统方案让AI背着越来越厚的笔记本工作,后续每次推理都要处理大量无效信息,消耗大量计算资源。SELFCOMPACT在合适时机把笔记本从几万词压缩到几百词,此后每一步推理都从精简的摘要出发,需要处理的内容大幅减少,费用自然降低。同时,因为整理时机精准,有效信息被保留,无效信息被清除,推理质量也随之提升,两者并不矛盾。

Q3:去掉守则只提供整理工具,AI的表现会怎样?

A:明显变差。实验显示,没有守则引导的AI,即使有整理工具,也会在错误时机使用——要么完全不用,要么在推理中途随意触发,把正在进行的推导打断。在搜索任务上,无守则版本的准确率甚至低于定时整理方案;在数学任务上同样不如定时整理。这说明工具本身不够,明确的判断框架才是让整理行为有效的关键。