欧洲杯体育径直把Transformer里本来就有的MLP模块-开云(中国)kaiyun体育网址-登录入口

发布日期：2026-04-16 07:21 点击次数：198

鱼羊发自凹非寺

量子位 | 公众号 QbitAI

字节Seed最新权术，让大模子能“原地改参数”了。

既无谓改模子结构，也无谓从新查考，还跑得很快。

具体是这样个情况。智能体期间嘛，世界都知谈模子们濒临的任务运行变得越来越复杂、凹凸文越来越长。

怎样让大模子边干活边学习，不休合乎新的信息，而不是在超长凹凸文中逐渐崩溃，一经成为AI圈权术的一大约点。

测试时查考（TTT）让模子简略在推理时更新部分参数，但现实应用时，问题仍然很复杂：

领先，架构不兼容。现存的TTT需要引入全新的收集层，以至替换看重力机制，导致必须重新运行作念预查考。

其次，诡计后果低。现存的TTT接收一个Token一个Token的礼貌更新，无法充分足下GPU/TPU的并行诡计才气。

还有优化打算不匹配的问题。现存TTT多接收重建打算（reconstruction），只让模子记着面前的词，而不是为了瞻望下一个词遐想。也即是说，与说话模子中枢的“瞻望下一个Token”的任务不匹配。

针对这些问题，来自字节Seed和北京大学的权术团队思到了一个小妙招：

不新增层，也不改架构，径直把Transformer里本来就有的MLP模块，当成大模子的“临时小脑”。

这个名为In-Place TTT（原地测试时查考）的决策，让TTT不错算作即插即用的模块，无缝集成到现存的预查考大模子中。

实考阐明，Qwen3-4B、Llama3.1-8B、Qwen3-14B在装备In-Place TTT之后，都原地变强了，况兼在长文本任务上进步尤为光显。

这篇论文一经中了ICLR 2026 Oral。

让大模子在推理时“原地改参数”

话未几说，照旧来看论文的详备内容。

In-Place TTT中枢要科罚的问题，是在不折腾模子架构的前提下，让大模子在推理/恢复问题时，也能暗暗更新我方，适配面前的凹凸文。

终了即插即用，字节Seed和北大的权术东谈主员主要作念了3点创新。

原地架构遐想

在In-Place TTT中，权术东谈主员玄机地复用了Transformer中无处不在的MLP（多层感知机）。

他们将MLP的临了一个投影矩阵Wdown算作快速权重（fast weights），在推理时进行原地更新。

这样就无需引入新的专用层来处理快速权重。一经训好的大模子也不错拿来径直用，不必从新查考。

说话模子对皆的优化打算

原本的TTT只让模子“记着面前Token”，前文一经提到，这与说话模子的优化打算是不一致的。

为此，In-Place TTT遐想了挑升针对自转头说话模子的优化打算：

通过引入一维卷积（Conv1D）和投影矩阵，使TTT的打算值包含了将来 Token的信息，从而显式地与“瞻望下一个Token”的任务对皆。

权术东谈主员还分析阐明，这种作念法能促使快速权重压缩对将来瞻望有用的信息，从而灵验进步模子的凹凸文体习才气。

高效的块级更新机制

In-Place TTT是对MLP进行立异，保留了原有的看重力层，这就使得该措施不错终了分块更新，无谓再逐Token去向理。

协调凹凸文并行本领，In-Place能终了更高的微辞量和诡计后果，复古更长的凹凸文。

实验标明，In-Place TTT能大幅进步现存模子（如Qwen3-4B）在128K以至256K长凹凸文任务中的贯通。

在重新查考的对比中，也优于其他TTT措施。

权术团队

In-Place TTT的论文一作是冯古豪和罗胜杰。

冯古豪当今就读于北京大学，是字节Seed的实习生。

罗胜杰相同毕业于北大，师从王立威教养和本文通信作家贺笛教养。

本文的另一位通信作家是字节Seed的Wenhao Huang。

论文地址：

https://arxiv.org/abs/2604.06169v1