泡泡资讯网

[LG]《Meta-Attention: Bayesian Per-Token

[LG]《Meta-Attention: Bayesian Per-Token Routing for Efficient Transformer Inference》A Ferrari [Knowledge Lab AG] (2026)

在长上下文推理中,全注意力准确但浪费,线性与局部注意力省算力却可能丢失关键依赖。过去方法固定一种机制,本质上无法判断“哪个token值得精算”。

本文的核心洞见是:把注意力机制选择看作贝叶斯后验推断。由此,Meta-Controller按token在全注意力、线性注意力、局部窗口间路由,并用不确定性决定软硬切换。

这项工作留下的是计算感知的token级注意力调度器。它打开了按证据购买注意力的新门,但尚未在大规模语言建模中验证真实FLOP节省与困惑度代价。

arxiv.org/abs/2605.28384 机器学习 人工智能 论文 AI创造营