[LG]《Meta-Attention: Bayesian Per-Token

[LG]《Meta-Attention: Bayesian Per-Token Routing for Efficient Transformer Inference》A Ferrari [Knowledge Lab AG] (2026)

在长上下文推理中，全注意力准确但浪费，线性与局部注意力省算力却可能丢失关键依赖。过去方法固定一种机制，本质上无法判断“哪个token值得精算”。

本文的核心洞见是：把注意力机制选择看作贝叶斯后验推断。由此，Meta-Controller按token在全注意力、线性注意力、局部窗口间路由，并用不确定性决定软硬切换。

这项工作留下的是计算感知的token级注意力调度器。它打开了按证据购买注意力的新门，但尚未在大规模语言建模中验证真实FLOP节省与困惑度代价。

arxiv.org/abs/2605.28384 机器学习人工智能论文 AI创造营

阅读：0 点赞：0

泡泡资讯网