[CL]《Pretrainingwithhierarchicalmemor

[CL]《Pretraining with hierarchical memories: separating long-tail and common knowledge》H Pouransari, D Grangier, C Thomas, M Kirchhof... [Apple] (2025)

预训练新突破｜层级记忆助力语言模型高效掌握长尾知识

现代大语言模型（LLM）性能提升多靠参数规模扩大，但全面压缩世界知识进模型参数既不必要也不实用，尤其是边缘设备受限于内存和计算资源。苹果团队提出“带记忆的预训练”新架构：

🔹核心思路：用小型“锚模型”负责常识和推理能力，配合超大层级记忆库存储长尾知识。推理时只调用与上下文相关的记忆块，极大节省资源。

🔹技术亮点：

- 采用层级聚类对海量训练文档分层存储记忆参数（多达210亿参数），实现语义相关记忆稀疏激活，缓解遗忘问题。

- 记忆参数仅对相似内容激活更新，锚模型捕获通用知识。

- 记忆结构天然适配硬件层级存储（RAM→闪存→外部硬盘），提升加载效率和推理速度。

- 支持隐私保护和知识编辑：可针对特定记忆块进行删除、更新，甚至实现私有知识动态扩展。

🔹实验效果：

- 仅用160M参数的锚模型+18M记忆参数（从46亿参数记忆库检索）即可匹敌常规410M参数模型性能；

- 层级记忆对知识密集型任务（如元素原子序数预测）提升明显，尤其对低频长尾知识准确率提升超4倍；

- 同时提升了推理效率和训练通信效率，适合大规模分布式训练。

🔹探索与未来：

- 详细分析不同记忆类型（FFN记忆表现最佳）、层级深度、大小配置对性能的影响；

- 支持后期给开源模型（如Llama、Qwen）无缝加记忆提升能力；

- 未来将探索多语言和多模态扩展、记忆学习的规模定律等。

这项研究从根本上重新定义了知识与推理的模型结构分离，为边缘部署和大规模知识更新开辟新路径。

📄 阅读原文详解：arxiv.org/abs/2510.02375

大语言模型预训练机器学习人工智能知识存储边缘计算苹果AI

0 阅读：0