[CL]《Pretrainingwithhierarchicalmemor

爱生活爱珂珂 2025-10-07 06:00:31

[CL]《Pretraining with hierarchical memories: separating long-tail and common knowledge》H Pouransari, D Grangier, C Thomas, M Kirchhof... [Apple] (2025)

预训练新突破|层级记忆助力语言模型高效掌握长尾知识

现代大语言模型(LLM)性能提升多靠参数规模扩大,但全面压缩世界知识进模型参数既不必要也不实用,尤其是边缘设备受限于内存和计算资源。苹果团队提出“带记忆的预训练”新架构:

🔹核心思路:用小型“锚模型”负责常识和推理能力,配合超大层级记忆库存储长尾知识。推理时只调用与上下文相关的记忆块,极大节省资源。

🔹技术亮点:

- 采用层级聚类对海量训练文档分层存储记忆参数(多达210亿参数),实现语义相关记忆稀疏激活,缓解遗忘问题。

- 记忆参数仅对相似内容激活更新,锚模型捕获通用知识。

- 记忆结构天然适配硬件层级存储(RAM→闪存→外部硬盘),提升加载效率和推理速度。

- 支持隐私保护和知识编辑:可针对特定记忆块进行删除、更新,甚至实现私有知识动态扩展。

🔹实验效果:

- 仅用160M参数的锚模型+18M记忆参数(从46亿参数记忆库检索)即可匹敌常规410M参数模型性能;

- 层级记忆对知识密集型任务(如元素原子序数预测)提升明显,尤其对低频长尾知识准确率提升超4倍;

- 同时提升了推理效率和训练通信效率,适合大规模分布式训练。

🔹探索与未来:

- 详细分析不同记忆类型(FFN记忆表现最佳)、层级深度、大小配置对性能的影响;

- 支持后期给开源模型(如Llama、Qwen)无缝加记忆提升能力;

- 未来将探索多语言和多模态扩展、记忆学习的规模定律等。

这项研究从根本上重新定义了知识与推理的模型结构分离,为边缘部署和大规模知识更新开辟新路径。

📄 阅读原文详解:arxiv.org/abs/2510.02375

大语言模型 预训练 机器学习 人工智能 知识存储 边缘计算 苹果AI

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注