[LG]《EvolKV:EvolutionaryKVCacheCompr

爱生活爱珂珂 2025-09-12 06:40:05

[LG]《EvolKV: Evolutionary KV Cache Compression for LLM Inference》B Yu, Y Chai [University of Chinese Academy of Sciences & ETH Zurich] (2025)

EvolKV:首个基于进化算法的LLM KV Cache层级压缩框架,打破传统启发式分配限制,实现任务驱动的动态缓存预算优化。

• 重新定义KV Cache分配为多目标优化问题,兼顾内存效率与下游任务性能,采用CMA-ES进化策略,基于任务反馈迭代调整各层缓存预算。

• 采用层级分组机制(最佳组大小为8层)缩减搜索空间,提高算法稳定性与优化效率,支持多种性能指标(准确率、F1等),无需模型微调或架构改动。

• 在Mistral-7B-Instruct和Llama-3-8B-Instruct两个模型及11个任务上验证,覆盖长上下文检索、推理及数学题,显著领先PyramidKV、SnapKV、StreamingLLM等基线,最高提升7个百分点准确率。

• 低至1.5%缓存预算下,EvolKV在代码补全任务上超越全缓存性能,揭示非均匀、非金字塔式缓存分布对性能贡献的重要性。

• 优化结果具备强泛化能力,训练集外数据同样表现优异,支持预算从低到高平滑扩展,适配多模型系列及复杂长上下文任务。

• 推理时间和峰值内存消耗与现有压缩方法相当,远低于全缓存方案,具备极佳的实用部署价值。

心得:

1. KV Cache需求在不同层存在显著异质性,固定或金字塔式分配忽视了层间功能差异,任务驱动的动态分配更贴合模型实际信息处理机制。

2. 通过进化算法结合下游任务反馈,可有效探索复杂的非线性预算分配空间,避免人工规则的局限,提升长上下文推理能力。

3. 低预算下的非均匀缓存策略不仅节省资源,还可能激发模型更优表现,突破传统认为“更多缓存必然更好”的认知。

了解更多🔗arxiv.org/abs/2509.08315

人工智能大模型缓存压缩进化算法长上下文推理模型优化

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注