[CL]《MixtureofNeuronExperts》RCheng, - 科技资讯(泡泡资讯网)

[CL]《Mixture of Neuron Experts》R Cheng, Y Guan, Y Ding, Q Hu... [Microsoft & Tsinghua University] (2025)

突破传统MoE稀疏激活瓶颈，实现更高效参数利用💡

🔍背景：传统Mixture-of-Experts（MoE）模型通过激活部分专家参数提升大模型计算效率，但其激活参数内部仍存大量冗余。

📊发现：实验证明，在推理阶段，MoE层激活的参数依然高度稀疏。对专家内按激活权重排名的神经元进行剪枝，剪掉60%激活参数性能几乎无损，超过90%才显著下降。

🧠创新：作者提出Mixture of Neuron Experts（MoNE）——将每个专家细分为“神经元专家”，在每个专家内部仅激活top-k神经元，极大提升激活参数利用率，无需额外路由参数或跨专家通信。

🚀优势：

- 激活参数仅为传统MoE的50%，性能不降反升

- 与传统MoE在相同激活参数规模下，MoNE表现更优

- 无额外通信延迟，计算效率持平传统MoE

- 引入神经元粒度负载均衡损失，均衡神经元激活，进一步提升性能

🔬实验覆盖925M与2.81B参数规模，涵盖多项下游任务，均验证MoNE的稳健性和效率优势。

✨总结：MoNE通过细化专家粒度，精准激活核心神经元，破解了传统MoE激活稀疏与计算资源浪费的矛盾，是推动大规模稀疏模型实用化与高效推理的实用路径。

阅读全文👉arxiv.org/abs/2510.05781

大模型 MoE 稀疏激活深度学习模型优化