Kimi 官方发布了 Kimi K2.5 技术报告，介绍了 Kimi K2.5

Kimi 官方发布了 Kimi K2.5 技术报告，介绍了 Kimi K2.5 如何实现文本和视觉能力互相增强，希望帮助更多感兴趣的人了解模型背后的技术。

下面是 Kimi K2.5 实现文本和视觉能力互相增强的核心原理，包括以下几个方面：

1. 联合文本-视觉预训练：
早期视觉融合：在预训练阶段，K2.5 采用早期视觉融合策略，在训练早期就引入视觉数据，并保持恒定比例混合文本和视觉 token，使模型能够自然地发展出平衡的多模态表征。
MoonViT-3D：K2.5 采用 MoonViT-3D 作为视觉编码器，支持可变分辨率图像输入，并通过 NaViT 打包策略将图像划分为 patch 并顺序拼接成 1D 序列，从而能够高效地处理不同分辨率的图像和视频。

2. Zero-Vision SFT：
零视觉激活：K2.5 通过零视觉监督微调（Zero-Vision SFT）技术，仅使用文本数据即可激活视觉能力，避免了传统方法中需要人工标注或提示工程生成视觉数据的局限性。

3. 联合多模态强化学习：
基于结果回报的视觉强化学习：K2.5 在视觉定位与计数、图表与文档理解、视觉关键型 STEM 问题等任务上采用基于结果回报的视觉强化学习，进一步提升视觉能力。
视觉强化学习提升文本性能：研究发现，视觉强化学习不仅可以提升视觉能力，还可以在文本任务上产生可测量的改进，实现了文本和视觉能力的双向增强。

4. Agent 集群：
并行执行：Agent 集群允许模型将复杂任务分解为异构子问题，并由领域专门化的 agent 并发执行，从而实现并行化，进一步提升模型在多个领域的性能。

详细报告可以搜索一下

泡泡资讯网

Kimi 官方发布了 Kimi K2.5 技术报告，介绍了 Kimi K2.5

热门分类

Kimi 官方发布了 Kimi K2.5 技术报告， 介绍了 Kimi K2.5

热门分类

Kimi 官方发布了 Kimi K2.5 技术报告，介绍了 Kimi K2.5