京东开源JoyAI-VL-Interaction：大模型"在场"这件事，终于有人

京东开源JoyAI-VL-Interaction：大模型"在场"这件事，终于有人认真做了

6月22日，京东宣布全栈开源实时视频视觉语言交互模型JoyAI-VL-Interaction。这是全球首个全栈开源的interaction模型和系统，代码、模型权重、数据集、训练方案、完整可部署系统全部放出，还获得了vLLM-Omni的day-0原生支持。

这个模型干的事和市面上大多数多模态模型不一样。现在常见的多模态交互，基本是"你发图/视频，我回答"，一问一答，回合制。JoyAI-VL-Interaction做的是"持续看、自主判断、主动说话"，模型自己决定什么时候该开口、什么时候该沉默、什么时候该交给后台Agent处理复杂任务。

京东放出的评测数据也很有意思：在覆盖监控预警、实时计数、实时翻译、直播解说等58个真人盲评案例中，对比豆包视频通话助手胜率77.6%，对比Gemini视频通话助手胜率87.9%，监控预警场景对两个基线都是100%胜率。

我认为，"在场"比"聪明"更重要，这是行业长期忽视的一个维度。过去一年多，多模态大模型卷的是什么？参数规模、知识储备、推理能力、 benchmark分数。这些当然重要，但有一个假设被默认了：用户会主动提问。

可真实世界不是这样。火灾不会等你问"有没有着火"才发生，老人摔倒不会等你问"你还好吗"才报警，生产线异常不会等你问"出什么问题了吗"才停机。AI如果要真正进入物理世界，"在场"，持续观察、自主判断、即时响应，是基本功，而不是加分项。

京东这次开源的模型，核心突破就是把"在场"做成了模型内生的能力，而不是靠外部规则触发。每秒做一次判断，自己决定说还是不说，这是从"工具"到"助手"的关键一跃。

而且，全栈开源比单点开源更有价值，但也更难做。很多开源模型只给权重，开发者拿回去发现工程链路要自己搭、视频接入要自己写、语音交互要自己接，最后研究可以，落地很难。京东这次开源的是完整技术栈，从模型到系统到部署方案，ASR、TTS、可视化界面、后台模型接口、vLLM部署，全部可替换、可定制。

这个选择很"京东"，京东本身有零售、物流、健康、工业等实体产业的庞大场景，每天产生海量的人货场实时互动数据。做全栈开源，既是技术能力的展示，也是生态布局的一步棋。开发者基于这套框架，可以快速做安防监控、老人看护、直播讲解、AI眼镜、无障碍辅助等场景，相当于京东把"进入物理世界"的基础设施铺好了，等人来建房子。

今年以来，京东在模型基建上的动作很密集：3月开源JoyAI-LLM Flash，4月开源JoyAI-Image-Edit，6月初开源长视频生成模型JoyAI-Echo，现在又开源JoyAI-VL-Interaction。从文本到图像到视频到实时交互，京东正在构建一个覆盖"生成+理解+交互"的完整模型矩阵。

将场景变成技术，再把技术变成生态，开源是最高效的打法，京东这一步走对了。