泡泡资讯网

京东开源JoyAI-VL-Interaction:大模型"在场"这件事,终于有人

京东开源JoyAI-VL-Interaction:大模型"在场"这件事,终于有人认真做了

6月22日,京东宣布全栈开源实时视频视觉语言交互模型JoyAI-VL-Interaction。这是全球首个全栈开源的interaction模型和系统,代码、模型权重、数据集、训练方案、完整可部署系统全部放出,还获得了vLLM-Omni的day-0原生支持。

这个模型干的事和市面上大多数多模态模型不一样。现在常见的多模态交互,基本是"你发图/视频,我回答",一问一答,回合制。JoyAI-VL-Interaction做的是"持续看、自主判断、主动说话",模型自己决定什么时候该开口、什么时候该沉默、什么时候该交给后台Agent处理复杂任务。

京东放出的评测数据也很有意思:在覆盖监控预警、实时计数、实时翻译、直播解说等58个真人盲评案例中,对比豆包视频通话助手胜率77.6%,对比Gemini视频通话助手胜率87.9%,监控预警场景对两个基线都是100%胜率。

我认为,"在场"比"聪明"更重要,这是行业长期忽视的一个维度。过去一年多,多模态大模型卷的是什么?参数规模、知识储备、推理能力、 benchmark分数。这些当然重要,但有一个假设被默认了:用户会主动提问。

可真实世界不是这样。火灾不会等你问"有没有着火"才发生,老人摔倒不会等你问"你还好吗"才报警,生产线异常不会等你问"出什么问题了吗"才停机。AI如果要真正进入物理世界,"在场",持续观察、自主判断、即时响应,是基本功,而不是加分项。

京东这次开源的模型,核心突破就是把"在场"做成了模型内生的能力,而不是靠外部规则触发。每秒做一次判断,自己决定说还是不说,这是从"工具"到"助手"的关键一跃。

而且,全栈开源比单点开源更有价值,但也更难做。很多开源模型只给权重,开发者拿回去发现工程链路要自己搭、视频接入要自己写、语音交互要自己接,最后研究可以,落地很难。京东这次开源的是完整技术栈,从模型到系统到部署方案,ASR、TTS、可视化界面、后台模型接口、vLLM部署,全部可替换、可定制。

这个选择很"京东",京东本身有零售、物流、健康、工业等实体产业的庞大场景,每天产生海量的人货场实时互动数据。做全栈开源,既是技术能力的展示,也是生态布局的一步棋。开发者基于这套框架,可以快速做安防监控、老人看护、直播讲解、AI眼镜、无障碍辅助等场景,相当于京东把"进入物理世界"的基础设施铺好了,等人来建房子。

今年以来,京东在模型基建上的动作很密集:3月开源JoyAI-LLM Flash,4月开源JoyAI-Image-Edit,6月初开源长视频生成模型JoyAI-Echo,现在又开源JoyAI-VL-Interaction。从文本到图像到视频到实时交互,京东正在构建一个覆盖"生成+理解+交互"的完整模型矩阵。

将场景变成技术,再把技术变成生态,开源是最高效的打法,京东这一步走对了。