LocateAnything 是一套统一的高性能视觉语言定位框架，它将多种定位任

LocateAnything 是一套统一的高性能视觉语言定位框架，它将多种定位任务整合到单一模型中，实现了快速且精准的视觉 grounding 解决方案。

该框架创新性地采用 Parallel Box Decoding（PBD）技术，将每个边界框或点作为原子单元一次性预测，相比传统逐 token 解码方式大幅提升吞吐速度，同时保持几何结构的完整性。支持 Fast Mode（MTP）和 Slow Mode（NTP）混合推理模式，兼顾速度与准确率。

GitHub：github.com/NVlabs/Eagle/tree/main/Embodied 论文：research.nvidia.com/labs/lpr/locate-anything/

主要特性：- 统一视觉语言模型，支持文档理解、GUI 定位、密集目标检测、OCR 定位等多种任务；- Parallel Box Decoding 实现单步并行预测，吞吐量提升最高可达 2.5×；- 混合推理模式，默认使用快速模式，遇到格式或空间歧义时自动回退至稳定模式；- 提供 LocateAnything-Data 数据集，包含 1.38 亿语言查询与 7.85 亿边界框，覆盖通用检测、GUI、指代理解、文本定位等多领域；- 在 LVIS、M6Doc、ScreenSpot-Pro 等基准上实现 SOTA 定位精度，同时保持高效推理。

支持多种分辨率与密集场景，适合机器人、具身智能、文档分析等高精度定位应用。

泡泡资讯网

LocateAnything 是一套统一的高性能视觉语言定位框架，它将多种定位任

热门分类