LocateAnything - 英伟达发布的视觉语言定位模型

佚名 2026-07-02 08:42:08

LocateAnything是什么

LocateAnything是英伟达推出的视觉语言定位模型，基于并行框解码技术，用户输入自然语言即可在图像中精准框选目标。模型支持多目标检测、GUI定位、OCR文本检测和点级指向等任务，推理速度达12.7 BPS（H100），较Qwen3-VL快10倍，在LVIS等基准达SOTA，适用机器人、文档智能与自动驾驶场景。

LocateAnything的主要功能

指代表达定位：根据自然语言描述在图像中定位并框选特定目标。
多目标密集检测：支持同时检测图像中的多个物体类别，输出密集的边界框集合。
GUI 元素定位：可识别并定位界面中的按钮、输入框等交互元素，支持点级输出。
文本检测与 OCR：定位图像中的文字区域，支持文档、场景文字和表格结构识别。
点级定位：支持输出精确的点坐标用于细粒度指向任务。
混合推理模式：默认使用快速并行模式，遇到复杂场景自动回退到稳定串行模式。

LocateAnything的技术原理

并行框解码（PBD）：模型将每个边界框或点视为原子单元，在单次前向传播中并行预测完整坐标集 (x1,y1,x2,y2)，非传统逐 token 串行生成。
模型架构：模型采用 Moon-ViT 视觉编码器提取原生分辨率视觉特征，经双层 MLP 投影器映射后输入 Qwen2.5 语言解码器进行定位推理。
结构化输出：模型生成语义块、框块、负样本块和结束块，通过 <box>、<ref> 等特殊 token 组织结构化定位结果。
混合推理模式：默认使用快速并行模式（MTP）最大化吞吐量，遇到格式异常或空间歧义时自动无缝回退到稳定串行模式（NTP）。
纠正性重解码：当并行解码检测到框结构畸形或坐标冲突时，自动丢弃问题块并回退到已验证前缀，通过 NTP 重新生成修正。

微信关注回复“开源”，加入AI开源项目交流群

如何使用LocateAnything

环境准备：从 GitHub 克隆 Eagle 仓库，进入 Embodied 目录执行 pip install -e . 完成依赖安装。
模型加载：导入 LocateAnythingWorker 类并实例化，加载 Hugging Face 上的 nvidia/LocateAnything-3B 预训练权重。
目标检测：调用 detect() 方法，传入图像和类别名称列表（如 ["person", "car"]），模型返回所有匹配目标的边界框坐标。
短语定位：使用 ground_multi() 方法输入图像和描述文本（如 "people wearing red shirts"），定位符合语义描述的特定目标。
文本检测：调用 detect_text() 方法，模型自动识别图像中的文字区域并输出对应的边界框集合。
GUI 定位：通过 ground_gui() 方法定位界面元素，设置 output_type="point" 可输出点坐标而非边界框。
点级指向：使用 point() 方法输入图像和描述，获取指定目标的精确单点坐标用于细粒度指向。
批量推理：配置 la_flash 运行时并将 batch_utils/ 加入 PYTHONPATH，调用 detect_batch() 同时处理多组图像-查询对。
结果解析：提取输出中 <box> 标签内的整数坐标（范围 0-1000），除以 1000 后映射到原始图像的宽高像素值。
微调适配：准备 JSONL 数据配方，使用 torchrun 启动全量微调脚本，或运行 LoRA 脚本冻结主干仅训练投影器与低秩适配层。

LocateAnything的核心优势

速度领先：单张 H100 上达到 12.7 BPS，比 Qwen3-VL 快约 10 倍，比 Rex-Omni 快约 2.5 倍。
精度 SOTA：在 LVIS、M6Doc、ScreenSpot-Pro、DocLayNet 等多个基准上达到最佳性能。
通用统一：单一模型覆盖检测、定位、GUI、OCR、布局等多样任务，无需为不同场景切换专用模型。
几何一致性：并行解码保留了框内坐标的几何耦合关系，避免串行生成导致的结构畸形。
显存优化：通过 la_flash 运行时，在 A100 等消费级/数据中心 GPU 上可将峰值显存从 35GB 降至 11GB。

LocateAnything的项目地址

项目官网：https://research.nvidia.com/labs/lpr/locate-anything/
GitHub仓库：https://github.com/NVlabs/Eagle/tree/main/Embodied
HuggingFace模型库：https://huggingface.co/nvidia/LocateAnything-3B
技术论文：https://research.nvidia.com/labs/lpr/locate-anything/LocateAnything.pdf

LocateAnything的同类竞品对比

对比维度LocateAnything-3BRex-Omni所属机构NVIDIA 英伟达开源社区产品定位通用视觉语言定位与检测模型通用视觉定位与理解模型核心解码技术并行框解码（PBD），原子化单次预测完整边界框串行/混合坐标 token 生成推理速度（H100）12.7 BPS~5.0 BPS速度倍数基准慢约 2.5 倍LVIS 精度（F1@Mean）50.746.9COCO 精度（F1@Mean）54.752.9Dense200 精度58.758.3DocLayNet 文档精度76.870.7M6Doc 文档精度70.155.6TotalText（OCR）43.340.6HumanRef 指代定位68.865.4

LocateAnything的应用场景

具身智能与机器人：为机器人提供视觉感知能力，通过语言指令定位操作目标。
文档智能处理：自动识别并框选文档中的标题、表格、段落、印章等结构化元素。
GUI 自动化测试：定位界面中的按钮、输入框、图标，支持自动化测试和 RPA 流程。
自动驾驶感知：在街景图像中密集检测车辆、行人、交通标志，输出精准边界框。
零售与仓储：通过描述快速定位货架上的特定商品或仓库中的目标包裹。

详情

导航

详情

LocateAnything - 英伟达发布的视觉语言定位模型

LocateAnything是什么

LocateAnything的主要功能

LocateAnything的技术原理

如何使用LocateAnything

LocateAnything的核心优势

LocateAnything的项目地址

LocateAnything的同类竞品对比

LocateAnything的应用场景

螺旋圆舞曲2026

称一称多重

狼与小猪的故事

饭橘app

跳枪战斗

二十六史

停车场多人游戏最新版

超级英雄狂欢

随时问

EasyFloat

春谷农场冒险2026年

怎然招工

塔防镇魂师无限内购版

KernelSU

星球战斗：旋转太空

绘本兔

商品三重排序匹配难题

渔美人

九州壁纸(唯美风景壁纸高清)

WPS

超级越狱

95乐播

传奇霸主max

Bitdefender杀毒