英伟达发布 LocateAnything!图像定位提速并支持界面操作

英伟达联合香港理工大学、南京大学等机构推出 LocateAnything,用于在照片和截图中按指令框出目标。团队认为,机器人与 AI Agent 只看懂画面并不足以完成即时操作,还要快速确认落点,因此将边界框改为并行预测,并在遇到歧义时切回稳健解码。模型覆盖 GUI 元素、OCR 文字与版面定位,在单张 H100 上达到每秒 12.7 个检测框,可用于界面实时操作、文档理解和高精度标注,减少智能体等待识别结果的时间。

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容