OmniParser - 微软推出的屏幕解析工具,将UI截图转换为结构化数据

OmniParser是什么

OmniParser是微软研究院推出的屏幕解析工具,将用户界面的屏幕截图转换成结构化数据。工具专门设计用在提高基于大型语言模型(如GPT-4V)的UI代理系统的性能,基于准确识别可交互图标和理解截图元素的语义,增强代理执行任务的能力。OmniParser用微调过的模型提取屏幕中的交互区域和元素功能语义,在多个基准测试中提升操作的精确度和代理的性能,无需依赖额外信息如HTML或视图层次结构。

OmniParser的主要功能

  • 解析UI截图:OmniParser将用户界面的屏幕截图解析成结构化的元素,包括可交互图标和文本。
  • 识别可交互区域:用专门的检测模型识别和标记UI中的可交互区域,如按钮和图标。
  • 提取功能语义:用描述模型提取检测到的元素的功能语义,生成对用户任务相关的描述。
  • 增强代理性能:结合解析结果,提升基于大型语言模型(如GPT-4V)的UI代理在执行任务时的性能和准确性。
  • 跨平台应用:支持多种操作系统和应用程序,如Windows、MacOS、iOS、Android及多种Web浏览器和桌面应用。
  • 无需额外信息:无需依赖HTML或视图层次结构等额外信息,独立地从视觉截图中提取必要数据。

OmniParser的技术原理

  • 数据集构建:从流行网页和应用中提取数据,构建可交互图标检测数据集和图标描述数据集。
  • 模型微调
    • 检测模型:用YOLOv8模型在可交互图标检测数据集上进行微调,识别和定位UI中的可交互区域。
    • 描述模型:用BLIP-v2模型在图标描述数据集上进行微调,生成图标的功能描述。
  • OCR模块:集成光学字符识别(OCR)模块提取屏幕上的文本,与图标检测结果合并,去除高重叠的边界框。
  • 结构化表示:将检测到的元素和生成的描述整合,形成结构化的DOM(文档对象模型)表示,在潜在可交互元素上叠加边界框的截图。
  • 行动预测:结合结构化元素和功能语义,减轻大型语言模型在行动预测时的负担,更准确地将预测的行动转换为屏幕上的实际行动。

OmniParser的项目地址

OmniParser的应用场景

  • 自动化软件测试:在软件开发过程中,自动识别和操作UI元素,执行测试脚本,提高测试效率和覆盖率。
  • 虚拟助手:作为虚拟助手的一部分,帮助理解屏幕内容、执行如预订、查询和数据输入等任务。
  • 辅助技术:对于视觉障碍人士,OmniParser能解析屏幕内容、转化为语音输出,提供屏幕阅读功能。
  • 用户界面设计验证:设计师验证UI设计中的可交互元素是否符合预期的功能和语义。
  • 跨平台应用开发:开发者在不同操作系统和设备上测试和优化应用的UI,确保一致的用户体验。
© 版权声明

相关文章

暂无评论

none
暂无评论...