Loading...

热门

OmniParser – 微软推出的屏幕解析工具，将UI截图转换为结构化数据

AI工具8个月前发布 AI工具

OmniParser是什么

OmniParser是微软研究院推出的屏幕解析工具，将用户界面的屏幕截图转换成结构化数据。工具专门设计用在提高基于大型语言模型（如GPT-4V）的UI代理系统的性能，基于准确识别可交互图标和理解截图元素的语义，增强代理执行任务的能力。OmniParser用微调过的模型提取屏幕中的交互区域和元素功能语义，在多个基准测试中提升操作的精确度和代理的性能，无需依赖额外信息如HTML或视图层次结构。

OmniParser的主要功能

解析UI截图：OmniParser将用户界面的屏幕截图解析成结构化的元素，包括可交互图标和文本。
识别可交互区域：用专门的检测模型识别和标记UI中的可交互区域，如按钮和图标。
提取功能语义：用描述模型提取检测到的元素的功能语义，生成对用户任务相关的描述。
增强代理性能：结合解析结果，提升基于大型语言模型（如GPT-4V）的UI代理在执行任务时的性能和准确性。
跨平台应用：支持多种操作系统和应用程序，如Windows、MacOS、iOS、Android及多种Web浏览器和桌面应用。
无需额外信息：无需依赖HTML或视图层次结构等额外信息，独立地从视觉截图中提取必要数据。

OmniParser的技术原理

数据集构建：从流行网页和应用中提取数据，构建可交互图标检测数据集和图标描述数据集。
模型微调：
- 检测模型：用YOLOv8模型在可交互图标检测数据集上进行微调，识别和定位UI中的可交互区域。
- 描述模型：用BLIP-v2模型在图标描述数据集上进行微调，生成图标的功能描述。
OCR模块：集成光学字符识别（OCR）模块提取屏幕上的文本，与图标检测结果合并，去除高重叠的边界框。
结构化表示：将检测到的元素和生成的描述整合，形成结构化的DOM（文档对象模型）表示，在潜在可交互元素上叠加边界框的截图。
行动预测：结合结构化元素和功能语义，减轻大型语言模型在行动预测时的负担，更准确地将预测的行动转换为屏幕上的实际行动。

OmniParser的项目地址

项目官网：omniparser-for-pure-vision-based-gui-agent
HuggingFace模型库：https://huggingface.co/microsoft/OmniParser
arXiv技术论文：https://arxiv.org/pdf/2408.00203

OmniParser的应用场景

自动化软件测试：在软件开发过程中，自动识别和操作UI元素，执行测试脚本，提高测试效率和覆盖率。
虚拟助手：作为虚拟助手的一部分，帮助理解屏幕内容、执行如预订、查询和数据输入等任务。
辅助技术：对于视觉障碍人士，OmniParser能解析屏幕内容、转化为语音输出，提供屏幕阅读功能。
用户界面设计验证：设计师验证UI设计中的可交互元素是否符合预期的功能和语义。
跨平台应用开发：开发者在不同操作系统和设备上测试和优化应用的UI，确保一致的用户体验。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

EduPro – 为留学生打造的AI留学顾问，个性化指导留学过程

EduPro – 为留学生打造的AI留学顾问，个性化指导留学过程

AI工具 # # AI

8个月前

0130

易健EasyHealth – 北大健康推出的 AI 健康科普应用

易健EasyHealth – 北大健康推出的 AI 健康科普应用

AI项目框架 # # AI

6个月前

0120

Promptic – 轻量级LLM应用开发框架，通过一行代码切换不同LLM

Promptic – 轻量级LLM应用开发框架，通过一行代码切换不同LLM

AI项目框架 #

6个月前

050

从零开始的7个WordPress插件推荐清单

从零开始的7个WordPress插件推荐清单

AI工具 AI快讯

2个月前

040

暂无评论

暂无评论...