热门

Ferret-UI 2 – 苹果推出的跨平台UI理解多模态大语言模型

AI工具6个月前发布 AI工具

Ferret-UI 2是什么

Ferret-UI 2是苹果公司推出的多模态大型语言模型，用在理解和交互移动用户界面。Ferret-UI 2能识别和理解各种移动设备屏幕上的UI元素，执行复杂的用户指令，实时观察用户在移动设备屏幕上的操作，随时准备提供帮助和执行任务。Ferret-UI 2相较于早期版本进行了大幅改进和更新。基于高分辨率图像编码和先进的数据训练方法，提升UI元素的识别精度和交互能力，用户能更自然、高效地与智能设备互动。

Ferret-UI 2的主要功能

多平台支持：Ferret-UI 2能处理包括iPhone、Android、iPad、Webpage和AppleTV在内的多种平台的用户界面。
高分辨率图像感知：基于自适应缩放技术，Ferret-UI 2能在保持原始UI截图分辨率的同时，实现更准确的视觉元素识别。
高级任务训练数据生成：基于GPT-4o和set-of-mark视觉提示，Ferret-UI 2生成用于复杂任务的训练数据，提升模型对UI元素空间关系的理解。
用户中心交互：Ferret-UI 2能理解、执行用户为中心的交互任务，如确认提交、点击按钮等，不仅仅是机械点击。
跨平台迁移能力：Ferret-UI 2展示了强大的跨平台转移能力，能在不同的平台之间迁移和适应。

Ferret-UI 2的技术原理

多模态大型语言模型（MLLM）：结合视觉感知和语言处理的能力，理解和生成对UI的复杂交互。
自适应N网格机制：基于算法确定最优的网格大小，用最小的分辨率失真和像素变化编码UI截图的每个部分。
动态高分辨率图像编码：用CLIP图像编码器提取全局和局部特征，将特征送入大型语言模型（LLM）。
视觉采样器：根据用户指令识别、选择相关的UI区域，输出对UI元素的感知或交互描述。
set-of-mark（SoM）视觉提示：在生成训练数据时，用SoM提示增强模型对UI元素空间关系的理解，特别是在多轮感知和交互问答任务中。
端到端训练：模型通过端到端的训练过程，从原始数据注释中学习，生成高质量的训练数据并优化模型性能。

Ferret-UI 2的项目地址

arXiv技术论文：https://arxiv.org/pdf/2410.18967

Ferret-UI 2的应用场景

智能手机和平板电脑：Ferret-UI 2能理解、执行用户在iOS和Android设备上的各种指令，如导航应用程序、发送消息、设置提醒等。
网络浏览：在网页浏览中，帮助用户更有效地与网页元素交互，比如点击按钮、填写表单、导航链接等。
智能电视：对于Apple TV等智能电视平台，提供语音控制和其他交互方式，增强用户体验。
多任务环境：在需要同时处理多个应用程序或窗口的场景中，帮助用户更高效地管理和切换不同的任务。
辅助技术：集成到辅助技术中，帮助残障人士通过语音命令或其他输入方式与设备交互。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

DressPlay – AI虚拟试衣应用，支持图片和视频换装

DressPlay – AI虚拟试衣应用，支持图片和视频换装

AI工具 # # AI

6个月前

02450

Lamucal – AI音乐创作工具，实时生成任意歌曲和弦、吉他谱、歌词和旋律

Lamucal – AI音乐创作工具，实时生成任意歌曲和弦、吉他谱、歌词和旋律

AI工具 # # AI

4个月前

0390

InstantID – 高保真的个性化图像合成框架

InstantID – 高保真的个性化图像合成框架

6个月前

0150

乐拍 – AI写真应用，10多种创意玩法的高质量写真相机

乐拍 – AI写真应用，10多种创意玩法的高质量写真相机

AI工具 # # AI

6个月前

01470

暂无评论

暂无评论...