链载Ai

标题: Ferret系列之Ferret-UI:用多模态大模型给手机UI理解插上翅膀 [打印本页]

作者: 链载Ai    时间: 2 小时前
标题: Ferret系列之Ferret-UI:用多模态大模型给手机UI理解插上翅膀

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 2px;text-align: left;background-color: rgb(255, 255, 255);margin-bottom: 16px;line-height: 1.75em;">导读

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;font-size: 14px;letter-spacing: 0.5px;text-align: start;background-color: rgb(255, 255, 255);white-space-collapse: preserve !important;word-break: break-word !important;">Ferret-UI 是一个针对手机用户界面(UI)的多模态大模型,它旨在解决以下问题:

    ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;font-size: 14px;letter-spacing: 0.5px;text-align: start;text-wrap: wrap;background-color: rgb(255, 255, 255);" class="list-paddingleft-1">
  1. UI屏幕理解与交互的自动化:手机UI屏幕包含多种元素,如图标和文本,需要模型能够理解并与之交互以实现用户目标。

  2. 现有方法的局限性:现有的MLLM主要针对自然图像,直接应用于UI屏幕可能会受到限制,因为UI屏幕具有不同的纵横比和更小的兴趣对象。

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;font-size: 14px;letter-spacing: 0.5px;text-align: start;background-color: rgb(255, 255, 255);white-space-collapse: preserve !important;word-break: break-word !important;">Ferret-UI 提出的贡献包括:

    ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;font-size: 14px;letter-spacing: 0.5px;text-align: start;text-wrap: wrap;background-color: rgb(255, 255, 255);" class="list-paddingleft-1">
  1. 模型架构改进:基于Ferret模型,集成了“任何分辨率”(anyres)功能,以适应不同纵横比的UI屏幕,并通过预定义的网格配置来划分全图像为子图像,增强细节识别。

  2. UI任务构建:涵盖了从基本到高级的14种不同的移动UI任务,并为模型训练收集了详细的训练样本。

ingFang SC", Cambria, Cochin, Georgia, Times, "Times New Roman", serif;letter-spacing: 2px;text-align: left;text-wrap: wrap;background-color: rgb(255, 255, 255);margin-bottom: 16px;line-height: 1.75em;">Introduction

ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;font-size: 14px;letter-spacing: 0.5px;text-align: start;background-color: rgb(255, 255, 255);white-space-collapse: preserve !important;word-break: break-word !important;">为了将 UI 专家知识植入 Ferret,Ferret-UI 进行了两项扩展:

    ingFang SC", miui, "Hiragino Sans GB", "Microsoft Yahei", sans-serif;font-size: 14px;letter-spacing: 0.5px;text-align: start;background-color: rgb(255, 255, 255);">
  1. 调整模型架构以更好地处理屏幕数据

  2. 构建 UI 指代和定位任务数据集

#模型架构

考虑到两点:

  1. UI 屏幕图像与自然图像相比有更延伸的纵横比,如表 1a 所示;

  2. 本任务涉及许多感兴趣的对象(即 UI 部件,如图标和文本)比自然图像中通常观察到的对象要小得多。例如,许多问题集中在占据整个屏幕不到 0.1% 的图标上。

直接使用Ferret模型的输入会导致视觉细节的显著丢失。为了解决这个问题,参考SPHINX、LLaVA-NeXT 和 Monkey 中的 "任何分辨率"(anyres)概念,选择了两种网格配置,1x2 和 2x1,这些配置基于原始屏幕的纵横比选择,如表 1a 所示。

#UI 数据收集

本研究考察了 iPhone 和 Android 设备的屏幕截图。数据总结在表 1 中。

# 任务设计

我们详细阐述了为构建数据集而设计的三种不同方法。

重新格式化 Spotlight 任务。我们首先从现有的 Spotlight 任务中获取 screen2words、widgetcaptions 和 taperception,并将它们格式化为对话式问答对。具体来说,我们使用 GPT-3.5 Turbo 根据我们为相应任务编写的基础提示创建多种提示:

对于每个训练示例,我们为相应任务采样一个提示,并将其与原始源图像和真实答案配对。

基础任务。设计了 7 项任务,这些任务被分为两类:指代任务(referring tasks)和定位任务(grounding tasks)。

  1. 指代任务(Referring Tasks):这类任务涉及识别输入中的特定元素,并通常使用边界框(bounding boxes)来标识这些元素。具体来说,包括:






欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5