苹果介绍Ferret-UI多模态大语言模型:更充分理解手机屏幕内容

业界
2024
04/10
11:01
IT之家
分享
评论

4 月 10 日消息,苹果公司近日发布研究论文,展示了 Ferret-UI AI 系统,可以理解应用程序屏幕上的内容。

以 ChatGPT 为代表的 AI 大语言模型(LLMs),其训练材料通常是文本内容。为了能够让 AI 模型能够理解图像、视频和音频等非文本内容,多模态大语言模型(MLLMs)因此孕育而生。

只是现阶段 MLLMs 还无法有效理解移动应用程序,这主要有以下几个原因:

1. 手机屏幕的宽高比,和大多数训练图像使用的屏幕宽高比不同。

2. MLLMs 需要识别出图标和按钮,但它们相对来说都比较小。

因此苹果构想了名为 Ferret-UI 的 MLLM 系统解决了这些问题:

与自然图像相比,用户界面屏幕的长宽比通常更长,包含的关注对象(如图标、文本)也更小,因此我们在 Ferret 的基础上加入了 "任意分辨率",以放大细节并利用增强的视觉功能。

我们精心收集了大量初级用户界面任务的训练样本,如图标识别、查找文本和小部件列表。这些样本的格式都是按照带有区域注释的指令来设计的,以便于精确引用和接地。

为了增强模型的推理能力,我们进一步编制了高级任务数据集,包括详细描述、感知 / 交互对话和功能推理。

苹果在论文中表示相比较现有的 GPT-4V,以及其它 MLLMs 模型,Ferret-UI AI 模型更为优秀。

【来源:IT之家】

THE END
广告、内容合作请点击这里 寻求合作
苹果公司
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

9 月 12 日消息,科技媒体 Appleinsider 昨日(9 月 11 日)发布博文,报道称苹果现已开放 2026 年安全研究设备计划(SRD)申请,邀请全球各地资深安全研究人员参与,为其提供解锁版 iPhone,发现漏洞最高...
业界
9 月 2 日消息,媒体 DigiTimes 昨日(9 月 1 日)发布博文,报道称苹果公司正加速推进其供应链的自动化转型,将“具备自动化机器人技术”作为供应商获得制造合同的先决条件。
业界
9 月 1 日消息,苹果今天在其网站上新增三款过时产品,其中包括配备较小 11 英寸显示屏的 MacBook Air 最终型号。
业界
6 月 28 日消息,接受《法兰克福汇报》(FAZ)采访时,苹果公司全球市场营销负责人格雷格・乔斯维亚克(Greg“Joz”Joswiak)严厉抨击了欧盟《数字市场法案》对其施加的新规要求。
业界
6 月 25 日消息,苹果又一次在广告发布后迅速下架。据外媒 The Verge 报道,这已是一年多来第四支遭撤下的广告。
业界

相关推荐

1
3