Skywork Deep Research Agent重磅升级!带来更多模态、更高质量和更高效的体验

互联网
2025
08/14
13:58
分享
评论

8月11日,昆仑万维SkyWork AI技术发布周正式启动。8月11日至8月15日,我们每天发布一款新模型,连续五天,覆盖多模态AI核心场景的前沿模型。截至目前,我们已经发布SkyReels-A3、Matrix-Game 2.0、Matrix-3D、Skywork UniPic 2.0模型。

8月14日,昆仑万维正式发布Skywork Deep Research Agent v2,它是天工超级智能体(Skywork Super Agents)的核心引擎

Skywork Deep Research Agent自5月22日上线后,大幅重塑了大模型在AI Office领域的角色,通过skywork平为用户产出了大量信息密度极高的优质文档、PPT、表格以及其他交付物。新一版本的Skywork Deep Research Agent v2将带来以下体验的提升。

1推出“多模态深度调研”Agent,首次整合多模态检索、理解和生成

当前业界的Deep Research Agent产品都是采用搜索并抓取网页文字信息的方式实现,依赖于纯文本检索分析,而互联网上超过一半的关键信息来自图文混排:财报中的曲线、论文里的实验图、社媒上的对比照、方案里的流程图……

这些多模态信息一旦被忽略,代表着Agent将会丢失大量决策依据,将直接影响Agent产出的交付物质量。为解决这一痛点,昆仑万维Skywork团队推出了业界首个“多模态深度调研”Agent,首次将多模态检索理解和跨模态生成能力完整整合到深度研究工作里。

该功能已在skywork上线,欢迎全球用户使用体验。

为实现多模态信息检索这一能力的提升,昆仑万维Skywork团队在以下四个方面完成技术突破:多模态爬取技术MM-Crawler、长距离多模态信息收集、异步并行 Multi-Agent 多模态理解架构和多模态结果呈现能力。

通过以上技术创新,多模态Skywork Deep Research Agent v2把“读文字+看图片”这件看似简单却长期被忽视的事情真正做到位,让研究人员等用户一次拿到信息完整、节奏顺畅、视觉友好的深度报告。

例如下图(绿色箭头处)所示,天工超级智能体(Skywork Super Agents)在检索信息的过程中,会自动浏览并分析理解重要的图片。

在对图片做了收集和理解之后,天工超级智能体(Skywork Super Agents)在生成文档时,会充分利用图片中的信息,Agent会在恰当的位置直接将高质量图片作为交付物中的配图(下图绿色箭头处),更直接地传达信息并显著降低读者的理解成本:

Agent也可能对图片信息进行整合加工,以流畅的方式变成文字或者新的图表(下图绿色箭头处):

2 推出“多模态深度浏览器智能体”,重塑社媒内容分析与数据洞察

为实现传统浏览器所不具备的低延迟、高回复率、任务完成度高、决策灵活等功能,昆仑万维多模态深度浏览器智能体(Skywork Browser Agent)进行了多项关键自研技术优化,包括升级DOM+ 视觉推理方案、主流平台专项适配、并行搜索(Parallel Search)、多动作规划机制(Multi-Action)、智能筛、人机无缝接管与隐私保护和安全承诺等。

当前,多模态深度浏览器智能体(Skywork Browser Agent),能够模拟人类浏览与交互方式,革新传统数据采集与分析模式。该智能体可精准高效地完成智能搜索、多模态信息分析与社区内容洞察,有效解决传统浏览器智能体的多项痛点,充分展示了天工智能体在长周期任务(Long-horizon Task)与VLA(Vision-Language Action)任务中的巨大潜力。

Skywork Browser Agent已经进入内测和邀测阶段,预期将于近期面向全部skywork用户开放。

多模态深度浏览器智能体(Skywork Browser Agent)具备以下核心功能亮点:

1. 深度多模态内容理解: 不再局限于文本,能够深入分析社交媒体(尤其是小红书、推特以及Instagram等平台),对帖子中的图片、视频内容,以及评论区的情感与观点进行有效筛选和提取,提供更全面的信息洞察。

2. 自动化数据分析与报告: 自动对线上社区内容进行高效的数据分析,并将枯燥的调研分析工作,转化为直观、易懂的可视化报告。

3. 一键式网站部署: 可将抓取的关键图片与分析内容,一键生成并部署为独立的网站,便于成果展示和团队分享。

4. 无缝融入工作流: 能够与信息检索智能体或者PPT、Doc等其他文档智能体联动。当用户撰写报告时,它可以巧妙地检索并推荐相关的图片素材,极大提升办公效率。

3 加强深度信息搜索和复杂任务执行能力,在多个任务测评集上取得SOTA

为了进一步加强Agent基础模型的复杂任务执行和信息检索、整理、总结能力,Skywork Deep Research Agent v2引入了多种提升机制,包括高质量数据合成及训练、端到端强化学习、高效的并行推理,以及多智能体自我学习演进系统。新版本的Skywork Deep Research在多项Agent任务评测上超越现有模型,达到行业SOTA水平。

在权威的搜索评测榜单BrowseComp上,Skywork Deep Research的表现尤为突出。常规模式下,其性能已超越大多数同类产品,正确率达到27.8%。而一旦开启自主研发的“并行思考”(Parallel Thinking)模式,正确率更是跃升至38.7%,刷新了行业SOTA纪录。

更值得一提的是,在并行思考模式下,Skywork Deep Research的正确率会随着思考时间的增加而持续攀升,这充分展现了自研系统架构的卓越潜力与强大扩展性。

我们也开通了API预览使用功能,如需体验可访问Skywork官方Github链接进行申请提交

另一方面,Skywork Deep Research Agent在GAIA Test基准上同样取得了SOTA表现,充分验证了其在复杂任务中的综合实力。

Skywork Deep Research Agent v2即将在skywork的各种Deep Research场景中全量上线。

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

相关推荐

1
3