苹果携手复旦大学推 StreamBridge 端侧视频大语言模型框架

业界
2025
05/13
14:32
IT之家
分享
评论

5 月 13 日消息,科技媒体 marktechpost 今天(5 月 13 日)发布博文,报道称苹果公司联合复旦大学,推出 StreamBridge 端侧视频大语言模型(Video-LLMs)框架,助力 AI 理解直播流视频。

直播流视频理解的挑战与需求

传统视频大语言模型擅长处理静态视频,但无法适应机器人技术和自动驾驶等需要实时感知的场景,在这些场景下,要求模型能快速理解直播视频流内容,并做出反应。

现有的模型面临两大难题:一是多轮实时理解,即在处理最新视频片段时需保留历史视觉和对话上下文;二是主动响应,要求模型像人类一样主动监控视频流,并在无明确指令的情况下及时输出反馈。

StreamBridge 框架与创新技术

为解决上述问题,苹果公司与复旦大学的研究者开发了 StreamBridge 框架。该框架通过内存缓冲区和轮次衰减压缩策略,支持长上下文交互。

该框架还引入了一个轻量化的独立激活模型,无缝集成现有视频大语言模型,实现主动响应功能。研究团队还推出了 Stream-IT 数据集,包含约 60 万个样本,融合了视频与文本序列,支持多样化的指令格式,旨在提升流式视频理解能力。

StreamBridge 在主流离线模型如 LLaVA-OV-7B、Qwen2-VL-7B 和 Oryx-1.5-7B 上进行了测试。结果显示,Qwen2-VL 在 OVO-Bench 和 Streaming-Bench 上的平均分分别提升至 71.30 和 77.04,超越了 GPT-4o 和 Gemini 1.5 Pro 等专有模型。

Oryx-1.5 也取得了显著进步,而 LLaVA-OV 性能略有下降。Stream-IT 数据集的微调进一步提升了所有模型的表现,证明了 StreamBridge 在流式视频理解领域的强大潜力。

【来源:IT之家

THE END
广告、内容合作请点击这里 寻求合作
苹果公司
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

9 月 12 日消息,科技媒体 Appleinsider 昨日(9 月 11 日)发布博文,报道称苹果现已开放 2026 年安全研究设备计划(SRD)申请,邀请全球各地资深安全研究人员参与,为其提供解锁版 iPhone,发现漏洞最高...
业界
9 月 2 日消息,媒体 DigiTimes 昨日(9 月 1 日)发布博文,报道称苹果公司正加速推进其供应链的自动化转型,将“具备自动化机器人技术”作为供应商获得制造合同的先决条件。
业界
9 月 1 日消息,苹果今天在其网站上新增三款过时产品,其中包括配备较小 11 英寸显示屏的 MacBook Air 最终型号。
业界
6 月 28 日消息,接受《法兰克福汇报》(FAZ)采访时,苹果公司全球市场营销负责人格雷格・乔斯维亚克(Greg“Joz”Joswiak)严厉抨击了欧盟《数字市场法案》对其施加的新规要求。
业界
6 月 25 日消息,苹果又一次在广告发布后迅速下架。据外媒 The Verge 报道,这已是一年多来第四支遭撤下的广告。
业界

相关推荐

1
3