豆包开源视频生成模型VideoWorld:首创免语言模型依赖认知世界

业界
2025
02/10
18:05
IT之家
分享
评论

2 月 10 日消息,豆包大模型团队联合北京交通大学、中国科学技术大学共同开发的视频生成实验模型“VideoWorld”今日开源。不同于 Sora 、DALL-E 、Midjourney 等主流多模态模型,VideoWorld 在业界首次实现无需依赖语言模型,即可认知世界。

据介绍,现有模型大多依赖语言或标签数据学习知识,很少涉及纯视觉信号的学习。然而,语言并不能捕捉真实世界中的所有知识。例如折纸、打领结等复杂任务,难以通过语言清晰表达。而 VideoWorld 去掉语言模型,实现了统一执行理解和推理任务。

同时,它基于一种潜在动态模型,可高效压缩视频帧间的变化信息,显著提升知识学习效率和效果。在不依赖任何强化学习搜索或奖励函数机制前提下,VideoWorld 达到了专业 5 段 9x9 围棋水平,并能够在多种环境中,执行机器人任务。

【来源:IT之家】

THE END
广告、内容合作请点击这里 寻求合作
豆包
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

12月20日消息,据报道,火山引擎总裁谭待在谈到豆包大模型定价时表示,价低也有合理毛利,价格体现了模型技术能力,工程能力,软硬件结合能力等。
业界
12月18日,在火山引擎 Force 大会上,字节跳动正式发布豆包视觉理解模型。
业界

相关推荐

1
3