昆仑万维开源SkyReels-V2:首创扩散强迫框架,实现无限时长电影级视频生成

业界
2025
04/21
15:57
凤凰网科技
分享
评论

4月21日,昆仑万维旗下SkyReels团队今日正式发布并开源了视频生成模型SkyReels-V2,该模型被团队称为全球首个采用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型。通过集成多模态大语言模型、多阶段预训练、强化学习和扩散强迫等技术,SkyReels-V2在提示词遵循、视觉质量、运动动态以及视频时长等方面实现了显著突破。

昆仑万维开源SkyReels-V2:首创扩散强迫框架,实现无限时长电影级视频生成

据介绍,当前业界视频生成技术尽管已取得长足进展,但仍面临多项挑战:在保证高质量视觉呈现的同时往往牺牲运动流畅度,为实现高分辨率而限制视频时长,且由于现有多模态大模型对电影语法理解不足,导致缺乏专业镜头感知生成能力。针对这些痛点,SkyReels-V2展现出独特优势,目前已支持生成30-40秒的高运动质量、高一致性、高保真视频。

技术层面,SkyReels-V2整合了多项创新方案:团队开发的SkyCaptioner-V1视频理解模型能够识别视频中的主体、表情和动作等信息,并通过人工标注和模型训练提升镜头语言理解;针对运动质量优化,团队采用强化学习训练,设计半自动数据收集管道高效生成偏好对比数据;为实现长视频生成,研发团队提出扩散强迫后训练方法,通过非递减噪声时间表将连续帧的去噪时间表搜索空间大幅降低。

在评估方面,昆仑万维团队构建了SkyReels-Bench测评基准并利用开源V-Bench进行自动化评估。结果显示,在VBench1.0评估中,SkyReels-V2总分达83.9%,质量分达84.7%,超过包括华为轩辕视频模型在内的所有对比模型。

应用场景上,SkyReels-V2支持四大核心功能:基于滑动窗口方法的理论无限时长故事视频生成;两种图像到视频合成方案,分别为微调全序列T2V扩散模型和扩散强迫模型与帧条件结合;通过专门筛选百万级样本优化的摄像导演功能;以及基于SkyReels-V2基座模型研发的SkyReels-A2多元素到视频生成方案。

值得一提的是,昆仑万维SkyReels团队已将SkyCaptioner-V1和SkyReels-V2系列模型(包括1.3B、5B、14B多种尺寸)全部开源,涵盖扩散强迫、文本到视频、图像到视频、摄像导演和元素到视频等模型,以促进学术界和产业界进一步探索视频生成技术的应用前景。

【来源:凤凰网科技

THE END
广告、内容合作请点击这里 寻求合作
昆仑万维
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

2 月 18 日消息,昆仑万维今日宣布开源国内首个面向 AI 短剧创作的视频生成模型 SkyReels-V1、国内首个 SOTA 级别基于视频基座模型的表情动作可控算法 SkyReels-A1。
业界
2月14日,昆仑万维今日正式发布自主研发的“Matrix-Zero世界模型”,成为国内首家同时实现3D场景生成与可交互视频生成技术突破的企业,标志着中国AI企业在空间智能领域的探索迈入新阶段。
业界
4月13日,北京昆仑万维科技股份有限公司(昆仑万维,300418) 公告称,董事会于近日收到现年43岁的董事长周亚辉辞去董事长职务的书面辞职报告,由现年41岁的王立伟接任。
业界
昆仑万维以42.15亿元人民币的价格将Grindr Inc.转让出去了。
业界
昆仑万维周一宣布,已经同意美国外商投资委员会(CFIUS)的要求,在2020年6月之前出售热门同性恋约会应用Grindr。
业界

相关推荐

1
3