2月14日,昆仑万维今日正式发布自主研发的“Matrix-Zero世界模型”,成为国内首家同时实现3D场景生成与可交互视频生成技术突破的企业,标志着中国AI企业在空间智能领域的探索迈入新阶段。该模型将推动游戏、影视、虚拟交互等领域的智能化变革,并为具身智能(Embodied AI)及通用人工智能(AGI)发展提供重要技术支撑。
Matrix-Zero世界模型由两大核心模块构成:
3D场景生成大模型:用户仅需输入一张图片,即可生成可自由探索的真实3D场景,支持动态物理效果与多风格迁移。相较于国际同类产品(如谷歌World Labs),其场景探索范围更广、自由度更高。
可交互视频生成大模型:以用户实时输入为核心驱动,生成动态互动视频,并精准控制视角移动,适配虚拟环境、沉浸式体验等场景需求。
昆仑万维技术团队透露,3D场景生成的逼真效果依赖于两大自研模块:场景布局生成模块:通过可微渲染技术与扩散模型,将输入图片转化为几何结构一致的3D场景框架;纹理生成模块:基于图像与视频生成模型训练,在用户移动视角时实时补全场景缺失区域的几何与纹理,确保任意角度场景的合理性与一致性。
此外,该模型支持动态场景生成(如风吹草动、水流效果),并可适配写实、卡通、水墨等多元风格输入。
此前,谷歌Genie系列模型已展示世界模型在视频生成与交互中的潜力,但昆仑万维进一步强化了用户意图与生成内容的精准匹配。其可交互视频模型通过自研的“用户交互模块”,结合生成式视频技术,实现了对视角移动的精细控制。例如,在虚拟环境中,用户输入指令可实时改变视频画面走向,使生成内容更贴合交互预期。
Matrix-Zero世界模型计划于2024年4月上线,将率先应用于昆仑万维的AI游戏生产、AI短剧制作等业务线,为开发者提供高效的内容生成工具。公司预测,随着视频模型技术成熟,未来游戏开发或不再依赖传统3D引擎,影视创作门槛也将大幅降低。
更长远来看,空间智能技术被视为通向AGI的关键路径。昆仑万维表示,将持续迭代AI平台,探索虚拟环境中的实验模拟、数字孪生等场景,推动人工智能从“感知”向“行动与创造”进化。
世界模型正成为全球AI竞赛的新焦点,其核心在于构建对物理世界的理解与生成能力。昆仑万维此次技术突破,不仅填补了国内空间智能领域的空白,更为AI驱动的内容生产与交互方式开辟了新可能性。如何在开放场景中实现更高精度与可控性,或将成为下一阶段技术较量的关键。
【来源:凤凰网科技】