AI造梦师:香港大学携手快手科技推出GameFactory框架,突破游戏场景泛化难题

业界
2025
01/20
14:23
IT之家
分享
评论

1 月 20 日消息,香港大学携手快手科技,组建科研团队,提出名为 GameFactory 的创新框架,目标是解决游戏视频生成中的场景泛化难题。该框架利用在开放域视频数据上预训练的视频扩散模型,能够创造全新且多样化的游戏场景。

项目背景

视频扩散模型已成为强大的视频生成和物理模拟工具,在游戏引擎开发方面展现出巨大潜力。这些生成式游戏引擎的功能类似于具有动作可控性的视频生成模型,可以响应用户的键盘和鼠标等输入。

该领域的一个关键挑战是场景泛化,即创建超越现有场景的新游戏场景的能力。虽然收集大规模的动作标注视频数据集是实现这一目标最直接的方法,但这种标注成本高昂,对于开放域场景来说并不实际,这种局限性阻碍开发多功能游戏引擎,在生成多样化和新颖游戏环境方面面临诸多挑战。

现有视频生成和游戏物理学领域也涌现了诸多突破方式,其中一个潜力方向就是视频扩散模型。这些模型已经从 U-Net 架构发展到基于 Transformer 的架构,从而能够生成更逼真、时长更长的视频。

例如,Direct-a-Video 方法提供了基本的相机控制,MotionCtrl 和 CameraCtrl 则提供了更复杂的相机姿态操控。

在游戏领域,DIAMOND、GameNGen 和 PlayGen 等各种项目都尝试了特定于游戏的实现,但都存在对特定游戏和数据集过度拟合的问题,场景泛化能力有限。

项目介绍

GameFactory 利用预训练的视频扩散模型,这些模型在开放域视频数据上进行训练,使其能够生成多样化的游戏场景,突破了现有方法对特定游戏数据集的过度依赖。

此外,为了克服开放域先验知识与有限游戏数据集之间的域差距,GameFactory 采用了一种独特的三阶段训练策略:

第一阶段:使用 LoRA(Low-Rank Adaptation)微调预训练模型,使其适应目标游戏领域,同时保留大部分原始参数。

第二阶段:冻结预训练参数和 LoRA,专注于训练动作控制模块,避免风格与控制的纠缠。

第三阶段:移除 LoRA 权重,保留动作控制模块参数,使系统能够在各种开放域场景中生成受控的游戏视频,而不局限于特定游戏风格。

研究还评估了不同控制机制的有效性,发现交叉注意力机制在处理离散控制信号(如键盘输入)方面表现优于拼接方法,而拼接方法在处理连续鼠标移动信号方面更有效,GameFactory 支持自回归动作控制,能够生成无限长度的交互式游戏视频。

研究人员还发布了高质量的动作标注视频数据集 GF-Minecraft,用于训练和评估 GameFactory 框架。

【来源:IT之家】

THE END
广告、内容合作请点击这里 寻求合作
AI
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

9 月 17 日消息,纽约邮报 9 月 12 日发布博文,报道称在印度航空 AI171 航班空难造成 241 人遇难后,两位印度工程师推出“重生计划”(Project REBIRTH)原型机,号称是全球首个 AI 驱动的飞机坠机生存系...
业界
9月16日,脉脉最新发布的《2025年AI人才流动报告》显示,今年1-7月,平台AI新发岗位量同比增长超10倍,简历投递量同比增长11倍。
业界
北京时间9月16日,彭博社周一发文称,一度隐退的阿里创始人马云“强势回归”,在公司战略决策中的作用越来越大。
业界
北京时间9月10日,据科技网站TheVerge报道,苹果备受期待的秋季发布会带来了关于AirPods、Apple Watch、iPhone等多项硬件的更新消息。
业界
9 月 7 日消息,上月初,彭博社曾报道苹果正在开发一款自研生成式 AI 搜索产品,并为此组建了全新的“答案、知识与信息”团队。
业界

相关推荐

1
3