Soul App AI团队Soul AI Lab今年年初正式开源实时数字人生成模型SoulX-FlashTalk,这款14B参数模型集0.87s亚秒级延时、32fps高帧率、超长视频稳定生成、全身动作交互于一体,为实时生成式数字人商用提供核心支撑。Soul团队坚守技术创新初心,深耕AI交互领域,打造沉浸、多元、智能的交互体验,此次开源既是成果共享,也是赋能行业、助力数字经济的举措。
SoulX-FlashTalk凭亚秒级延时,开启数字人实时交互新时代。实时视频交互中,延迟是体验关键,传统大模型推理流程复杂、速度慢,滞后感明显,无法满足即时交互。SoulX-FlashTalk通过全栈加速引擎极致优化,将首帧输出延时降至0.87s,达成亚秒级响应,让14B级大模型数字人首次具备即时反应能力,消除传统生成滞后感,实现零延迟反馈,视频通话、直播弹幕、智能客服等场景下,均能提供自然流畅、无卡顿的深度对话。高帧率输出稳定32fps,远超直播25fps标准,画面丝滑流畅,证明大模型经深度优化可兼顾高参数与高效率。
超长视频稳定生成与全身高保真交互,是SoulX-FlashTalk的核心竞争力。传统数字人长视频生成易出现面部不一致、画质下降、身份漂移、动作单一、手部畸形、画面崩坏等问题,限制直播、长视频创作场景价值。SoulX-FlashTalk采用自纠正双向蒸馏技术,引入多步回溯自纠正机制,主动模拟并修正长序列误差传播,实现无感纠错且画质无损;模型完全保留双向注意力机制,每帧生成可同步参考过去与未来上下文,从根源抑制身份漂移,超长直播中数字人口型、面部、背景稳定一致,无模糊变形。动作表现突破传统局限,支持音频驱动全身肢体动态合成,依托14B DiT建模能力消除手部畸形与模糊,精准呈现手部细节,维持99.22%身份一致性,平衡动作灵活性与画面稳定性。

训练流程示意图
完善技术架构与推理优化,支撑SoulX-FlashTalk卓越性能。训练采用两阶段策略,第一阶段延迟感知时空适配,结合动态长宽比分桶微调,适配低分辨率与短帧序列;第二阶段自纠正双向蒸馏,通过DMD框架压缩采样步数、移除CFG加速,搭配多步回溯自纠正与随机截断策略优化显存。推理依托全栈加速引擎,通过混合序列并行、算子级优化、3D VAE并行化、整链优化,大幅提升推理速度,达成亚秒级延迟。传统单向模型易出现时间不一致与身份漂移,双向注意力机制充分利用全局上下文,提升生成一致性与细节质量。
实测性能领先,SoulX-FlashTalk多领域落地价值凸显。TalkBench-Short与TalkBench-Long测试中,短视频ASE达3.51、IQA达4.79、Sync-C达1.47,长视频Sync-C达1.61,长短视频均稳定32fps,指标超越行业主流模型。依托性能,模型可应用电商AI直播、短视频制作、AI教育、NPC交互、AI客服等领域,解决数字人直播画质模糊、口型错位痛点,助力企业降本增效。Soul此前开源的SoulX-Podcast登顶HuggingFace TTS趋势榜,GitHub星标超3300。
今年,团队陆续开源了实时数字人生成方向的SoulX-FlashTalk、SoulX-FlashHead、SoulX-LiveAct ,歌声合成模型 SoulX-Singer,全双工语音对话控制模块SoulX-Duplug,一系列动作标志着Soul开源战略升级,未来团队将聚焦核心交互能力,携手开发者共建AI+社交生态。
