金山云已完成对阶跃星辰最新开源的两款多模态大模型的适配,包括全球参数量最大的开源视频生成模型Step-Video-T2V,以及业界首款产品级开源语音交互模型Step-Audio。目前,用户可登陆金山云官方网站进行体验。
*登陆金山云账号控制台选择裸金属服务器-新建实例
Step-Video-T2V模型
金山云针对Step-Video-T2V模型,为用户提供强大的算力支持和稳定的运行环境让模型性能得以充分释放,带来流畅的视频生成体验。
据悉,Step-Video-T2V模型的参数达300亿,可直接生成204帧、540P分辨率的高质量视频。评测结果显示,该模型在指令遵循、运动平滑性、物理合理性、美感度等方面的表现均显著超过市面上既有的效果最佳的开源视频生成模型。
*图为Step-Video-T2V-Eval评测结果
阶跃星辰官方提供了多卡并行部署的支持,其中文本编码器和VAE部分由独立的进程维护,DiT部分可以选择4卡并行或8卡并行,每张卡需要至少80G显存。如果要在单台机器上运行,推荐使用5个80G显存的GPU。
在部署方面,金山云已预装好ubuntu22.04-Step-Video-T2V模型和依赖环境的镜像。在多卡并行部署时,金山云的云计算环境可精准协调各卡资源,保障文本编码器、VAE和DiT等部分协同工作,大幅提升视频生成效率。
*金山云裸金属服务器控制台创建流程,选择内置Step-Video-T2V的自定义镜像创建,创建完成即可启动模型并使用
运行测试
登录服务器进入Step-Video-T2V-main目录启动服务
cd Step-Video-T2V-main
python3 api/call_remote_server.py --model_dir /models/stepvideo-t2v
出现如下提示后服务启动成功
* Running on all addresses (0.0.0.0)
Step-Audio模型
金山云同时完成了实时语音对话系统Step-Audio模型的适配工作。金山云将借助先进的云计算技术,降低模型响应延迟,让用户与模型的对话更加自然流畅。在实际应用中,无论是实时语音聊天,还是语音指令控制,金山云都能确保 Step-Audio模型快速准确地响应,为用户提供优质的语音交互服务。
Step-Audio作为业内创新性的开源语音模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,并且能和用户自然地进行高质量对话。根据 LlaMA Question等五大主流公开测试,Step-Audio模型性能均位列第一,并在HSK-6(汉语水平考试六级)评测中表现突出,是最懂中国话的开源语音交互大模型。
*图为5大主流公开评测结果
在部署方面,金山云已预装好ubuntu22.04-Step-Audio模型和依赖环境的镜像。
*金山云裸金属服务器控制台创建流程,选择内置Step-Audio的自定义镜像创建,创建完成即可启动模型并使用
运行测试
登录服务器进入Step-Audio-main目录启动服务
cd Step-Audio-main
python3 tts_inference.py --model-path /models/Step-Audio/model --output-path /root/Step-Audio-output --synthesis-type tts
在人工智能高速发展的当下,秉承技术立业的金山云将始终与前沿技术同频,继续携手生态合作伙伴为前沿技术的落地转化提供助力。