小米发布MiMo-V2.5-TTS/ASR语音大模型:通过自然语言指令调度声音表现

业界
2026
04/24
10:26
凤凰网科技
分享
评论

4月24日,继前一日MiMo-V2.5系列大模型公测后,小米技术团队今日再次加码,正式发布MiMo-V2.5-TTS系列与MiMo-V2.5-ASR,补齐语音输入与输出全链路。

小米发布MiMo-V2.5-TTS/ASR语音大模型:通过自然语言指令调度声音表现

其中,TTS系列包含三款模型,均支持通过自然语言指令精细调度声音表现。MiMo-V2.5-TTS:内置多款精品音色,开箱即用,支持语速、情绪控制。MiMo-V2.5-TTS-VoiceDesign:支持一句话从零生成全新音色,无需参考音频。MiMo-V2.5-TTS-VoiceClone:数秒参考音频即可高保真复刻目标音色,并保留原有风格指令控制能力。官方演示显示,模型能遵循“尖锐刻薄、狐假虎威”等复杂指令,并支持在文本中插入音频标签进行精细化控制。

作为听觉基座,MiMo-V2.5-ASR今日正式开源(包括模型权重与代码)。该模型面向复杂真实场景,支持吴语、粤语等中文方言,以及中英文混说、强噪音、多人对话等场景,并原生输出标点符号,转写结果即拿即用。

目前,TTS系列已在MiMo Studio开放快速体验,ASR代码与权重可在GitHub和HuggingFace获取。小米预告,下一步将向通用音频生成(音效、音乐)及更强的上下文理解能力扩展。

【来源:凤凰网科技

THE END
广告、内容合作请点击这里 寻求合作
小米
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

4月23日消息,今日,研究机构洛图科技发布今年第一季度中国消费级监控摄像头线上销量数据。
业界
4月23日,小米官方宣布,Xiaomi MiMo-V2.5系列模型正式开启公测。
业界
北京时间4月20日,据《商业内幕》报道,福特CEO吉姆·法利(Jim Farley)表示,他之所以试驾小米SU7,而不是特斯拉的汽车,是有原因的。
业界
4月20日消息,近日有网友在社交平台发帖称,雷军在高速服务区遭遇了堵车维权,这一消息迅速引发了舆论的轩然大波。
业界
4 月 20 日消息,今天(4 月 20 日)上午,小米创办人、董事长兼 CEO 雷军在微博发文说,小米中国超级跑车锦标赛 ChinaGT,首站火爆开幕。
业界

相关推荐

1
3