小米发布全模态基座模型Xiaomi MiMo-V2-Omni:支持多模态感知、工具调用等

业界
2026
03/19
11:04
凤凰网科技
分享
评论

3月19日,小米发布面向Agent时代的全模态基座模型Xiaomi MiMo-V2-Omni。该模型从底层构建融合文本、视觉、语音的全模态架构,将感知与行动深度绑定,原生支持多模态感知、工具调用、函数执行及GUI操作能力。

在正式发布前,小米将一个早期测试版本以“Healer Alpha”为代号匿名上架OpenRouter。上线期间调用量持续攀升,在OpenClaw测评榜单PinchBench上取得均分第一。

据官方介绍,MiMo-V2-Omni在音频理解方面支持环境声分类、多说话人分离、音频-视觉联合推理及超10小时长音频理解,综合表现超越Gemini 3 Pro。图像理解方面,在多学科视觉推理与复杂图表分析任务中超越Claude Opus 4.6,逼近Gemini 3 Pro等闭源模型水平。视频理解方面支持原生音视频联合输入,具备情境感知与未来推理能力。

智能体能力方面,该模型可在与真实数字环境交互的评测基准上比肩Gemini 3 Pro。在Browser Use场景中,结合OpenClaw框架可实现浏览器操控,完成信息检索、比价、与客服交互及下单等任务。与金山办公合作,接入WPS Office后,模型可根据指令生成Word文档、结构化Excel、排版规范的PDF及PPT。

MiMo-V2-Omni已开放API服务,支持256K上下文长度,输入0.4元/百万tokens,输出2元/百万tokens。小米联合OpenClaw、OpenCode、KiloCode、Blackbox及Cline等五大Agent开发框架团队,为全球开发者提供为期一周的限时免费接口支持。

【来源:凤凰网科技

THE END
广告、内容合作请点击这里 寻求合作
小米
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

3 月 17 日消息,据智能纪元 AGI 昨日(3 月 16 日)报道,前 DeepSeek 研究员、小米 MiMo 大模型负责人罗福莉发表论文,与北京大学联合研发出统一的资源管理系统 ARL-Tangram。
业界
3月13日,据财联社报道,针对与中国车企合作传闻,Stellantis集团称,作为Stellantis集团正常业务运营的一部分,集团与遍布全球的行业优秀企业就各种主题进行讨论,并始终以“向客户提供最佳的出行方式”...
业界
3月9日消息,据报道,小米前可穿戴业务负责人李创奇已秘密创业,新项目聚焦于车载光伏领域,将与小米合作。
业界
3 月 1 日消息,小米创办人、董事长兼 CEO 雷军今日分享了 Xiaomi Vision Gran Turismo 的宣传视频。
业界
1月31日消息,在全球智能手机高端化趋势持续推进的背景下,苹果iPhone的平均售价(ASP)在2025年第四季度首次跨过1000美元大关(已达1011美元,约合7230元人民币)。
业界

相关推荐

1
3