美团发布并开源LongCat-Flash-Omni模型:支持实时音视频交互,达到SOTA水平

业界
2025
11/03
12:15
IT之家
分享
评论

11 月 3 日消息,9 月 1 日,美团正式发布 LongCat-Flash 系列模型,现已开源 LongCat-Flash-Chat 和 LongCat-Flash-Thinking 两大版本,获得了开发者的关注。今天 LongCat-Flash 系列正式发布全新家族成员 ——LongCat-Flash-Omni。

IT之家从官方介绍获悉,LongCat-Flash-Omni 以 LongCat-Flash 系列的高效架构设计为基础( Shortcut-Connected MoE,含零计算专家),同时创新性集成了高效多模态感知模块与语音重建模块。即便在总参数 5600 亿(激活参数 270 亿)的庞大参数规模下,仍实现了低延迟的实时音视频交互能力,为开发者的多模态应用场景提供了更高效的技术选择。

综合评估结果表明,LongCat-Flash-Omni 在全模态基准测试中达到开源最先进水平(SOTA),同时在文本、图像、视频理解及语音感知与生成等关键单模态任务中,均展现出极强的竞争力。LongCat-Flash-Omni 是业界首个实现 “全模态覆盖、端到端架构、大参数量高效推理” 于一体的开源大语言模型,首次在开源范畴内实现了全模态能力对闭源模型的对标,并凭借创新的架构设计与工程优化,让大参数模型在多模态任务中也能实现毫秒级响应,解决了行业内推理延迟的痛点。

文本:LongCat-Flash-Omni 延续了该系列卓越的文本基础能力,且在多领域均呈现领先性能。相较于 LongCat-Flash 系列早期版本,该模型不仅未出现文本能力的衰减,反而在部分领域实现了性能提升。这一结果不仅印证了我们训练策略的有效性,更凸显出全模态模型训练中不同模态间的潜在协同价值。

图像理解:LongCat-Flash-Omni 的性能(RealWorldQA 74.8 分)与闭源全模态模型 Gemini-2.5-Pro 相当,且优于开源模型 Qwen3-Omni;多图像任务优势尤为显著,核心得益于高质量交织图文、多图像及视频数据集上的训练成果。

音频能力:从自动语音识别(ASR)、文本到语音(TTS)、语音续写维度进行评估,Instruct Model 层面表现突出:ASR 在 LibriSpeech、AISHELL-1 等数据集上优于 Gemini-2.5-Pro;语音到文本翻译(S2TT)在 CoVost2 表现强劲;音频理解在 TUT2017、Nonspeech7k 等任务达当前最优;音频到文本对话在 OpenAudioBench、VoiceBench 表现优异,实时音视频交互评分接近闭源模型,类人性指标优于 GPT-4o,实现基础能力到实用交互的高效转化。

视频理解:LongCat-Flash-Omni 视频到文本任务性能达当前最优,短视频理解大幅优于现有参评模型,长视频理解比肩 Gemini-2.5-Pro 与 Qwen3-VL,这得益于动态帧采样、分层令牌聚合的视频处理策略,及高效骨干网络对长上下文的支持。

跨模态理解:性能优于 Gemini-2.5-Flash(非思考模式),比肩 Gemini-2.5-Pro(非思考模式);尤其在真实世界音视频理解 WorldSense 基准测试上,相较其他开源全模态模型展现出显著的性能优势,印证其高效的多模态融合能力,是当前综合能力领先的开源全模态模型。

端到端交互:由于目前行业内尚未有成熟的实时多模态交互评估体系,LongCat 团队构建了一套专属的端到端评测方案,该方案由定量用户评分(250 名用户评分)与定性专家分析(10 名专家,200 个对话样本)组成。定量结果显示:围绕端到端交互的自然度与流畅度,LongCat-Flash-Omni 在开源模型中展现出显著优势 —— 其评分比当前最优开源模型 Qwen3-Omni 高出 0.56 分;定性结果显示:LongCat-Flash-Omni 在副语言理解、相关性与记忆能力三个维度与顶级模型持平,但是在实时性、类人性与准确性三个维度仍存在差距,也将在未来工作中进一步优化。

【来源:IT之家

THE END
广告、内容合作请点击这里 寻求合作
美团
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

10月31日,数据机构QuestMobile近日发布的《外卖行业市场增长价值研究报告》显示,今年7月至9月期间,外卖市场竞争格局出现明显变化,商家与骑手多平台运营趋势显著增强。
业界
10 月 27 日消息,今天上午,美团 LongCat 团队发布并开源 LongCat-Video 视频生成模型。
业界
北京时间10月24日,据彭博社报道,知情人士称,美团计划通过首次发行“点心债券”融资90亿元至100亿元(约合12.6亿美元至14亿美元)。
业界
10月17日消息,第八届餐饮产业大会昨日在北京举行。
业界
9月20日消息,据美团官方介绍,9月17日美团在全国总工会、北京市总工会指导下,与7名美团骑手代表、线上超200名各省骑手代表,共同围绕劳动报酬、休息休假、劳动保护、关怀保障、职业发展等骑手关切的问题...
业界

相关推荐

1
3