引发猜测的“Elephant”被认领了:以十分之一消耗实现SOTA级Agent能力

业界
2026
04/22
14:20
凤凰网科技
分享
评论

4 月 22 日,蚂蚁百灵正式推出 Ling-2.6-flash —— 一款总参数量 104B、激活参数 7.4B 的 Instruct 模型。该模型主打“Token 效率(Token Efficiency)”,在保持竞争力智能水平的同时,更快、更省以及更适合大规模真实应用。

一周前,Ling-2.6-flash 的匿名测试版本“Elephant Alpha”在上线OpenRouter后引发了诸多猜测,上线以来,其调用量持续增长,连续多日位列 Trending 榜首,日均 tokens 调用量达 100B 级别,周增长超5000%。

引发猜测的“Elephant”被认领了:以十分之一消耗实现SOTA级Agent能力

据权威三方评测Artificial Analysis 数据,Ling-2.6-flash 展现了突出的 Token Efficiency 优势,以 15M output tokens 实现了 26 分 的 Intelligence Index,在保持较强智能水平的同时,将输出消耗控制在相对更低的位置。相比部分依赖更长输出换取更高分数的模型,Ling-2.6-flash 在“智能表现”与“输出成本”之间取得了更优平衡。

对于开发者和企业场景而言,这种效率优势意味着更低的推理开销、更快的首字响应、更短的整体生成时延,以及更流畅的交互体验,满足在真实部署环境下对速度、成本与体验的综合要求。

Ling-2.6-flash 沿用了 Ling 2.5 的混合线性架构设计,这种高度稀疏化的 MoE 架构在硬件表现上优势明显。在 4 卡 H20 条件下推理速度最快可达到 340 tokens/s,Prefill 吞吐达到 Nemotron-3-Super 的 2.2 倍。在 Output Speed 测评中,Ling-2.6-flash以 215 tokens/s 的稳定输出速度位列同参数级别模型的第一梯队。

从 Token 消耗来看,Ling-2.6-flash 的智效比显著提升。在 Artificial Analysis 完整测评中,Ling-2.6-flash 总消耗为 15M tokens,而 Nemotron-3-Super 等模型达到或超过 110M tokens。这意味着,Ling-2.6-flash 仅用约 1/10 的 token 消耗完成了同类评测任务。

【来源:凤凰网科技

THE END
广告、内容合作请点击这里 寻求合作
Agent
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

当人们聊起Agent时,如果你还只知道龙虾(OpenClaw)就已经落伍了。现在热度最高的Agent是一款由Nous Research开发,和爱马仕同名的智能体Hermes Agent。
业界
4 月 14 日消息,MiniMax Agent 是一个能完成长程(Long Horizon)复杂任务的通用智能体,官方称其能多步规划出解决方案、拆解任务需求、并能执行多个子任务从而交付最终结果。
业界
11 月 4 日消息,游戏媒体 eurogamer 昨日(11 月 3 日)发布博文,报道称在对话 Lex Fridman 的播客节目中,Rockstar 联合创始人 Dan Houser 首次揭示了 PlayStation 独占游戏《特工》(Agent)被取消的...
业界
11月1日消息,今日举办的2025 GOTC全球开源技术峰会上,零一万物CEO、创新工场董事长李开复表示“其实AI Agent对CEO来说不只是一个软件工具,更多的是一个重新思考公司战略执行、组织架构的技能,我们能够...
业界

相关推荐

1
3