超越芯片预设上限!记忆张量与商汤大装置实现国产 GPGPU 体系级性能与成本双突破

互联网
2025
12/04
11:53
分享
评论

近日,记忆张量联合商汤大装置宣布,在国产GPGPU上率先跑通业内首个以“记忆—计算—调度”一体化为核心的PD分离商用推理集群。相比传统仅依赖硬件隔离的方案,本次落地将PD分离与记忆张量旗下核心产品MemOS(以下简称 MemOS)的激活记忆体系深度耦合,使Prefill批量化可调度、Decode前台低抖动成为可能。

集群在真实C端负载下实现单卡并发效率提升20%、吞吐提升75%,综合推理性价比达到同代NVIDIAA100的150%。这一成果标志着国产算力体系在大模型商业化路径上首次具备“体系级”竞争力,为高性能模型的大规模落地打开了全新的降本增效空间。

解决大模型长期记忆和 Agent 协作的五大痛点

过去一年中,“PD分离”几乎成了大模型推理优化里最热的技术关键词之一,但一个被反复忽略的现实是:如果只在算力层面做PD分离,而不去重构上层业务路径,那么它能带来的收益其实是有天然上限的。

Prefill(计算密集)与Decode(访存密集)在真实生产环境中的比例、触发频率和负载形态,完全取决于业务本身——是长对话还是短问答,是高并发C端应用还是低频B端调用?在这些问题没有被重新建模之前,通过“算存拆分”,往往只能获得局部吞吐的改善,却很难真正突破体系效率的天花板。

随着DeepSeek-R1等高性能模型从B端试水走向C端大规模落地,局面发生了根本性变化:“记忆”不再只是一个锦上添花的高级能力,而是开始成为C端产品体验与成本结构的核心变量。

超长上下文、跨轮次的上下文复用、基于先验的影子预测、针对热门场景的KV Cache批量生成……这些能力正在把Prefill从原本一次性的“首字计算”,放大成一个高占比、可预测、可调度的批量任务集;而Decode则越来越像一个必须始终保持低抖动、低延迟、强稳定的“前台交互引擎”。

在这样的应用形态下,PD分离的角色被彻底改写:只有当PD分离与记忆结构深度耦合,变成一套围绕“记忆—计算—调度”重构的整体体系时,它才有机会真正超越传统意义上的性能上限。

MemOS作为业内唯一一个以记忆为中心,覆盖从底层推理、到记忆模型,再到应用工程进行系统设计的记忆基础设施,它将大模型的认知结构划分为三类记忆:参数记忆,承载长期稳定知识,对应模型本身的参数空间;激活记忆,承载短期动态状态,包括KVCache、隐藏层激活、注意力权重等;明文记忆,承载可检索、可审计的外部知识与用户信息。

这三类记忆形成了一条跨时间尺度的调度链路,使得MemOS不再只是“一个向量库外挂”,而可以非常精细地决策:哪些计算应该前移到Prefill,哪些必须留在Decode;哪些状态值得长期保留,哪些可以在一定条件下降级或淘汰;哪些上下文可以复用,哪些需要重新计算。

PD分离×业务路径在这里第一次被真正打通,而不是被割裂成两条平行的优化线。

相比传统的只做“长上下文拼接”的纯明文记忆系统,或只在参数空间做一些长期偏好固化的简单参数记忆模型,MemOS显然更适合和PD分离进行结合——它拥有一整套可以“决定如何用这条通道”的调度逻辑,从而把PD分离原本有限的收益空间尽可能压榨到极致

正因此,本次记忆张量与商汤大装置在某国产GPGPU上的解决方案,真正跑出一版带完整业务语境的R1满血推理集群——不仅在单机和小规模集群实验中有效,而且在严格SLA约束下,可以在12台4P8D架构的商用集群上稳定运行,将PD分离从“好主意”变成“可以被商业化复现的工程范式”。

结构共振:PD分离第一次有了“落点”

在本次联合方案中,商汤大装置提供了让 MemOS 三层记忆结构拥有物理载体的顶层系统级基础设施。依托大装置IaaS的高效算力池、智能算力调度等为模型推理提供稳定的基础设施支撑;并借助Ignite框架提供多后端推理适配、KVCache管理优化、关键算子加速、跨节点通信调优等性能增强,形成体系化的推理优化链路;同时,商汤万象MaaS平台的统一调度策略确保Prefill与Decode服务在高并发场景下始终稳定运行。

集群的底层算力方面, 则由算丰信息提供核心支撑,算丰信息在此次集群中承接管理了所有高性 GPGPU 计算资源、大规模文件对象存储以及高速互联网络服务,为 PD 分离架构的高效稳定运行提供了不可或缺的鼎力支持。

在商汤大装置的某国产GPGPU集群上,MemOS的记忆结构被映射成了非常清晰的物理分工:

P域(Prefill Domain)变成真正的“记忆工厂”,集中承载影子上下文的预测与KV Cache的批量预生成,这些任务通常对吞吐敏感、对时延容忍度高,因此可以在P域以高并行、高利用率的方式被源源不断地消化掉,而不再与前台交互抢占资源;D域(Decode Domain)则被打造为纯粹的“实时交互前台”,专注处理真实用户请求的解码过程,在保持超低TTFT的前提下,承担起R1这一类大模型在C端场景的连续输出与稳定响应;跨节点KV Cache则通过高带宽互联与零拷路径实现“即产即用”,MemOS的激活记忆机制与商汤在某国产GPGPU上打磨出的通信能力形成天然互补,使Prefill产生的KV Cache不再成为传输瓶颈,而是以极低开销进入D域的解码流程中。

这次合作是一次体系级的结构共振PD分离为MemOS打开了一条真正意义上的高速算力通道,而MemOS则为PD分离提供了精细到记忆单元级别的调度逻辑和业务上下文,让两者不再是孤立的“优化点”,而是共同长在同一棵体系树上的“结构分支”。

正因为有了这样的结构落点,PD分离才第一次从一个工程团队内部的“性能小技巧”,变成一套可以被完整描述、完整度量、并在生产环境中长期运行的新推理范式

数据验证:国产GPGPU第一次跑出R1的“完整形态”

在严格的生产级评测口径下——包括2k输入、1k输出、TTFT<2s 的SLA约束、72小时以上稳态运行、统一的限流与负载生成策略——MemOS与商汤大装置联合打造的国产GPGPU集群交出了这样一张答卷:

集群整体吞吐量提升超过75%,从Naive部署下的107.85 tokens/s提升到189.23 tokens/s,不是因为“卡更强了”,而是Prefill与Decode真正做到了算/存解耦,流水线气泡被有效压缩,影子上下文的批量预计算也不再造成资源浪费。

单卡并发能力提升约20%,从25.00并发/卡提升至29.42并发/卡,这在C端场景下尤为关键,意味着在同等硬件规模下,集群能稳态承载更高的实时会话数,高峰期排队与溢出的风险明显降低;TTFT全程稳定小于2秒,得益于Prefill全量前移和D域职责的“单一化”,Decode不再被一些突发的重Prefill任务抢占资源,首字延迟因此从系统层面得到了保障。

KV Cache在热门场景中的命中率显著提升,可达70%+,这使得诸如MemOS-Chat这一类需要高频、多轮交互的C端应用,在热点话题和常见任务上具备了极高的预计算复用率,推理成本被进一步摊薄。

在统一财务与技术口径下,综合推理性价比达到同代NVIDIA A100的150%左右,在严格SLA与相同负载结构下,某国产GPGPU在这一套“记忆原生×PD分离×业务调度”的框架中,第一次实现了对A100的体系级正面超越。

这些数字代表着:“国产GPU不再只是一个“可以跑大模型”的选项,而是真正具备了承载R1级C端业务的体系能力。”

行业意义:下一代推理范式被点亮

从行业视角来看,这次联合实践更重要的价值在于清晰地描绘出了一条未来大模型推理架构的可行路线

首先,PD分离从“硬件层的算存优化”,升级为“围绕记忆的推理范式设计”

在记忆缺位的系统里,PD分离往往只能作用于算子级、节点级的小局部;而在MemOS这样以记忆为核心组织推理流程的系统里,PD分离可以延伸到行为预测、上下文规划、激活记忆布局等更高维度,从而变成整体架构的一部分,而不再是孤立的工程优化。

其次,C端场景将逐步从Token推理走向Memory推理

过去我们习惯从“生成了多少Token”“延迟是多少”来评价系统,现在我们越来越需要思考的是:系统在多长时间尺度内能保持一致的人设、风格和偏好;它是否能记住用户的历史行为,并以此给出更智慧、更个性化的反应。在这个意义上,记忆不再是推理链路的外挂,而正在成为推理本身的中心。

未来,国产GPU不必也不应该只是在“算力参数”上做对标,而是有机会在体系结构上形成差异化领先。

通过记忆张量和商汤大装置的联合探索,我们可以看到:当底层架构与上层系统“共同为记忆和Agent这种新形态服务”时,国产生态完全可以定义自己的技术话语体系,而不是永远追随“通用加速器+通用框架”的旧范式。

很多长期困扰工程团队的问题:“为什么PD分离在实验室里很好看、一到生产就塌方”,“为什么集群越扩越容易失控”,“为什么C端体验总会莫名其妙波动”——在这套框架下都有了同一个答案:不是技术选型不对,而是体系结构不对。

当“记忆原生×PD分离”两件事同时准备好,这些瓶颈不再是孤立的bug,而成为了可以被系统性地松动和重构的变量。

展望:记忆原生时代的国产算力新起点

接下来,记忆张量将和商汤在这一范式之上继续深化合作。

一方面,围绕更大规模的国产GPGPU集群,构建真正意义上的记忆驱动流水线推理底座,让“影子上下文—激活记忆—PD分离—多级缓存—AIOps”成为一套可观测、可回滚、可演进的基础设施能力。

另一方面,在Prefill行为预测自治化、多级激活记忆管理、跨任务长时记忆一致性、面向Agent的轨迹记忆等方向上持续打磨,让这套范式不仅能支撑今天的聊天与问答,还能承载未来的伴随式AI、具身智能体以及更复杂的长周期任务编排。

从更长远的视角看,这次联合实践带来的最大改变,也许不是某一个模型跑得更快、某一类集群利用率更高,而是——国产算力体系第一次拥有了另一条面向未来智能形态的可能“结构性路线”:从参数计算走向记忆计算,从静态推理走向动态流水线,从模型中心走向记忆中心。

在这条路上,国产GPGPU不再只是“跟上来”的参与者,而完全有机会成为下一代推理范式的定义者之一。

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

相关推荐

1
3