[中国,北京,2026年5月23日]23日,鲲鹏昇腾开发者大会2026——大模型训练加速创新论坛在北京成功举办。此次论坛旨在汇聚行业领军企业、科研机构、三方开源社区,围绕MindSpeed架构演进、行业头部企业训练实践以及开源社区生态协同,共同探讨基于昇腾AI算力底座和开源训练框架实现大模型训练加速、创新高速迭代,共建大模型训练繁荣生态。

华为昇腾计算训练PDT经理张华桦在开场致辞中感谢开发者对昇腾生态的支持。过去昇腾在预训练模型和后训练方面取得重要进展,主流框架已实现原生支持。未来将聚焦三大方向:提升算子精度对齐标准;通过Ascend for PyTorch社区解决API一致性问题;对第三方框架提供原生支持,并通过MindSpeed套件解耦架构提升适配效率。目标是夯实基础能力,让昇腾训练更高效。

华为昇腾计算训练PDT经理张华桦
华为昇腾计算训练软件架构师黄鑫在《全面开源•组件赋能:MindSpeed训练软件架构演进与生态实践》专题演讲中,正式发布全新架构升级的MindSpeed训练加速库,新架构实现组件化解耦,支持一行代码原生适配,赋能生态敏捷创新。基于MindSpeed LLM、MindSpeed MM两大模型套件,全面支持主流大语言模型及多模态模型的训练开发全流程。新版本推出轻量、泛化、高性能的MindSpeed FSDP训练后端,并凭借Async Activation Offload、Chunk Loss等关键特性,有效突破多模态训练的内存瓶颈。昇腾积极将核心技术赋能开源社区:AsyncFLow异步流式RL性能达同步模式的3.8倍,已原生合入verl社区;TransferQueue异步数据引擎助力RL性能提升40%,并支持多个主流社区。
针对Ascend 950 NPU新架构,昇腾推出FP8低精度训练技术使Cube利用率领先业界44%+,同时兼容Megatron与FSDP训练后端已跑通并开源,效果接近无损。昇腾正与全球开发者共研共建,共享大模型训练新生态。

华为昇腾计算训练软件架构师黄鑫
某互联网公司AI Infra算法工程师姜志达以《NestPipe: 10TB Embedding Training on Large-Scale Ascend Accelerators》为题,分享了NestPipe技术。该方案通过嵌套流水线设计,破解千卡规模Embedding训练加速瓶颈。在昇腾大规模集群上训练加速比是TorchREec的3倍多,精度误差小于万分之三,且能与现有Embedding优化方案兼容。除NestPipe外,未来将在多智能体强化学习框架FlexMARL和基于统一内存池的多模态大模型解耦式训练FlowTrain等项目中与昇腾展开联创合作。

某互联网公司AI Infra算法工程师姜志达
某头部股份制银行AI Infra架构师谭培祥在《Twinkle让模型训练回归算法语义》演讲中介绍了该行与魔搭社区最新发布的新一代训练框架Twinkle。该框架通过Client-Server分层架构实现算法与基础设施解耦,提供20+可组合原子组件,支持研究者像搭积木一样编排训练流程。Twinkle具备多租户TaaS(训练即服务)能力,以新形态交付训练算力。Twinkle通过Platform组件适配昇腾硬件,并支持HCCL分布式通信后端,基于NPU验证了FSDP2和Megatron后端,GRPO训练效率提升33%。当前框架已成功适配DeepSeek-V4等大模型训练,并基于昇腾算力深度优化其训练性能。

某头部股份制银行AI Infra架构师谭培祥
上海人工智能实验室系统工具团队负责人、高级工程师田忠博带来了《MindSpeed FSDP2赋能XTuner:昇腾平台超大规模模型训练效率新标杆》专题演讲,XTuner训练引擎通过MindSpeed FSDP2、基于灵衢互联的高效异步Checkpointing、MindStudio分钟级分析“快慢卡”等技术在昇腾384超节点上实现超大规模MoE模型高效训练,解决MoE模型训练中的通信瓶颈问题。实测显示,基于Qwen3-235B训练吞吐,XTuner超Megatron 35%,使用XTuner基于DeepSeek V3训练仅用一半NPU即超越原始训练吞吐,Intern-S1 Pro万亿参数MoE模型实现全流程稳定运行。

上海人工智能实验室系统工具团队负责人、高级工程师田忠博
LlamaFactory社区maintainer郑耀威发表《开源协同•技术融合:在智能体时代使用LlamaFactory加速大模型训练》专题演讲。LlamaFactory通过统一工程架构支持多模型、多数据和多算法,显著降低微调门槛。使用昇腾NPU的FA、Group GEMM等高性能算子提升训练性能达30%,并通过提供镜像、CI流水线、上下游生态库等完善昇腾设备上的生态易用性。创新提出由Agent驱动的Vibe Fine-Tuning范式,实现从数据准备到模型评估的自动化闭环,旨在成为Agent时代的训练基础设施。

LlamaFactory社区maintainer郑耀威
AReaL团队核心技术成员王海涛在《灵活接入·高效同步:AReaL v1.0 Agentic RL与AWEX新特性的昇腾兼容与落地实践》演讲中介绍v1.0版本的Agentic RL系统,解决了Agent系统接入强化学习训练与长尾Rollout两大核心挑战。通过Proxy Gateway实现最小代码接入,采用全异步Rollout架构提升效率。新特性AWEX支持训练到推理的高效P2P权重同步,实现多设备兼容,在昇腾NPU上实现3倍以上加速比,与业界持平,为Agentic RL提供了可扩展的在线训练解决方案。

AReaL团队核心技术成员王海涛
最后的研讨环节,嘉宾们针对构建自主创新、开放兼容的大模型训练生态,提出以下关键方向:
● 业务与硬件协同创新:互联网行业典型场景(如搜广推)正驱动硬件厂商开发定制加速库,以优化复杂计算逻辑;超节点等新型硬件架构通过统一内存编址、高速互联协议,为算法突破性能瓶颈(如Embedding传输、AllToAll通信)提供新可能。
● 开源生态共建共享:科研机构与产业界需通过数据共享、算力联创等方式强化协作。轻量化训练框架致力于降低多领域应用门槛,提升科研效率,形成开放共赢的生态循环。
● 开发者体验为核心抓手:开源社区与硬件厂商需协同完善工具链,通过统一架构适配、预置环境等方案显著降低开发部署复杂度,加速技术普惠与生态渗透。
● 通信技术重构训练效率:新型硬件协议推动全场景训练优化,覆盖参数同步、强化学习、多模态流匹配等关键环节,系统性提升资源利用率与训练效率。
昇腾MindSpeed实现从技术创新、场景落地到三方训练生态共建的能力闭环。未来MindSpeed将持续深耕大模型训练加速技术,组件化解耦,敏捷赋能三方开源社区,携手广大开发者与开源社区共建共享大模型训练加速生态成果。
