聚力昇腾算力底座，共探大模型训练生态新路径

互联网

2026

05/27

13:35

[中国，北京，2026年5月23日]23日，鲲鹏昇腾开发者大会2026——大模型训练加速创新论坛在北京成功举办。此次论坛旨在汇聚行业领军企业、科研机构、三方开源社区，围绕MindSpeed架构演进、行业头部企业训练实践以及开源社区生态协同，共同探讨基于昇腾AI算力底座和开源训练框架实现大模型训练加速、创新高速迭代，共建大模型训练繁荣生态。

华为昇腾计算训练PDT经理张华桦在开场致辞中感谢开发者对昇腾生态的支持。过去昇腾在预训练模型和后训练方面取得重要进展，主流框架已实现原生支持。未来将聚焦三大方向：提升算子精度对齐标准；通过Ascend for PyTorch社区解决API一致性问题；对第三方框架提供原生支持，并通过MindSpeed套件解耦架构提升适配效率。目标是夯实基础能力，让昇腾训练更高效。

华为昇腾计算训练PDT经理张华桦

华为昇腾计算训练软件架构师黄鑫在《全面开源•组件赋能：MindSpeed训练软件架构演进与生态实践》专题演讲中，正式发布全新架构升级的MindSpeed训练加速库，新架构实现组件化解耦，支持一行代码原生适配，赋能生态敏捷创新。基于MindSpeed LLM、MindSpeed MM两大模型套件，全面支持主流大语言模型及多模态模型的训练开发全流程。新版本推出轻量、泛化、高性能的MindSpeed FSDP训练后端，并凭借Async Activation Offload、Chunk Loss等关键特性，有效突破多模态训练的内存瓶颈。昇腾积极将核心技术赋能开源社区：AsyncFLow异步流式RL性能达同步模式的3.8倍，已原生合入verl社区；TransferQueue异步数据引擎助力RL性能提升40%，并支持多个主流社区。

针对Ascend 950 NPU新架构，昇腾推出FP8低精度训练技术使Cube利用率领先业界44%+，同时兼容Megatron与FSDP训练后端已跑通并开源，效果接近无损。昇腾正与全球开发者共研共建，共享大模型训练新生态。

华为昇腾计算训练软件架构师黄鑫

某互联网公司AI Infra算法工程师姜志达以《NestPipe: 10TB Embedding Training on Large-Scale Ascend Accelerators》为题，分享了NestPipe技术。该方案通过嵌套流水线设计，破解千卡规模Embedding训练加速瓶颈。在昇腾大规模集群上训练加速比是TorchREec的3倍多，精度误差小于万分之三，且能与现有Embedding优化方案兼容。除NestPipe外，未来将在多智能体强化学习框架FlexMARL和基于统一内存池的多模态大模型解耦式训练FlowTrain等项目中与昇腾展开联创合作。

某互联网公司AI Infra算法工程师姜志达

某头部股份制银行AI Infra架构师谭培祥在《Twinkle让模型训练回归算法语义》演讲中介绍了该行与魔搭社区最新发布的新一代训练框架Twinkle。该框架通过Client-Server分层架构实现算法与基础设施解耦，提供20+可组合原子组件，支持研究者像搭积木一样编排训练流程。Twinkle具备多租户TaaS（训练即服务）能力，以新形态交付训练算力。Twinkle通过Platform组件适配昇腾硬件，并支持HCCL分布式通信后端，基于NPU验证了FSDP2和Megatron后端，GRPO训练效率提升33%。当前框架已成功适配DeepSeek-V4等大模型训练，并基于昇腾算力深度优化其训练性能。

某头部股份制银行AI Infra架构师谭培祥

上海人工智能实验室系统工具团队负责人、高级工程师田忠博带来了《MindSpeed FSDP2赋能XTuner：昇腾平台超大规模模型训练效率新标杆》专题演讲，XTuner训练引擎通过MindSpeed FSDP2、基于灵衢互联的高效异步Checkpointing、MindStudio分钟级分析“快慢卡”等技术在昇腾384超节点上实现超大规模MoE模型高效训练，解决MoE模型训练中的通信瓶颈问题。实测显示，基于Qwen3-235B训练吞吐，XTuner超Megatron 35%，使用XTuner基于DeepSeek V3训练仅用一半NPU即超越原始训练吞吐，Intern-S1 Pro万亿参数MoE模型实现全流程稳定运行。

上海人工智能实验室系统工具团队负责人、高级工程师田忠博

LlamaFactory社区maintainer郑耀威发表《开源协同•技术融合：在智能体时代使用LlamaFactory加速大模型训练》专题演讲。LlamaFactory通过统一工程架构支持多模型、多数据和多算法，显著降低微调门槛。使用昇腾NPU的FA、Group GEMM等高性能算子提升训练性能达30%，并通过提供镜像、CI流水线、上下游生态库等完善昇腾设备上的生态易用性。创新提出由Agent驱动的Vibe Fine-Tuning范式，实现从数据准备到模型评估的自动化闭环，旨在成为Agent时代的训练基础设施。

LlamaFactory社区maintainer郑耀威

AReaL团队核心技术成员王海涛在《灵活接入·高效同步：AReaL v1.0 Agentic RL与AWEX新特性的昇腾兼容与落地实践》演讲中介绍v1.0版本的Agentic RL系统，解决了Agent系统接入强化学习训练与长尾Rollout两大核心挑战。通过Proxy Gateway实现最小代码接入，采用全异步Rollout架构提升效率。新特性AWEX支持训练到推理的高效P2P权重同步，实现多设备兼容，在昇腾NPU上实现3倍以上加速比，与业界持平，为Agentic RL提供了可扩展的在线训练解决方案。

AReaL团队核心技术成员王海涛

最后的研讨环节，嘉宾们针对构建自主创新、开放兼容的大模型训练生态，提出以下关键方向：

● 业务与硬件协同创新：互联网行业典型场景（如搜广推）正驱动硬件厂商开发定制加速库，以优化复杂计算逻辑；超节点等新型硬件架构通过统一内存编址、高速互联协议，为算法突破性能瓶颈（如Embedding传输、AllToAll通信）提供新可能。

● 开源生态共建共享：科研机构与产业界需通过数据共享、算力联创等方式强化协作。轻量化训练框架致力于降低多领域应用门槛，提升科研效率，形成开放共赢的生态循环。

● 开发者体验为核心抓手：开源社区与硬件厂商需协同完善工具链，通过统一架构适配、预置环境等方案显著降低开发部署复杂度，加速技术普惠与生态渗透。

● 通信技术重构训练效率：新型硬件协议推动全场景训练优化，覆盖参数同步、强化学习、多模态流匹配等关键环节，系统性提升资源利用率与训练效率。

昇腾MindSpeed实现从技术创新、场景落地到三方训练生态共建的能力闭环。未来MindSpeed将持续深耕大模型训练加速技术，组件化解耦，敏捷赋能三方开源社区，携手广大开发者与开源社区共建共享大模型训练加速生态成果。

THE END

广告、内容合作请点击这里寻求合作

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表砍柴网的观点和立场。

聚力昇腾算力底座，共探大模型训练生态新路径

相关热点

最新文章

相关推荐

“特斯拉又割了我 7 万块”

用 eSIM 取代手机卡，究竟难在哪里？

这就是 iPhone 13 的“杀手级新功能”？网友：炒华为冷饭！

谷歌Pixel 6真机曝光：最美安卓屏幕没跑了！

iPhone 13机模曝光：值得等！

苹果计划在美国生产 Apple Car 汽车电池

关注我们