英伟达发布Llama-3.1-Nemotron-Ultra-253B-v1模型，推动AI高效部署

业界

2025

04/12

18:19

IT之家

4月12日消息，科技媒体 marktechpost 昨日（4月11日）发布博文，报道称英伟达发布Llama-3.1-Nemotron-Ultra-253B-v1，这款2530亿参数的大型语言模型在推理能力、架构效率和生产准备度上实现重大突破。

随着AI在数字基础设施中的普及，企业与开发者需在计算成本、性能与扩展性间寻找平衡。大型语言模型（LLM）的快速发展提升了自然语言理解和对话能力，但其庞大规模常导致效率低下，限制大规模部署。

英伟达最新发布的Llama-3.1-Nemotron-Ultra-253B-v1（简称Nemotron Ultra）直面这一挑战，该模型基于Meta的Llama-3.1-405B-Instruct架构，专为商业和企业需求设计，支持从工具使用到多轮复杂指令执行等任务。

IT之家援引博文介绍，Nemotron Ultra采用仅解码器的密集Transformer结构，通过神经架构搜索（NAS）算法优化，其创新之处在于采用跳跃注意力机制，在部分层中省略注意力模块或替换为简单线性层。

此外，前馈网络（FFN）融合技术将多层FFN合并为更宽但更少的层，大幅缩短推理时间，同时保持性能。模型支持128K token的上下文窗口，可处理长篇文本，适合高级RAG系统和多文档分析。

在部署效率上，Nemotron Ultra 也实现突破。它能在单8xH100节点上运行推理，显著降低数据中心成本，提升企业开发者的可及性。

英伟达通过多阶段后训练进一步优化模型，包括在代码生成、数学、对话和工具调用等任务上的监督微调，以及使用群体相对策略优化（GRPO）算法进行强化学习（RL）。这些步骤确保模型在基准测试中表现出色，并与人类交互偏好高度契合。

【来源：IT之家】

THE END

广告、内容合作请点击这里寻求合作

英伟达

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表砍柴网的观点和立场。

在全球科技竞争日益激烈的当下，英国近期迎来了一波科技投资热潮。

业界

9 月 15 日消息，综合台媒《经济日报》《工商时报》报道，英伟达正推动上游供应商开发一类名为 MLCP（IT之家注：微通道水冷板）的水冷散热组件，以应对英伟达 AI GPU 芯片随代际更替不断上升的发热。

业界

北京时间9月12日，据科技网站The Information报道，四位知情人士称，阿里巴巴、百度已开始采用内部自主设计的芯片训练他们的AI大模型，取代了部分英伟达芯片。

业界

9月10日消息，据外媒路透社报道，英伟达（NVIDIA）宣布推出新一代芯片系统Rubin CPX，专为应对AI视频生成、大规模软件开发等复杂任务设计，计划于2026年底正式上市。

业界

美国当地时间9月2日，英伟达官方社交媒体账号发文，澄清有关H100和H200 GPU的传闻，称这些基于Hopper架构的人工智能（AI）芯片供应充足，足以立即满足需求。

业界