正阳恒卓首席科学家高凯:构建高效可靠的智算中心是一个系统工程

互联网
2025
01/06
15:06
分享
评论

1月3日上午消息,在近日举办的第二届人工智能产业应用大会上,北京正阳恒卓科技有限公司(下称正阳恒卓)首席科学家高凯结合公司在智算中心建设领域的实际实践,提出AI基础设施(即AI Infra)建设运营中面临高效性和可靠性挑战,并介绍了为更好地服务人工智能产业应用正阳恒卓做出的相关技术创新。

高凯指出,客户往往期望AI任务可以高效利用智算中心提供的硬件资源,将集群规模增大、硬件升级充分转化为性能提升。但现实是,对于大规模分布式AI任务来说,单纯提高机器数量和升级计算芯片能力后,性能并不容易达到线性提升。

高凯认为这背后的原因是“大规模分布式AI任务资源需求巨大,容易造成碎片化资源闲置,并对调度系统性能带来更高要求;此外,并行方法和通信顺序也会影响分布式AI任务的效率”。

为解决上述问题,高凯指出:“大规模分布式AI基础设施,必须具备高效的系统容错能力,以及丰富的并行策略。”他表示,“为解决上述问题,目前国内外的一些大厂早已支持三维并行策略,甚至正在推进五维并行策略。”

此外,高凯还指出,“在建设智算中心过程中,客户往往期望AI大模型能够在智算中心中可靠地运行,但现实是,AI系统中的各个组件都可能出现故障并导致AI任务中断或失败。”

这背后的原因是,“AI任务依赖专用硬件,和传统计算集群在能源、产热、工作条件等方面存在差异;此外,主流AI并行框架采用同步方式运行,存在单点故障问题,传统云平台的容错能力并不适用,最终导致故障原因多样,纯用户视角难以准确定位问题。”

“大规模分布式AI系统的容错能力是AI系统稳定运行的基础,已经成为全球AI大厂开始竞相关注的问题。”高凯表示。

结合正阳恒卓为国家超算、大模型公司等企业建设大规模智算中心的经验,高凯指出,“建设高效可靠的Al Infra是一个系统工程,可靠性和高效性都必须遵循从硬件到软件系统性开发的原则,而且可靠性和高效性的技术应该被封装,从而尽可能对用户透明”。

他将Al Infra的构建分为智算中心建设、Infra服务运营、AI开发部署框架以及AI应用开发四个层级。并进一步指出,区别于大型厂商能够实现从底层硬件到上层AI应用的全栈自主研发,绝大部分小型企业往往不具备这样的经济能力和人才储备。为了助推人工智能产业应用的发展,提供高效可靠的AI Infra是智算中心未来需要具备的基本能力和发展趋势。

据高凯介绍,为能够让AI Infra能够普惠更多的人工智能产业应用企业,正阳恒卓正致力于领导并构建一个开放的、面向高效可靠智算中心的AI Infra基础框架。这个开放基础框架中的功能模块基于开放的标准进行设计,希望吸引更多相关行业的企业和开发者共同组建技术生态:让用户的模型开发、部署、应用能够在不同的算力环境中实现无感的迁移,而AI Infra企业则可以通过技术创新提供高效性和可靠性的增值服务。

据高凯介绍,正阳恒卓成立于2015年4月,目前已服务超300家企业客户,是英伟达认证的精英级合作伙伴,已连续两年成为NVIDIA Networking NPN 业绩第一名。(文猛)

来源:新浪网

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

相关推荐

1
3