在2024年10月15日至17日,全球瞩目的开放计算全球峰会(OCP Global Summit)在美国加州圣何塞盛大召开。本届峰会以“创新的力量”为主题,吸引了全球超过7000名来自基础设施软硬件技术和应用领域的专家。峰会聚焦于AI基础设施技术生态的建设,尤其是OCP基金会宣布的人工智能开放系统战略计划,为AI领域的发展注入了新的活力。
在这一重要时刻,阿里云服务器研发资深总监文芳志与UALink联盟主席Kurtis Bowman联合发表了题为《UALink:加速AI的未来》的演讲,共同探讨了AI服务器Scale UP互连技术的最新发展,UALink标准的演进路径,以及UALink联盟与ALink System产业生态的协同合作潜力。
UALink协议,由AI芯片、服务器和云服务提供商等行业领导者共同发起,旨在成为AI服务器Scale UP互连技术的新标准。它不仅支持高性能内存语义访问和显存共享,还具备超高带宽和超低时延的特性,为AI服务器Scale UP互连技术的发展提供了新的动力。UALink联盟计划于10月底正式成立,并在年底发布第一版UALink spec,这标志着AI服务器互连技术将进入一个新的发展阶段。
面对全球尤其是中国市场的挑战,ALink System(ALS)产业生态应运而生,旨在推动UALink标准的落地实施。ALS提供了统一标准的互连系统,包括ALS-D数据面和ALS-M管控面,为AI训练和推理场景提供全面的解决方案。
ALS-D支持UALink国际标准,形成了具有竞争力的数据面方案。它不仅支持高性能内存语义访问和显存共享,还具备超高带宽和超低时延,同时增加了网内计算等特性。ALS-M则为不同芯片方案提供标准化的接入方案,支持开放生态和厂商专有互连协议的统一软件接口,为云计算等集群管理场景提供灵活和弹性的配置能力。
遵循ALink System规范,阿里云设计了面向下一代超大规模AI集群的磐久AI Infra 2.0服务器。该服务器体现了开放生态、高能效、高性能和高可用的设计理念,定义了AI计算节点和Scale Up/Scale Out互连系统,支持业界主流AI方案,推动了AI领域的“一云多芯”发展。
互连系统ALink System全面兼容UALink生态,与行业伙伴共同构建超高性能、超大规模的Scale UP集群互连能力。一级互连支持64-80个节点,二级互连可达2000个以上节点,提供了PB级共享显存和TB级互连带宽,为AI的发展提供了强大的支持。
AI Infra 2.0服务器集成了阿里自研的CIPU 3.0芯片,支持高带宽大规模AI服务器的Scale Out网络扩展,同时满足云网络的弹性和安全需求。在硬件工程方面,AI Infra 2.0服务器单机柜支持最大80个AI计算节点,业界密度最高;采用400V PSU,单体供电效率可达98%,整体供电效率提高2%。散热设计上,机柜级液冷方案可以根据实际负载动态调整CDU冷却能力来降低能耗,单柜冷却系统节能30%。在运维管理上,全新的CableCartridge后维护设计,支持全盲插,零理线易运维、零误操作,维护效率提升50%。
在可靠性方面,AI Infra 2.0服务器支持弹性节点、智能路由、高可靠供电、分布式CDU等技术,可以实时监控、探测各种硬件故障并自愈,硬件的故障域也缩减到节点级。
阿里云在ALink System产业生态建设上,秉持开放合作的策略,推动互连技术领域的发展和繁荣。自ALink System产业生态在开放数据中心大会上正式发布以来,已有20多家AI芯片、互连芯片、服务器整机硬件和IP设计厂商加入,成员单位已就相关协议标准制定和实行路径选择展开交流。
阿里云不仅是UALink的积极支持者和ALink System产业生态的牵头者,还是OCP、CXL、UCIe和UEC等多个互连技术行业组织的创始成员或技术委员会成员,并用实际行动支持相关开放互连技术标准的制定和落地。
通过这些合作和努力,阿里云磐久AI Infra 2.0服务器与UALink联盟的携手,不仅展示了阿里云在AI基础设施领域的技术实力和创新能力,也体现了阿里云在推动开放计算和AI技术发展中的领导地位。阿里云将继续引领AI技术的未来发展,为全球客户提供更加强大、灵活和高效的AI基础设施解决方案。