当一种新型药物的分子设计周期从 18 个月压缩至 12 个月,当一款高性能复合材料的微观结构模拟时间从 72 小时缩短到 43 小时…… “智算+ AI 模型”正在重塑研发创新的速度。青云科技为某专注生命科学及材料科学的大型新制造集团构建的 AI 智算平台,正在成为其重塑研发范式的创新引擎,单是实验成本,每年即可节省 4 亿元。
打破异构、异地局限,统一调度算力资源
对于布局全国的大型集团而言,各个基地的研发团队都有 GPU 资源和模型推理的需求,GPU 型号众多,算力资源的异构与分散管理曾是制约集团创新的隐形壁垒。比如,某个团队急需算力时,异地资源因调度不畅而无法及时响应,研发效率大受影响。通过青云 AI 智算平台,集团实现了总部与各研发基地算力资源的统一调度与管理:
实现跨区域、跨型号 GPU 资源的统一纳管,研发人员无论身处何地,都能通过同一平台账号,按需获取智算资源与服务,即来即用。
如果有新部署的算力集群,集团可在 48 小时内完成调试并纳入全局调度体系,确保在扩容时,算力与服务能快速上线。
跨区域数据传输与模型协同效率提升 60%,让团队间的协作更顺畅。
灵活支撑复杂科研场景,GPU 利用率大幅提升
医药分子动力学模拟、新材料微观结构分析等高度依赖 GPU 算力(包括 AI 算力、HPC 算力)的场景,往往伴随着复杂的运行环境。通过青云 AI 智算平台,集团在确保复杂科研场景顺畅运行的同时,大幅提升了 GPU 利用率:
采用业界领先的 GPU 虚拟化技术,在保证计算性能损失率低于 5% 的前提下,实现 GPU 资源的精细化分配与高效利用。
通过 GPU 算力切分与共享,让 GPU 资源不再闲置。研发人员可根据任务需求申请 1/4、1/2 、1/8 卡的算力,小任务无需等待整块显卡空闲,大任务可聚合多卡算力协同处理。
通过预置医药研发、材料科学等领域的专用镜像库,实现分钟级的开发、训练环境启动。比如,从登录平台到开始分子动力学模拟,整个过程从原来的 2 小时缩短至 15 分钟。
集团统一运营运维,管理更省心
在多区域、多场景的算力服务体系中,高效的运维运营能力是平台稳定运转的核心保障。通过青云 AI 智算平台,集团实现了流程自动化的提升,管理更省心:
管理员通过直观易用的界面,完成配额设置与管理、资源分配策略调整等运营工作,对资源使用情况、硬件设备的运行状态、系统性能等指标实时掌控。
在故障处理方面,平台内置的 1000+ 故障特征库能精准识别问题,一旦发现异常,系统会通过短信、邮件、平台通知等多渠道及时发出告警,提供详细的故障定位信息,常见问题实现分钟级自愈,将故障对研发工作的影响降到最低。
AI 智算平台的上线,给集团的业务创新提供了稳定、高效的支撑:对于科研团队而言,减少了等待算力、调试环境的时间,跨研发基地的模型协同也不再受地域限制;对集团管理来说,分散的 GPU 资源被盘活,算力利用率提升带来了成本优化,运维团队从重复排障中解放出来,能够更专注地支撑核心研发需求。