真机曝光!全国首个开放架构万卡超集群亮相智博会

2026-05-30 09:51 来源:中国经济网

中国经济网天津5月30日讯(记者宋雅静 许子杰)5月28日,2026世界智能产业博览会在天津开幕。中科曙光在1700平方米的展台中展示了面向AI时代的新一代计算基础设施体系,其中scaleX万卡超集群真机展出,震撼全场。

记者在现场拍摄了这台设备的运行状态,从机柜阵列到液冷管路,这些画面直观呈现了当前超大规模AI集群的工程形态。

现场观察:从概念到真机

与往届展会常见的模型演示不同,这次展出的是实体设备。记者在现场看到,标准化的机柜阵列通过高速互联网络连接,相变浸没液冷系统维持着设备的运行温度。

中科曙光公司综合解决方案部、高级技术顾问侯伟杰介绍,这套系统与今年2月已部署在国家超算互联网核心节点的机型一致。在AI算力领域,“万卡集群”在过去一年中频繁出现在行业报道中,但以开放架构落地并公开展示真机的案例较为少见。

相变浸没液冷系统维持着设备的运行温度。中国经济网记者 宋雅静/摄

scaleX万卡超集群真机展出。中国经济网记者 宋雅静/摄

全精度计算:科学智能时代的基础设施需求

在博览会开幕式上,中科曙光董事长历军发表演讲。他提到,AI for Science(AI4S)正在改变科研方式,基础科学突破能力已成为科技竞争的重要维度。他认为,高精度科学计算与低精度智能计算的协同,将是新一代计算基础设施的演进方向。

这一判断解释了超大规模集群的设计逻辑。当前大模型参数规模持续增长,从千亿到万亿参数的跨越对计算系统规模提出了更高要求。同时,科学计算场景(如蛋白质折叠模拟、流体力学仿真)需要双精度浮点运算支持,而模型训练则依赖低精度密集计算。scaleX万卡超集群的设计试图兼顾这两种需求。

scaleX万卡超集群真机展出,震撼全场。中科曙光供图

系统架构:全栈协同的工程挑战

在展台技术讲解区,中科曙光展示了覆盖”算、存、网、冷、管、软”的技术体系。万卡集群的核心难点在于系统协同效率,而非单纯的硬件堆砌。

计算层:除万卡超集群外,中科曙光还展示了640卡超节点scaleX640和无线缆箱式超节点scaleX40,形成不同规模的算力产品矩阵。

存储与网络层:展台展示了FlashNexus全闪存存储、ParaStor分布式存储系统,以及scaleFabric高速网络产品。技术人员解释,万卡并发训练时,存储I/O带宽容易成为瓶颈,高速存储与网络配套是保障集群效率的必要条件。

散热层:现场可见的相变浸没液冷系统通过冷却液相变带走热量。相比传统散热方式,这种方式在超大规模部署中有助于控制能耗。

软件层:OneScience科学大模型开发平台和Gridview集群运维系统提供了从集群管理到任务调度的软件支持。官方数据显示系统可用性为99.99%。

部署进展:国家超算互联网的应用测试

今年2月,3套scaleX万卡超集群系统已在国家超算互联网核心节点上线试运行,覆盖万亿参数模型训练、高通量推理与AI4S等场景。

中科曙光方面透露,其AI4S计算集群已扩展至60000卡规模,完成了70余项万卡规模测试。具体应用包括:3万卡算力用于蛋白质折叠模拟;4.5万卡算力实现414.7亿原子DFT精度模拟,将部分仿真效率从周级缩短至小时级。

笔者在现场拍摄的大屏幕显示了训练日志的实时回传画面,数据来源为国家超算互联网核心节点。

生态建设:从硬件部署到应用适配

历军在演讲中指出,科学智能时代的挑战不仅在于算力供给,还在于建立”数算模用”协同体系,推动先进封装、硅光互联、先进散热等底层技术的持续进步。

目前,中科曙光已适配400余个主流大模型,并在流体、生物、量子力学、工业仿真等领域推进专业软件的国产化适配。展台设置了AI4S应用体验区,展示了算力在科学计算中的实际应用效果。

中科曙光1700平方米的展台,集中展示了从超节点到超集群、从核心部件到系统协同的技术布局。scaleX万卡超集群的真机展出,反映了中国AI基础设施在超大规模部署和全精度计算方面的工程进展。

随着AI4S的发展,算力竞争正从单点性能转向系统级协同能力。万卡超集群的部署和应用,是这一趋势下的具体实践。

查看余下全文
(责任编辑:刘芃)