天津智博会明天就开了,准备去曙光展台转一圈。主要是他们最近几个项目确实有看点。
上个月郑州那个6万卡集群投用了,在国家超算互联网核心节点,说是目前国内最大规模的AI4S集群。这次智博会上,他们会展出这个集群的核心技术——scaleX万卡超集群,现场是真机。
另外还有他们自研的400G网络,叫scaleFabric,端到端时延0.9微秒,链路故障恢复1毫秒以内。我不确定这些数字在实际生产环境能稳定成什么样,但能在3万卡集群上跑10个月没出大问题,至少说明不是实验室玩具。
液冷那块也有意思,MW级相变浸没液冷,单机柜900kW以上,PUE 1.04。听起来挺夸张的,到时候看真机什么样。
智博会 万卡超集群

