财联社4月6日报道,在上海松江仪电智算中心内,上万张GPU设备高效协同,构成庞大算力网络。每张芯片每秒可执行数十万亿次运算,两天总算力相当于三峡水电站单机组一小时发电量。
为实现万卡集群稳定运行,上海仪电智算科技团队攻克高故障率芯片协同难题,通过算法优化与并行调度,达成99.99%超高可用性,全年故障时间控制在1小时内,有效保障多模态大模型全球领先训练,避免重大算力损失。
该集群已成功适配多种国产算力卡,实现异构算力融合与优化调度,使用率近100%。团队首创“动态感知调度方案”,训练效率提升91%,年节省算力成本相当于新建3个数据中心,并已具备万卡集群快速部署能力。
智算科技董事长孙跃表示,公司正推进“算电协同”,扩大绿电应用、采用液冷技术降低PUE,并探索海上风电驱动数据中心,同时通过YI CLOUD平台及生态协同,推动国产算力在AI+应用中全面赋能。
三一生活网