建造一台超级计算机总是具有挑战性的,但是创建业界第一个外挂级系统是遇到了完全意想不到的事情,需要在硬件和软件方面做大量的工作。不幸的是,这种情况可能发生在橡树岭国家实验室的Frontier超级计算机上,它几乎不能在没有众多硬件故障的情况下持续一天。
ORNL的Frontier是业界首个设计用于提供高达1.685 FP64 ExaFLOPS峰值性能的系统,使用AMD的64核EPYC Trento处理器、Instinct MI250X计算GPU和HPE的Slingshot互连,功率为21兆瓦。HPE构建了该系统,并使用了为扩展应用设计的Cray EX(在新标签中打开)架构,主要用于超高速超级计算机。
虽然从纸面上看,Frontier超级计算机看起来特别好,而且机器系统的硬件部分已经交付,但似乎硬件方面的问题一直追着机器上线,并提供给需要大约1 FP64 ExaFLOPS性能的研究人员。
"橡树岭领导力计算设施(OLCF)的项目主管Justin Whitt在接受InsideHPC(在新标签中打开)采访时说:"我们正在解决硬件方面的问题,确保我们了解(它们是什么)。"在这种规模的情况下,你将会出现故障。这种规模的系统的平均故障间隔时间是几小时,而不是几天。"
关于Frontier的潜在硬件故障的传言已经流传了很久。根据InsideHPC(在新标签中打开)的另一篇报道,一些人说该系统的Slingshot互连出现了问题。此外,其他人表示,AMD的Instinct MI250X计算GPU今年并不像预期那样可靠。请记住,拥有更多流处理器和高时钟的X版本只向特定客户提供。
Whitt先生没有证实系统在Instinct或Slingshot方面遇到任何特别的问题,但他压根儿就没有说过机器遭受到众多的硬件问题。
"很多挑战都集中在这些[GPU]上,但这并不是我们看到的大多数挑战,"OLCF的负责人说。"在零部件故障的常见罪魁祸首中,这是一个相当好的分布,它是一个很大的组成部分。我不认为在这一点上,我们对AMD的产品有很多担忧。"
橡树岭国家实验室的Frontier超级计算机到目前为止还不是唯一使用HPE的Cray EX架构与Slingshot互连、AMD的EPYC CPU和AMD的Instinct计算GPU的系统。例如,芬兰的Lumi超级计算机(Cray EX、EPYC Milan、Instinct MI250X计算GPU)提供550 PetaFLOPS的峰值性能,被官方列为世界上第三大最强大的超级计算机。也许,问题是有效的,该机器的规模总共使用了6000万个零件。
鉴于仍未正式部署,最初承诺在2022年上线的 "前沿 "超级计算机是否能在2023年开始供研究人员使用,只有时间才能证明。
来源:中关村在线
责任编辑:庄婷婷
特别声明:本网登载内容出于更直观传递信息之目的。该内容版权归原作者所有,并不代表本网赞同其观点和对其真实性负责。如该内容涉及任何第三方合法权利,请及时与ts@hxnews.com联系或者请点击右侧投诉按钮,我们会及时反馈并处理完毕。
- 台湾政治学者:美国霸权加剧台海局势动荡2023-04-20
- 美媒再度发文披露美国政府监听联合国秘书长古特雷斯 外交部回应2023-04-20
- 商务部发布!涉及对台军售的美军工企业2023-04-20
- 最新科技前沿 频道推荐
-
小而美又行了?魅族20系列成3000元档周线上销2023-04-21
- 进入图片频道最新图文
- 进入视频频道最新视频
- 一周热点新闻
已有0人发表了评论