(資料圖片僅供參考)
建造一臺超級計算機(jī)總是具有挑戰(zhàn)性的,但是創(chuàng)建業(yè)界第一個外掛級系統(tǒng)是遇到了完全意想不到的事情,需要在硬件和軟件方面做大量的工作。不幸的是,這種情況可能發(fā)生在橡樹嶺國家實(shí)驗(yàn)室的Frontier超級計算機(jī)上,它幾乎不能在沒有眾多硬件故障的情況下持續(xù)一天。
ORNL的Frontier是業(yè)界首個設(shè)計用于提供高達(dá)1.685 FP64 ExaFLOPS峰值性能的系統(tǒng),使用AMD的64核EPYC Trento處理器、Instinct MI250X計算GPU和HPE的Slingshot互連,功率為21兆瓦。HPE構(gòu)建了該系統(tǒng),并使用了為擴(kuò)展應(yīng)用設(shè)計的Cray EX(在新標(biāo)簽中打開)架構(gòu),主要用于超高速超級計算機(jī)。
雖然從紙面上看,F(xiàn)rontier超級計算機(jī)看起來特別好,而且機(jī)器系統(tǒng)的硬件部分已經(jīng)交付,但似乎硬件方面的問題一直追著機(jī)器上線,并提供給需要大約1 FP64 ExaFLOPS性能的研究人員。
"橡樹嶺領(lǐng)導(dǎo)力計算設(shè)施(OLCF)的項(xiàng)目主管Justin Whitt在接受InsideHPC(在新標(biāo)簽中打開)采訪時說:"我們正在解決硬件方面的問題,確保我們了解(它們是什么)。"在這種規(guī)模的情況下,你將會出現(xiàn)故障。這種規(guī)模的系統(tǒng)的平均故障間隔時間是幾小時,而不是幾天。"
關(guān)于Frontier的潛在硬件故障的傳言已經(jīng)流傳了很久。根據(jù)InsideHPC(在新標(biāo)簽中打開)的另一篇報道,一些人說該系統(tǒng)的Slingshot互連出現(xiàn)了問題。此外,其他人表示,AMD的Instinct MI250X計算GPU今年并不像預(yù)期那樣可靠。請記住,擁有更多流處理器和高時鐘的X版本只向特定客戶提供。
Whitt先生沒有證實(shí)系統(tǒng)在Instinct或Slingshot方面遇到任何特別的問題,但他壓根兒就沒有說過機(jī)器遭受到眾多的硬件問題。
"很多挑戰(zhàn)都集中在這些[GPU]上,但這并不是我們看到的大多數(shù)挑戰(zhàn),"OLCF的負(fù)責(zé)人說。"在零部件故障的常見罪魁禍?zhǔn)字?,這是一個相當(dāng)好的分布,它是一個很大的組成部分。我不認(rèn)為在這一點(diǎn)上,我們對AMD的產(chǎn)品有很多擔(dān)憂。"
橡樹嶺國家實(shí)驗(yàn)室的Frontier超級計算機(jī)到目前為止還不是唯一使用HPE的Cray EX架構(gòu)與Slingshot互連、AMD的EPYC CPU和AMD的Instinct計算GPU的系統(tǒng)。例如,芬蘭的Lumi超級計算機(jī)(Cray EX、EPYC Milan、Instinct MI250X計算GPU)提供550 PetaFLOPS的峰值性能,被官方列為世界上第三大最強(qiáng)大的超級計算機(jī)。也許,問題是有效的,該機(jī)器的規(guī)??偣彩褂昧?000萬個零件。
鑒于仍未正式部署,最初承諾在2022年上線的 "前沿 "超級計算機(jī)是否能在2023年開始供研究人員使用,只有時間才能證明。