2023年度に発生した問題への取り組みや実施した運用改善の内容などについて以下に示す。
2023年度は、2022年度に続きシステム全体の停止を引き起こすような重大障害は発生しなかった。しかし、ファイルシステムの機能的な制約により使用法を誤ったジョブの異常終了や一部ノードの一時停止が継続して散見されている。機能上の改善は、短期的には困難であり、異常に遭遇したユーザーへのタイムリーな通知を行うことを中心に2023年度は取り組んだ。
「富岳」はLLIOと呼ばれるSSDを使用した高速なファイルシステムを提供しているが、機能上の制限がいくつかあり、制限に抵触するとLLIOのサーバーであるSIOがダウンするなどの影響がある。これを回避するため、ジョブ実行時にLLIO利用制限を超過したジョブを検出し、当該ユーザーに問題点と改善方法を伝えるための情報採取の仕組みと、利用制限の超過原因となったファイルのパス情報を取得する機能を昨年度までに実装した。2023年度は、LLIO利用制限超過に遭遇したジョブが発生した場合、自動的に当該ジョブのユーザーへ通知する機構を実装し、タイムリーに異常発生を伝えることでユーザービリティの向上を図った。
表1に2022年度と2023度のLLIO制限超過の検出ユーザー数を示す。2022年度は、制限超過ユーザー数は減少傾向にあったが、2023年度は利用者の拡大に伴い、2022年度の二倍に近いユーザーが遭遇している。このため、2023年9月に改めてユーザーへLLIOの利用制限に関する注意喚起を行った。
2022年度は、年度途中で光熱水費の想定外の高騰に見舞われ、全計算ノードの約1/3を約4ヶ月間停止するとともに、省電力運用を実施した。2023年度は、2022年度に開始した省電力運用の施策の適用拡大を継続して実施するとともに、新たにユーザー参加型の省電力対策を実施した。
計算ノードの電力削減を行うために、2022年度からノード・リテンションとコア・リテンション機能を運用に適用した。これらの機能を使うことで、計算ノードの消費電力を下げることができるが、計算ノードのアイドル時の消費電力が下がるため電力変動が大きくなる可能性がある。これを防ぐために、ジョブ単位でリテンションが有効になるノード数を制限する対策を行ってきた。2022年度までは、システム全体(432ラック)の約半分の228ラックへノード・リテンションを適用した。2023年度はそれまでに実行されたジョブの消費電力傾向を監視することで、電力変動状況を予測しノード・リテンションの適用対象を段階的に拡大することとした。2023年8月に270ラック、2024年2月に300ラック、2024年4月に330ラックと拡大した。2024年度中に全ラックへの適用を完了する予定である。
システムの省電力化には、実行するプログラムの特性に合わせてCPUの動作周波数を調整する等、未使用な演算器を停止することが有効であることは以前から知られている。「富岳」にも、省電力機能として前述したリテンション機能の他に、ブーストモード(CPUの動作周波数変更)、エコモード(演算器の停止)、ブーストエコモード(両モードの両立)が実装されている。どのようなモードを使用することで、実行性能と省電力のバランスが最適であるのかは、プログラムの実装や実行ルートにより異なる。このため、ユーザーに最適な設定を試行いただくようアナウンスし、省電力化への協力を要請してきた。しかし、このようなボランティア的な省電力化への協力には限界があり、省電力の効果を十分に得られていないものと考えられる。ユーザーが積極的に省電力モードを使用するような施策として、2023年度は「富岳ポイント」制度の試行運用を行った。「富岳ポイント」制度は、省電力モードを積極的に使用してもらうことで削減された電力量に応じてユーザーにポイントを付与し、付与されたポイント数に応じて半期末の一ヶ月間優先的にジョブが実行される権利が得られるという制度である。
「富岳ポイント」制度はこれまでにない新たな取り組みであり、利用状況などを見て継続的に制度などを見直す前提で、まずは以下のルールにて開始した。
▪ 「富岳ポイント」は、ジョブの省電力による電力削減量に応じて付与する。
▪ 獲得したポイントに応じた計算資源量を上限とし、期末の特定期間中に優先的にジョブ実行可能とする。ただし、ノード時間積は追加されないため、各課題の計算資源量がなくなると優先実行できない。
▪ 各課題の獲得ポイントは、8月上旬、2月上旬に集計し、全体で優先利用可能な計算資源量(1か月分の5%程度を想定)を按分する。
▪ 使い切れなかったポイントは、翌期に繰り越しできない。
ジョブ実行時に削減された電力量に基づく「富岳ポイント」の計算方法を以下に示す。
「富岳ポイント」=
(当該課題で実行されたジョブのノード時間積の和×ノード時間積あたりの消費電力量の基準値 -当該課題で実行されたジョブの消費電力の和)
ノード時間積あたりの消費電力量の基準値
※ノード時間積あたりの消費電力量の基準値:配分電力量÷配分計算資源量だが、2023年度は運用予算から約109Wとした
図1にポイント取得期間、優先実行期間を示す。
優先ジョブ利用期間は、半期のそれぞれ後半に設定した。これは、「富岳」では各課題の利用終了(概ね9月もしくは3月)が近づくにつれてジョブが混雑し、待ち時間が長期化する傾向にあるためである。待ち時間が長期化する傾向にある期間でジョブを優先実行できることが、ユーザーにとってメリットを大きく感じられるものと考えた。ただし、ポイントを獲得できなかった課題のジョブの実行が過度に阻害されないように、半期末の9月や3月ではなく、その1か月前の8月,2月の1ヶ月間とした。
表2に上期における「富岳ポイント」の獲得状況を示す。最もポイントを獲得した課題は、約303万ポイントでありこれにより得られた優先的にジョブを実行できる資源量は約42万ノード時間であった。これは、1ラック(384ノード)規模で実行時間2時間のジョブであれば、500本以上も優先実行できる資源量であり、当該課題にとっては大きなメリットになったものと考えられる。
合計実行ノード時間積 [ノード時間] |
合計消費電力量 [kWh] |
獲得ポイント | 優先ジョブ資源量 [ノード時間] |
|
---|---|---|---|---|
課題A | 15,187,375 | 1,330,146,416 | 3,034,369 | 421,504 |
課題B | 6,502,036 | 449,730,263 | 2,393,035 | 332,416 |
課題C | 2,995,052 | 156,822,910 | 1,562,225 | 217,008 |
課題D | 7,706,996 | 694,683,925 | 1,359,952 | 188,911 |
課題E | 3,459,779 | 234,262,623 | 1,319,416 | 183,280 |
課題F | 6,297,952 | 551,707,630 | 1,257,225 | 174,641 |
課題G | 3,427,722 | 245,203,692 | 1,187,396 | 164,941 |
課題H | 4,711,506 | 389,689,633 | 1,151,071 | 159,895 |
課題I | 2,238,236 | 121,133,189 | 1,131,492 | 157,175 |
課題J | 3,934,585 | 308,506,410 | 1,115,887 | 155,008 |
表3に2023年度上期と下期のポイント獲得状況の比較結果を示す。下期は上期と比較して、ノード時間積の総和が1.17倍ではあるが、平均ポイント数は1.3倍、最大ポイント数は1.6倍となった。課題別には、47%の課題が上期より下期のほうがポイントを多く獲得しており、ポイント未獲得の課題は下期に約3%減少した。これらのことから、上期よりも下期のほうが、ポイント獲得を活発化でき、ユーザーの省電力化への意識付けに効果があったものと考えられる。
2023年度上期 | 2023年度下期 | |
---|---|---|
全課題数 | 161 | 170 |
平均ポイント数 | 248,303 | 320,692 |
最大ポイント数 | 3,034,369 | 4,794,864 |
ポイント数総和 | 39,976,733 | 54,517,719 |
ノード時間積の総和[ノード時間] | 319,235,270 | 375,099,611 |
消費電力量の総和[kWh] | 31,184,829,172 | 35,285,485,421 |
ポイント未獲得課題の割合 | 27.3% | 24.7% |
獲得された「富岳ポイント」の活用については、上期の優先ジョブ実行数は約3万5千(資源消費率:約50%)に対し、下期約2万7千ジョブ(同:28%)と、下期の利用が進まなかった。図2は、下期における獲得ポイント数上位20課題のポイント活用状況を示すものであるが、既に配分資源量を全て使いつくしているため、優先実行できない(図2の灰色)状況にある課題が複数存在した。これは、下期に終了となる課題が多いため、上期に比べ下期にポイントの利用が進まなかった原因の一つと考えられる。
本制度導入による省電力効果については、制度導入前の2022年度の1ノードあたりの平均電力は101Wであったのに対し、ポイント算出対象ジョブの1ノードあたりの平均電力は、2023年度上期が98W、2023年下期が95Wと減少傾向にある。図3は、「富岳」本体の2022年度からの推移を示すものである。2023年度は、2022年度に一部計算ノードを停止(2022-08~2022-11)した後に適用した省電力運用の効果が見られる電力とほぼ同様の電力で推移している状況にあり、システム全体では「富岳ポイント」による直接的な省電力効果はまだまだ見られないものと考えられる。
2023年度の状況を踏まえ、2024年度には優先実行に期間を設けるのではなく、通年で優先実行を可能とする、すなわち、獲得したポイントを何時でも利用可能とする見直しを行う予定である。
「富岳ポイント」は、他のスーパーコンピュータセンターでも類を見ない、ユーザー参加型の省電力化施策であるが、省電力化そのものへの効果は未だ課題はあるものの、ユーザーの省電力化に対する意識付けについては大きく貢献したものと考えられる。今後も、継続して制度の見直しを行い、実際の電力削減の効果が出るよう取り組んでいく予定である。
2019年に設置を開始した「富岳」および周辺機器は、間もなく一般的な製品の保証期間である5年を2024年度に迎えることとなる。当センターをとりまく様々な状況から、「富岳」は2025年度以降も運用を継続するものと思われ、「京」の7年間の運用期間を上回る可能性も否定できないものと思われる。このため、本体装置や各種周辺機器を含めて、長期運用に向けた各種検討の実施が必要である。特にストレージ装置は、データ保全のために重要であるが、所謂バスタブ曲線によるハードウェア故障の集中的な発生が懸念され、ハードウェアの交換で対処せざるを得ないものと考える。この際、交換後のストレージ装置がサポートするファイルシステムのソフトウェアと現在の「富岳」が採用しているファイルシステムのソフトウェア(富士通製の「FEFS」)との接続性が大きな問題となる。当面、市場のストレージ装置は、FEFSがベースとしているオープンソースソフトウェアのLustreファイルシステムのサポートは継続されるものと想定されるため、「富岳」が採用しているファイルシステム「FEFS」と最新版のLustreとの接続性について検討することとした。具体的には、現在のLustreの開発母体であるWarmCloud社を配下にもつData Direct Network(DDN)社と共同でFEFSと最新Lustreとの接続性の検証及び、ソースコードレベルでの改修ポイントの検討を行った。動作検証の結果、簡単な試験範囲ではあるが、「富岳」の計算ノード(FEFS)から、ファイルシステムのマウントおよび初歩的なファイルアクセスが可能であることが確認できた。今後、詳細な試験を行うことにより、ファイルシステムとしての長期運用への対応策を明確化していく予定である。