「富岳」は2021年3月9日から共用を開始し、全ノード(158,976ノード)を課題採択された利用者に提供している。2022年度は落雷によるシステム停止が2件発生したが、それ以外の重大障害は発生しておらず、通年の平均稼働率は99.6%と非常に安定した運用であった。また、光熱費の高騰により運用費の不足が予測されたため、全計算ノードの約1/3を約4カ月間停止することとなり、この期間中はジョブの実行待ち時間が長くなった。利用者の利用状況をみると、年度当初から高い利用率となり、通年の利用率は約86%であった。ジョブの平均待ち時間は、計算ノード停止期間中は待ち時間が非常に長くなったが、停止計算ノードの運用再開後は状況が改善された。
2022年度、「富岳」は全ノード(158,976ノード)をユーザーに提供した。図1に2022年度の計算ノード利用率を示す。4月、10月の利用率の低下は全系停止を伴う保守によるものである。年度を通して利用率は高い状況が続き、通年の利用率は86.4%であった。
2022年度の月別の予定された保守日数及び停止を伴う障害等による停止日数を表1に示す。2022年度の予定された保守の合計は11.5日、光熱費の高騰による計算ノード停止は30.9日、停止を伴う障害等による停止日数は1.1日であった。落雷によるシステム停止が2件発生したが、それ以外のシステム停止を伴う障害は発生していない。
予定された保守の日数 | 光熱費高騰による 計算ノード停止日数 |
障害等による停止日数 | |
---|---|---|---|
2022年4月 | 3.5 | 0.0 | 0.0 |
2022年5月 | 0.0 | 0.0 | 0.0 |
2022年6月 | 0.0 | 0.0 | 0.6 |
2022年7月 | 0.3 | 1.4 | 0.0 |
2022年8月 | 0.0 | 9.9 | 0.0 |
2022年9月 | 0.0 | 9.6 | 0.0 |
2022年10月 | 7.3 | 7.6 | 0.0 |
2022年11月 | 0.0 | 2.5 | 0.5 |
2022年12月 | 0.0 | 0.0 | 0.0 |
2023年1月 | 0.0 | 0.0 | 0.0 |
2023年2月 | 0.2 | 0.0 | 0.0 |
2023年3月 | 0.0 | 0.0 | 0.0 |
合計 | 11.5 | 30.9 | 1.1 |
また、2022年度の稼働率を図2に示す。ここで示す稼働率は、以下の式に従い算出している。
当該月の稼働率 = (当該月の全時間-予定された保守の時間-障害等による停止時間-光熱費高騰による計算ノード停止日数)/(当該月の全時間-予定された保守の時間-高騰による計算ノード停止日数)
2022年度の平均稼働率は99.6%と非常に高かった。
2022年度に発生した主な障害を表2に示す。ここでは、影響がシステム全体にわたり、且つ、1時間以上の停止を伴った障害を記載している。
発生日 | 障害内容 | 停止時間 (H) |
---|---|---|
2022年7月12日 | 落雷の影響で計算ノードが停止 | 14.7 |
2022年11月23日 | 落雷の影響で計算ノードが停止 | 11.7 |
2022年度の障害は全て落雷によるものであった。7月と11月に落雷によるシステム停止が発生したが、どちらも約半日で復旧している。2021年度に発生したファイルシステム関連の障害は適宜対策を行い、2022年度はシステム停止を伴うファイルシステム障害は発生しなかった。
2022年度の月毎の登録課題数及び登録ユーザー数と日毎の平均ログインユーザー数を図3に示す。5,6月の登録ユーザー数の減少は、2021年度に終了した課題のユーザーを削除した影響である。また、3月の登録ユーザー数の増加は2023年度開始のユーザー登録によるものである。
一日あたりの利用者数(アクティブユーザー数)は平均して約355名で、2021年度より1割ほど増加している。
2022年度に実行されたジョブ数を図4に示す。8月以降、ジョブ数が増加傾向にあるが、これは12ノード未満の小規模ジョブが増加した影響である。
図5に「富岳」に投入されたジョブの要求資源量を示す。ジョブの投入時に利用者が指定したノード数及び経過時間をもとに算出しており、要求ノード数の規模別に8グループに分類している。9月、10月の要求資源量が大きく減少しているが、これは光熱費高騰による一部計算ノードの停止により、ジョブが実行されにくくなり新規ジョブ投入が減少した影響である。
図6に2022年度に使用された計算資源量の規模別の内訳を示す。割り当てられたノード数の規模別に8グループに分類している。ジョブ充填率(実際にジョブで使用されたノード時間積/利用可能なノード時間積)は年度始めから高い状況が続き、通年で86.4%と高い値であった。
ジョブが投入されてから実行されるまでの待ち時間の推移を、ジョブの規模や経過時間指定毎に集計した結果を図7から図11に示す。
週毎の平均待ち時間を集計している。2022年度は光熱費高騰により計算ノードを停止した7月後半から11月前半までの期間の待ち時間が非常に長くなった。これを改善するため、small(384ノード以下)の特定の条件をみたす小規模ジョブをlargeの空き領域で実行する仕組みを積極的に活用し、待ち時間とノード利用率の改善を図った。また、省電力運用を開始したことによりジョブ実行時の電力変動が大きくなったことから、施設が電力変動に対応できるように中規模ジョブ(12,289-55,296ノード)を決まった時期(月2回)にまとめて実行する運用に変更した。そのため、運用変更以降の待ち時間のデータはない。全計算ノード運用再開後は待ち時間は改善されたが、12月後半と3月前半に混雑し待ち時間が増加した。