2 「富岳」の運用

2-1 稼働状況

「富岳」は2021年3月9日から共用を開始し、全ノード(158,976ノード)を課題採択された利用者に提供している。2022年度は落雷によるシステム停止が2件発生したが、それ以外の重大障害は発生しておらず、通年の平均稼働率は99.6%と非常に安定した運用であった。また、光熱費の高騰により運用費の不足が予測されたため、全計算ノードの約1/3を約4カ月間停止することとなり、この期間中はジョブの実行待ち時間が長くなった。利用者の利用状況をみると、年度当初から高い利用率となり、通年の利用率は約86%であった。ジョブの平均待ち時間は、計算ノード停止期間中は待ち時間が非常に長くなったが、停止計算ノードの運用再開後は状況が改善された。

2-1-1 稼働率

2022年度、「富岳」は全ノード(158,976ノード)をユーザーに提供した。図1に2022年度の計算ノード利用率を示す。4月、10月の利用率の低下は全系停止を伴う保守によるものである。年度を通して利用率は高い状況が続き、通年の利用率は86.4%であった。

図1 「富岳」のノード利用状況

2022年度の月別の予定された保守日数及び停止を伴う障害等による停止日数を表1に示す。2022年度の予定された保守の合計は11.5日、光熱費の高騰による計算ノード停止は30.9日、停止を伴う障害等による停止日数は1.1日であった。落雷によるシステム停止が2件発生したが、それ以外のシステム停止を伴う障害は発生していない。

表1 2022年度の予定された保守の日数と障害等による停止日数
予定された保守の日数 光熱費高騰による
計算ノード停止日数
障害等による停止日数
2022年4月 3.5 0.0 0.0
2022年5月 0.0 0.0 0.0
2022年6月 0.0 0.0 0.6
2022年7月 0.3 1.4 0.0
2022年8月 0.0 9.9 0.0
2022年9月 0.0 9.6 0.0
2022年10月 7.3 7.6 0.0
2022年11月 0.0 2.5 0.5
2022年12月 0.0 0.0 0.0
2023年1月 0.0 0.0 0.0
2023年2月 0.2 0.0 0.0
2023年3月 0.0 0.0 0.0
合計 11.5 30.9 1.1

また、2022年度の稼働率を図2に示す。ここで示す稼働率は、以下の式に従い算出している。

当該月の稼働率 = (当該月の全時間-予定された保守の時間-障害等による停止時間-光熱費高騰による計算ノード停止日数)/(当該月の全時間-予定された保守の時間-高騰による計算ノード停止日数)

図2 「富岳」の稼働率

2022年度の平均稼働率は99.6%と非常に高かった。

2-1-2 障害の発生状況

2022年度に発生した主な障害を表2に示す。ここでは、影響がシステム全体にわたり、且つ、1時間以上の停止を伴った障害を記載している。

表2 2022年度に発生した主な障害
発生日 障害内容 停止時間 (H)
2022年7月12日 落雷の影響で計算ノードが停止 14.7
2022年11月23日 落雷の影響で計算ノードが停止 11.7

2022年度の障害は全て落雷によるものであった。7月と11月に落雷によるシステム停止が発生したが、どちらも約半日で復旧している。2021年度に発生したファイルシステム関連の障害は適宜対策を行い、2022年度はシステム停止を伴うファイルシステム障害は発生しなかった。

2-1-3 利用者数(課題数)の推移

2022年度の月毎の登録課題数及び登録ユーザー数と日毎の平均ログインユーザー数を図3に示す。5,6月の登録ユーザー数の減少は、2021年度に終了した課題のユーザーを削除した影響である。また、3月の登録ユーザー数の増加は2023年度開始のユーザー登録によるものである。

図3 「富岳」の登録利用者数及び課題数

一日あたりの利用者数(アクティブユーザー数)は平均して約355名で、2021年度より1割ほど増加している。

2-1-4 ジョブ数の推移

2022年度に実行されたジョブ数を図4に示す。8月以降、ジョブ数が増加傾向にあるが、これは12ノード未満の小規模ジョブが増加した影響である。

図4 「富岳」で実行されたジョブ数
図5 「富岳」に投入されたジョブの要求資源量

図5に「富岳」に投入されたジョブの要求資源量を示す。ジョブの投入時に利用者が指定したノード数及び経過時間をもとに算出しており、要求ノード数の規模別に8グループに分類している。9月、10月の要求資源量が大きく減少しているが、これは光熱費高騰による一部計算ノードの停止により、ジョブが実行されにくくなり新規ジョブ投入が減少した影響である。

図6 使用された計算資源量の内訳(規模別)

図6に2022年度に使用された計算資源量の規模別の内訳を示す。割り当てられたノード数の規模別に8グループに分類している。ジョブ充填率(実際にジョブで使用されたノード時間積/利用可能なノード時間積)は年度始めから高い状況が続き、通年で86.4%と高い値であった。

2-1-5 待ち時間の分析

ジョブが投入されてから実行されるまでの待ち時間の推移を、ジョブの規模や経過時間指定毎に集計した結果を図7から図11に示す。

図7 待ち時間の推移(1-384ノード)
図7 待ち時間の推移(1-384ノード)
図8 待ち時間の推移(385-6,912ノード)
図8 待ち時間の推移(385-6,912ノード)
図9 待ち時間の推移(6,913-13,824ノード)
図9 待ち時間の推移(6,913-13,824ノード)
図10 待ち時間の推移(13,825-27,648ノード)
図10 待ち時間の推移(13,825-27,648ノード)
図11 待ち時間の推移(27,649-55,296ノード)
図11 待ち時間の推移(27,649-55,296ノード)

週毎の平均待ち時間を集計している。2022年度は光熱費高騰により計算ノードを停止した7月後半から11月前半までの期間の待ち時間が非常に長くなった。これを改善するため、small(384ノード以下)の特定の条件をみたす小規模ジョブをlargeの空き領域で実行する仕組みを積極的に活用し、待ち時間とノード利用率の改善を図った。また、省電力運用を開始したことによりジョブ実行時の電力変動が大きくなったことから、施設が電力変動に対応できるように中規模ジョブ(12,289-55,296ノード)を決まった時期(月2回)にまとめて実行する運用に変更した。そのため、運用変更以降の待ち時間のデータはない。全計算ノード運用再開後は待ち時間は改善されたが、12月後半と3月前半に混雑し待ち時間が増加した。