2 「富岳」の運用

2-1 稼働状況

「富岳」は2021年3月9日から共用を開始し、全ノード(158,976ノード)を課題採択された利用者に提供している。共用開始以降、2022年度に落雷によるシステム停止が2件発生したが、以降2023年度も含めて重大障害は発生しておらず、安定運用を継続している。通年の平均稼働率は、2022年度99.6%、2023年度99.9%と極めて高い状況を継続して維持している。利用状況を見ると、年度当初は立ち上がりが鈍ったが以降高い利用率を維持し、通年の利用率は2022年度の約86%に迫る約85%であった。

2-1-1 稼働率

2023年度、「富岳」は全ノード(158,976ノード)をユーザーに提供した。図1に2023年度の計算ノード利用率を示す。4月、10月、2月の利用率の低下は全系停止を伴う保守によるものである。年度当初は、一部課題の採択に時間を要したため立ち上がりが鈍ったが、以降は継続して利用率の高い状況が続き、通年の利用率は84.8%であった。

図1 「富岳」のノード利用状況

2023年度の月別の予定された保守日数及び停止を伴う障害等による停止日数を表1に示す。2022年度は、光熱費の高騰による計算ノード停止を行ったが、2023年度は同様の停止は行っていない。2023年度の予定された保守の合計は11.3日(2022年度は11.5日)、障害等による停止日数は0.05日(2022年度は1.1日)であった。

表1 2023年度の予定された保守の日数と障害等による停止日数
予定された保守の日数 障害等による停止日数
2023年4月 3.7 0.0
2023年5月 0.0 0.0
2023年6月 0.0 0.0
2023年7月 0.0 0.0
2023年8月 0.0 0.0
2023年9月 0.0 0.05
2023年10月 3.3 0.0
2023年11月 0.0 0.0
2023年12月 0.0 0.0
2024年1月 0.0 0.0
2024年2月 4.3 0.0
2024年3月 0.0 0.0
合計 11.3 0.05

また、2023年度の稼働率を図2に示す。ここで示す稼働率は、以下の式に従い算出している。

当該月の稼働率 = (当該月の全時間-予定された保守の時間-障害等による停止時間)/(当該月の全時間-予定された保守の時間)

図2 「富岳」の稼働率

2023年度の平均稼働率は99.9% (2022年度 99.6%) と極めて高い状態を維持できている。

2-1-2 障害の発生状況

2023年度に発生した主な障害を表2に示す。ここでは、影響がシステム全体の50%を超える計算ノードに渡り、且つ、1時間以上の停止を伴った障害を記載している。

表2 2023年度に発生した主な障害
発生日 障害内容 停止時間 (H)
2023年9月22日 ソフトウェアの不具合によるジョブスケジューリング停止 1.2

2023年度の障害は、ソフトウェアの不具合によりシステム全体の52%(82,944ノード)が使用できない状態に陥ったものである。およそ1.2時間で復旧し、システム全体の運用を再開している。ソフトウェアの不具合についても、対処済である。

2-1-3 利用者数(課題数)の推移

2023年度の月毎の登録課題数及び登録ユーザー数と日毎の平均ログインユーザー数を図3に示す。5月の登録ユーザー数の減少は、2022年度に終了した課題のユーザーを削除した影響である。

図3 「富岳」の登録利用者数及び課題数

一日あたりの利用者数(アクティブユーザー数)は平均して約395名で、2022年度より1割ほど増加している。

2-1-4 ジョブ数の推移

2023年度に実行されたジョブ数を図4に示す。当初、2023年度は2022年度の実績を大きく上回る数のジョブが投入・実行されていた。特に6月、7月は2022年度の3倍から4倍のジョブが実行されている。図5は、ジョブの投入時に利用者が指定したノード数の規模別に8グループに分類して、実行されたジョブ数を示したものである。ジョブ数の増加は12ノード以下のジョブの増加によるものであり、小規模なジョブが大量に投入される傾向にあった。

ジョブ数の大幅増加に伴い、ジョブスケジューラが過負荷状態となり、ジョブに対する操作の応答性が著しく低下する問題が高頻度で発生する状況となった。このため、2023年8月から段階的にユーザーや課題あたりの投入可能なジョブ数の上限を低下させる措置を行うこととした。これにより、システム全体の実行ジョブ数は2022年度と概ね同様となり、ジョブ操作の応答性の大幅低下も発生しなくなった。ジョブスケジューラの過負荷問題へは、機器の増設によるスループットの向上を実施したが、さらなる対策について2024年度に検討を継続することとしている。

図4 「富岳」で実行されたジョブ数
図5 「富岳」で実行されたジョブの内訳
図6 「富岳」に投入されたジョブの要求資源量

図6に「富岳」に投入されたジョブの要求資源量を示す。ジョブの投入時に利用者が指定したノード数及び経過時間をもとに算出しており、要求ノード数の規模別に8グループに分類している。

図7 使用された計算資源量の内訳(規模別)

図7に2023年度に使用された計算資源量の規模別の内訳を示す。割り当てられたノード数の規模別に8グループに分類している。割当ノード数が6912ノード以下のジョブが多くを占める傾向は、2022年度から継続しているが、この中でも384ノード以下のジョブが2022年度は平均で25%程度占めていたが、2023年度は約33%と増加傾向にあった。ジョブ充填率(実際にジョブで使用されたノード時間積/利用可能なノード時間積)は、年度始めの立ち上がりが鈍ったが以降高い状況が続き、通年で84.8%と高い値であった。

2-1-5 待ち時間の分析

ジョブが投入されてから実行されるまでの待ち時間の推移を、ジョブの規模や経過時間指定毎に集計した結果を図8から図11に示す。

図8 待ち時間の推移(1-384ノード)
図8 待ち時間の推移(1-384ノード)
図9 待ち時間の推移(385-1,024ノード)
図9 待ち時間の推移(385-1,024ノード)
図10 待ち時間の推移(1,025-4,096ノード)
図10 待ち時間の推移(1,025-4,096ノード)
図11 待ち時間の推移(4,097-12,288ノード)
図11 待ち時間の推移(4,097-12,288ノード)

週毎の平均待ち時間を集計している。2022年度同様、小規模ジョブが多数投入されていることからsmall(384ノード以下)の特定の条件をみたす小規模ジョブをlargeの空き領域で実行する仕組みの活用を継続し、待ち時間とノード利用率の改善を図った。また、省電力運用を開始したことによりジョブ実行時の電力変動が大きくなったことから、施設が電力変動に対応できるように中規模ジョブ(12,289-55,296ノード)を決まった時期(月2回)にまとめて実行する運用についても2022年度から継続して実施している。全体的な傾向としては、半期末にジョブが集中し、待ち時間が増加している。