2 「富岳」の運用

2-1 稼働状況

「富岳」は2021年3月9日から共用を開始し、全ノード(158,976ノード)を課題採択された利用者(ユーザー)へ提供している。共用開始以降、2022年度に落雷によるシステム停止が2件発生した以降2024年度も含めて重大障害は発生しておらず、安定運用を継続している。通年の平均稼働率は、2022年度99.6%、2023年度99.9%、2024年度99.9%と極めて高い状況を継続して維持している。利用状況を見ても、高い利用率を維持し、通年の利用率は2023年度の約85%を上回り2024年度は90.7%で、過去最高の利用率であった。スーパーコンピュータの稼働率や利用率を公開しているセンターは非常に少なく正確な値は不明であるが、一般的には80%程度の稼働率・利用率で運用されている模様である。「富岳」のように稼働率が90%を超え、さらに利用率がほぼ100%というのは極めて驚異的な安定稼働を実現していると言える。

2-1-1 稼働率

2024年度、「富岳」も全ノード(158,976ノード)をユーザーに提供した。図1に2024年度の計算ノード利用率を示す。4月、10月、2月の利用率の低下は全系停止を伴う保守によるものである。2024年度は継続して利用率の高い状況が続き、通年の利用率は90.7%で、運用開始後最高であった。

図1 「富岳」のノード利用状況

2024年度の月別の予定された保守日数及び停止を伴う障害等による停止日数を表1に示す。2024年度は、2023年度と同様に光熱費の高騰による計算ノード停止は行っていない。2024年度の予定された保守の合計は11.3日(2023年度11.3日)、障害等によるシステム停止日数は0.0日(2023年度は0.05日)、であった。

表1 2024年度の予定された保守の日数と障害等による停止日数
予定された保守の日数 障害等による
システム停止日数
障害等による
ノード停止合計
2024年4月 3.7 0.0 0.01
2024年5月 0.0 0.0 0.02
2024年6月 0.0 0.0 0.01
2024年7月 0.0 0.0 0.01
2024年8月 0.0 0.0 0.01
2024年9月 0.0 0.0 0.00
2024年10月 3.6 0.0 0.01
2024年11月 0.0 0.0 0.00
2024年12月 0.0 0.0 0.01
2025年1月 0.0 0.0 0.01
2025年2月 4.0 0.0 0.00
2025年3月 0.0 0.0 0.01
合計 11.3 0.0 0.09

また、2024年度の稼働率を図2に示す。ここで示す稼働率は、以下の式に従い算出している。

当該月の稼働率 = (当該月の全時間-予定された保守の時間-障害等による停止時間)/(当該月の全時間-予定された保守の時間)

図2 「富岳」の稼働率

2024年度の平均稼働率は99.9% (2023年度 99.9%) と引き続き極めて高い状態を維持できている。

2-1-2 障害の発生状況

2024年度は、システムを停止する障害は発生しなかった。

2-1-3 ユーザー数(課題数)の推移

2024年度の月毎の登録課題数及び登録ユーザー数と日毎の平均ログインユーザー数を図3に示す。

図3 「富岳」の登録ユーザー数及び課題数

一日あたりのアクティブユーザー数は平均して約410名で、2023年度より1割ほど増加している。

2-1-4 ジョブ数の推移

2024年度に実行されたジョブ数を図4に示す。2024年度は12月までは2023年度と同様のジョブが投入・実行されていた。1月以降は、2023年度の倍近いジョブが実行されている。図5は、ジョブの投入時にユーザーが指定したノード数の規模別に8グループに分類して、実行されたジョブ数を示したものである。ジョブ数の増加は12ノード以下のジョブの増加によるものであり、小規模なジョブが大量に投入される傾向であった。

ジョブ数は1月以降大幅に増加したが、2023年8月からユーザーや課題あたりの投入可能なジョブ数の上限を低下させる措置を行ったことで、ジョブスケジュールに大きな影響はなかった。ジョブスケジューラの過負荷問題へは、機器の増設によるスループットの向上を実施したが、さらなる対策として2024年度にスケジューラー分割の検討を継続して実施する。

図4 「富岳」で実行されたジョブ数
図5 「富岳」で実行されたジョブの内訳
図6 「富岳」に投入されたジョブの要求資源量

図6に「富岳」に投入されたジョブの要求資源量を示す。ジョブの投入時にユーザーが指定したノード数及び経過時間をもとに算出しており、要求ノード数の規模別に8グループに分類している。

図7 使用された計算資源量の内訳(規模別)

図7に2024年度に使用された計算資源量の規模別の内訳を示す。割り当てられたノード数の規模別に8グループに分類している。割当ノード数が6912ノード以下のジョブが多くを占める傾向は継続しているが、この中でも384ノード以下のジョブが2023年度は約33%で、2024年度は約35%と2023年度より更に増加した。ジョブ充填率(実際にジョブで使用されたノード時間積/利用可能なノード時間積)は、通年で90.7%と運用開始後最高の値であった。

2-1-5 待ち時間の分析

ジョブが投入されてから実行されるまでの待ち時間の推移を、ジョブの規模や経過時間指定毎に集計した結果を図8から図11に示す。

図8 待ち時間の推移(1-384ノード)
図9 待ち時間の推移(385-1,024ノード)
図10 待ち時間の推移(1,025-4,096ノード)
図11 待ち時間の推移(4,097-12,288ノード)

週毎の平均待ち時間を集計している。2023年度同様、小規模ジョブが多数投入されていることからsmall(384ノード以下)の特定の条件をみたす小規模ジョブをlargeの空き領域で実行する仕組みの活用を継続し、待ち時間とノード利用率の改善を図った。また、省電力運用を開始したことによりジョブ実行時の電力変動が大きくなったことから、施設が電力変動に対応できるように中規模ジョブ(12,289-55,296ノード)を決まった時期(月2回)にまとめて実行する運用についても継続して実施している。全体的な傾向としては、半期末にジョブが集中し、待ち時間が増加しているのは2024年度も変わりなかった。