2 「富岳」の運用

2-1 稼働状況

「富岳」は2021年3月9日から共用を開始し、全ノード(158,976ノード)を課題採択された利用者に提供している。2021年度はシステム停止を伴う障害が何件か発生したが、ほとんどの障害は短時間で運用を再開できており、通年の平均稼働率は約99%と安定した運用であった。利用者の利用状況をみると、年度当初の4-6月の利用は低調であったが、その後の利用は増加し、通年の利用率は約71%であった。ジョブの平均待ち時間は、各期の後半は待ち時間が長くなる傾向がみられた。これは「京」の運用時にもみられた傾向であり、利用の平滑化が課題である。

2-1-1 稼働率

2021年度、「富岳」は全ノード(158,976ノード)をユーザーに提供した。図1に2021年度の計算ノード利用率を示す。9月、12月、2月の利用率の低下は全系停止を伴う保守によるものである。年度当初の利用率は低かったが、徐々に利用率は増加し、後期の前半は若干低下したものの通年の利用率は70.6%であった。

図1 「富岳」のノード利用状況

2021年度の月別の予定された保守日数及び停止を伴う障害等による停止日数を表1に示す。2021年度の予定された保守の合計は11.6日、停止を伴う障害等による停止日数は合計で1.4日であった。システム停止を伴う障害が何度か発生したが、随時対処を行い年度の後半の運用は安定していた。

表1 2021年度の共用環境において予定された保守の日数と障害等による停止日数
予定された保守の日数 障害等による停止日数
2021年4月 0.6 0.0
2021年5月 0.0 0.3
2021年6月 0.0 0.0
2021年7月 0.3 0.0
2021年8月 0.0 0.0
2021年9月 2.5 0.6
2021年10月 0.1 0.3
2021年11月 0.3 0.0
2021年12月 3.1 0.3
2022年1月 0.1 0.0
2022年2月 4.2 0.0
2022年3月 0.1 0.0
合計 11.6 1.4

また、2021年度の稼働率を図2に示す。ここで示す稼働率は、以下の式に従い算出している。

当該月の稼働率 = (当該月の全時間-予定された保守の時間-障害等による停止時間)/(当該月の全時間-予定された保守の時間)

図2 「富岳」の稼働率

2021年度の平均稼働率は約99%であった。9,10月に稼働率が若干低下しているが,これは第2階層ファイルシステム障害によるものである。計算ノードと第2階層ファイルシステム間の通信経路が経路途中のノードが停止するなどで遮断され、ファイルシステムへのリクエストの処理が停止し多数の計算ノードがダウンした。再発防止策として、ノードの停止手順を見直すなどの対応を行っている。

2-1-2 障害の発生状況

2021年度に発生した主な障害を表2に示す。ここでは、影響がシステム全体にわたり、かつ、1時間以上の停止を伴った障害を記載している。

表2 2021年度に発生した主な障害
発生日 障害内容 停止時間 (H)
2021年5月7日 第2階層ストレージへのアクセス不可 6.1
2021年9月29日 第2階層ストレージへのアクセス不可 14.7
2021年10月2日 第2階層ストレージへのアクセス不可 6.3
2021年11月4日 運用管理サーバの停止によるジョブ運用停止 7.7
2021年12月18日 運用管理サーバの停止によるジョブ運用停止 2.4
2021年12月28日 運用管理サーバの停止によるジョブ運用停止 3.8

2021年度の障害は大きく分けて、第2階層ストレージ障害と運用管理サーバの停止によるジョブ運用停止であった。第2階層ストレージ障害は、ファイルシステムであるFEFSの障害によるものと計算ノードと第2階層ストレージ間の通信断による計算ノードダウンであった。前者はソフトウェアの障害修正を適用し、後者は計算ノードと第2階層ストレージ間の通信経路の遮断が発生しないよう運用手順を見直し、再発防止を行っている。運用管理サーバの停止は、システムソフトウェアの障害と計算ノードのブートIOノード(BIO)のシステムメモリの枯渇に起因するものであった。前者は、ソフトウェアの障害修正を適用済みである。後者は根本的な修正にはOSの修正が必要となるため、ベンダーから修正が提供されるまでの暫定対処で再発を回避している。

2-1-3 利用者数(課題数)の推移

2021年度の月毎の登録課題数および登録ユーザー数と日毎の平均ログインユーザー数を図3に示す。5月の登録ユーザー数の減少は、2020年度に終了した課題のユーザーを削除した影響である。また、3月の登録ユーザー数の増加は2022年度開始のユーザー登録によるものである。

図3 「富岳」の登録利用者数及び課題数

一日あたりの利用者数(アクティブユーザー数)は平均して約330名で、多くのユーザーが「富岳」を利用していたことがわかる。

2-1-4 ジョブ数の推移

2021年度に実行されたジョブ数を図4に示す。1月のジョブ数が突出しているが、これは12ノード未満のジョブが多数実行された影響である。

図4 「富岳」で実行されたジョブ数
図5 「富岳」に投入されたジョブの要求資源量

図5に「富岳」に投入されたジョブの要求資源量を示す。ジョブの投入時に利用者が指定したノード数及び経過時間をもとに算出しており、要求ノード数の規模別に8グループに分類している。7月に大規模ジョブの要求資源量が多くなっているが、これは7月に実施したゴードン・ベル賞チャレンジの利用で全系規模のジョブが多数投入された影響である。

図6 使用された計算資源量の内訳(規模別)

図6に2021年度に使用された計算資源量の規模別の内訳を示す。割り当てられたノード数の規模別に8グループに分類している。ジョブ充填率(実際にジョブで使用されたノード時間積/利用可能なノード時間積)は当初は低かったが後半になると上昇し、通年のジョブ充填率は70.6% であった。

2-1-5 待ち時間の分析

ジョブが投入されてから実行されるまでの待ち時間の推移を、ジョブの規模や経過時間指定毎に集計した結果を図7から図11に示す。

図7 待ち時間の推移(1-384ノード)
図7 待ち時間の推移(1-384ノード)
図8 待ち時間の推移(385-6,912ノード)
図8 待ち時間の推移(385-6,912ノード)
図9 待ち時間の推移(6,913-13,824ノード)
図9 待ち時間の推移(6,913-13,824ノード)
図10 待ち時間の推移(13,825-27,648ノード)
図10 待ち時間の推移(13,825-27,648ノード)
図11 待ち時間の推移(27,649-55,296ノード)
図11 待ち時間の推移(27,649-55,296ノード)

週毎の平均待ち時間を集計している。前期の前半は利用が低調だったため待ち時間は短かったが、利用の増加にともない後半の8月から9月にかけての待ち時間が増加した。後期は前半の待ち時間は前期の後半より短くなったが、12月後半から2月にかけて待ち時間が増加した。各期の後半が混雑する傾向は「京」の運用時と同じであり、利用の平滑化が課題である。