2 「富岳」の運用

2-1 稼働状況

2020年度の「富岳」は、共用運用に向けたシステム調整を実施しながら一部の計算ノードを共用前評価環境 (共用運用前のシステム調整段階における試行的利用環境)としてユーザに提供し、2021年3月9日から共用運用を開始した。据付調整中は利用可能な計算ノード数が限られ、システムも調整を行いながらの運用であったため、ノード利用状況は低い場面も見られた。3月の共用開始以降は、1か月間ではあるが大きな障害も発生せず、システムは安定して運用できた。利用者の利用状況をみると、共用開始直後は利用が低い状態であったが、その後は高くなっていた。ジョブの待ち時間は、ゴードン・ベル賞チャレンジで利用可能なノード数が減った期間は若干待ち時間が長くなったものの、それ以外は短い状況であった(ゴードン・ベル賞とは、計算科学・計算機科学で高い評価を得た課題に授与される賞で、この時はゴードン・ベル賞に応募する予定の課題が「富岳」の全体の約半分のノードを使用して性能測定を実施した)。「富岳」の共用は開始されたばかりであるが、約7年間の「京」の運用で得られた知見を生かし、今後の「富岳」の安定運用に努めていきたいと考えている。

2-1-1 稼働率

2020年度、「富岳」は据付調整を実施しながら一部の計算ノードを共用前評価環境としてユーザに提供し、2020年12月末までにすべての調整作業が終了した。この共用前評価環境は、「富岳」の開発関係者の他、ゴードン・ベル賞チャレンジ、文部科学省の「富岳」成果創出加速プログラム、および新型コロナウイルス対策を目的としたスーパーコンピュータ「富岳」の優先的な試行的利用に使われた。2020年10月からは「富岳」試行的利用課題(早期利用課題、利用準備課題)による利用も行われた。図1に2020年度の共用前評価環境における計算資源の提供状況とノード利用状況を示す。

図1 2020年度に提供された計算資源とノード利用状況

共用前評価環境は、据付調整作業と並行して提供されたため、年度初頭は利用可能なノード数は少なかったが、調整作業が進むにつれて利用可能なノード数は増加した。2021年3月9日から全ノード(158,976ノード)を共用環境として提供を開始し、共用前評価環境のユーザは2021年3月末まで引き続き利用した。

2020年度の共用環境で予定された保守日数及び停止を伴う障害等による停止日数を表1に示す。予定された保守の合計は4.6日、障害等による停止日数は合計で0.3日であった。2020年度の共用環境は3月9日から3月31日までの約1カ月間の運用であったが安定していた。

表1 2020年度の共用環境において予定された保守の日数と障害等による停止日数
予定された保守の日数障害等による停止日数
2021年3月4.60.3
合計4.60.3

注:予定された保守の日数、障害等による停止日数の合計は、四捨五入の関係により各月の合計とは一致しない場合がある。

2020年度の共用運用での稼働率を図2に示す。ここで示す稼働率は、以下の式に従い算出している。

当該月の稼働率 =(当該月の全時間-予定された保守の時間-障害等による停止時間)/(当該月の全時間-予定された保守の時間)

図2 2020年度の稼働率
図2 2020年度の稼働率

2-1-2 障害の発生状況

2020年3月には大きな障害は発生せず、安定した運用であった。

2-1-3 利用者数(課題数)の推移

2020年度の共用開始後の登録課題数および登録ユーザ数と日毎の平均ログインユーザ数を図3に示す。

図3 「富岳」の登録利用者数及び課題数
図3 「富岳」の登録利用者数及び課題数

一日あたりの利用者数(アクティブユーザ数)は平均して約170名で、多くのユーザが「富岳」を利用していたことがわかる。

2-1-4 ジョブ数の推移

2020年度の共用開始後に処理されたジョブ件数を図4に示す。

図4 処理されたジョブ件数
図4 処理されたジョブ件数
図5 「富岳」に投入されたジョブの要求資源量の総和
図5 「富岳」に投入されたジョブの要求資源量の総和

図5に「富岳」に投入されたジョブの要求資源量の総和を示す。ジョブの投入時に利用者が指定したノード数及び経過時間をもとに算出しており、要求ノード数の規模別に6グループに分類している。

図6 使用された計算資源量の内訳
図6 使用された計算資源量の内訳

図6に2020年度の共用運用中に使用された計算資源量の内訳を示す。割り当てられたノード数の規模別に8グループに分類している。ジョブ充填率(実際にジョブで使用されたノード時間積/利用可能なノード時間積)は当初は低かったが後半になると上昇しており、全体では65.2% であった。

2-1-5 待ち時間の分析

ジョブが投入されてから実行されるまでの待ち時間の推移を、ジョブの規模や経過時間指定毎に集計した結果を図7から図11に示す。

図7 待ち時間の推移(1-384ノード)
図7 待ち時間の推移(1-384ノード)
図8 待ち時間の推移(385-6,912ノード)
図8 待ち時間の推移(385-6,912ノード)
図9 待ち時間の推移(6,913-13,824ノード)
図9 待ち時間の推移(6,913-13,824ノード)
図10 待ち時間の推移(13,825-27,648ノード)
図10 待ち時間の推移(13,825-27,648ノード)
図11 待ち時間の推移(27,649-55,296ノード)
図11 待ち時間の推移(27,649-55,296ノード)

週毎の平均待ち時間を集計しているが、3月の第4週はゴードン・ベル賞チャレンジで専有利用となったため、3週間分のデータとなっている。3月の第2週の平均待ち時間が全体的に長くなっているが、これはこの週に計算ノードの半分をゴードン・ベル賞チャレンジのジョブ実行で利用したためである。この期間以外の待ち時間は短かった。