2 「富岳」の運用

2-3 運用の高度化に向けた取組

「京」の約7年間の共用運用で得られた知見をもとに、運用改善を目的として、「富岳」ではいくつかの機能の改善・追加を行った。主な改善点を以下に示す。

2-3-1 経過時間制限の動的変更

「京」では、ジョブ投入時に指定した経過時間までしかジョブは実行できなかった。そのため、ジョブが終了してから次のジョブが実行されるまで計算ノードが待機状態になることもあり、ノードの利用率が低下する原因であった。「富岳」では、後続ジョブの実行を阻害しない限り、ジョブが実行できる仕組みを実装した。これにより、後続ジョブのスケジューリング状況に応じてジョブ実行時間を動的に変更することが可能となり、ノード利用率が改善された。

図1 経過時間制限の動的変更
図1 経過時間制限の動的変更

2-3-2 課金管理の拡張

「京」を含め、一般的なシステムでは、計算資源は課題単位で管理されるため、課題が複数のサブ課題で構成されるような場合、課題内でサブ課題に割り当てられた計算資源をユーザが自由に調整することができなかった。「富岳」では、計算資源を階層管理とし、各課題の代表者が自由にサブ課題間で計算資源を移動できるような実装とした。また、資源管理をジョブの実行時間とノード時間の積である「ノード時間積」以外でも管理できるように実装した。

これにより、ジョブ単位の「電力量」を利用資源として管理することが可能となっている。

図2 資源管理の階層構造
図2 資源管理の階層構造

2-3-3 ログ解析の効率化

システムの運用状況の確認や、障害調査等を効率よく実施するためには、大量に出力されるログを効率的に解析する必要がある。「富岳」では、運用管理系ソフトウェアのログフォーマットの統一化、ログの一元管理、関連ログの紐づけなどを行い、障害調査・稼働率分析を迅速に行える環境を整備した。ログの分析時間の短縮は、保守時間の短縮につながる。