5.16. ジョブ異常終了時の確認

5.16.1. ジョブマネージャの終了コード

投入したジョブが異常終了した場合、ジョブマネージャの終了コード(PJM CODE)を参照することで原因を特定することができます。

ジョブマネージャの終了コードは、pjsub実行時に、-s、または、-Sオプションを指定すると生成される統計情報ファイルの中に記載されています。

ジョブ実行例は以下のとおりです。

[_LNlogin]$ pjsub -s ./sample.sh

ジョブが終了すると、次のファイル名でジョブ統計情報が出力されます。

ファイル名

説明

ジョブ名.ジョブID.stats

ジョブの統計情報が出力されたファイルです。

ジョブマネージャの終了コード(PJM CODE)一覧は以下のとおりです。

PJM CODE

意味

0

ジョブの正常終了

1

ユーザが操作したpjdelコマンドによるCANCEL

2

ジョブの受付判定によるREJECT。pjsubコマンドがエラーになります

3

ジョブマネージャー出口機能による実行拒否。ジョブは実行されていません

4

ユーザが操作したpjholdコマンドによるHOLD

6

ステップジョブ依存関係式によるCANCEL。ジョブは実行されていません

7

デッドライン強制指定によりCANCEL

8

ジョブマネージャー出口機能による CANCEL。ジョブは実行されていません

9

再実行不可指定のため、ジョブ再構築時にEXIT

11

経過時間制限違反によるジョブ実行タイムアウト

12

メモリ使用量超過による強制終了

16

カレントディレクトリまたは標準入力/標準出力/標準エラー出力ファイルへのアクセス不可による終了

18

実行可能時間の最小値を超えて実行していたジョブが、後続ジョブの実行、または、デッドラインスケジュールの開始により終了。前者が原因の場合は、項目REASONが"ANOTHER JOB STARTED"になり、後者の場合は"DEADLINE SCHEDULE STARTED"になります

20

ノードダウン

21

シェルの実行失敗

22

ICCエラー

23

OOM Killer動作による終了

25

HA失敗

26

プロローグ、エピローグ処理のエラー

27

ジョブ資源管理出口処理のエラー

28

ジョブ実行環境の異常

29

指定したジョブ実行環境が不正

30

サスペンドまたはリジューム処理失敗による中断

100

ジョブマネージャの内部エラー

120

ジョブスケジューラの内部エラー

140

ジョブ資源管理の内部エラー

160

Tofuライブラリの内部エラー。ジョブは実行されていません

180

階層化ストレージの内部エラー

5.16.2. ジョブ実行時に出力されるメッセージ

ジョブ実行時にエラーメッセージが出力される場合があります。出力されるメッセージは、並列実行環境(PLE)、ジョブ管理(PJM)、MPI、言語処理系(Fortran/C/C++)等が出しており、メッセージごとに、説明を記載したマニュアルを用意しています。

以下の表に、メッセージとメッセージの説明が記載されている参照マニュアルの関連を示します。

エラーメッセージ *1

ジョブ出力ファイル *2

mpiexec 出力先変更

参照マニュアル

PLE nnnn plexec

ジョブ名.ジョブID.err

変更不可

ジョブ運用ソフトウェア

- コマンドリファレンス

- エンドユーザ向けガイド

PJM nnnn xxxxxx

ジョブ名.ジョブID.err

変更不可

ジョブ運用ソフトウェア

- コマンドリファレンス

- エンドユーザ向けガイド

mpi::

ジョブ名.ジョブID.err

変更可

MPI使用手引書

jwennnn

ジョブ名.ジョブID.err

変更可

Fortran/C/C++実行時メッセージ

注釈

*1: メッセージ中に含まれる文字列を示します。この文字列でメッセージを分類します。

*2: mpiexecの出力先変更のオプション指定がない場合のメッセージ出力先を示します。

5.16.3. PJM 0079 ERROR REASON一覧

運用上の資源チェック(GATE CHECK)によるエラーメッセージについて、PJM 0079 ERROR の REASON の一覧を示します。

"[ERR.] PJM 0079 pjsub 任意の文字列."が表示された場合は、以下のREASONを参照ください。

エラーコードQ03~Q08及びS09~S14については、システムの運用で制限を行った場合に表示します。
制限を行った場合には別途富岳ウェブサイト等でお知らせします。

5.16.3.1. ジョブ受付時

ジョブ受付時(GATE CHECKにてエラーとなった場合)に、ジョブの受付が拒否される場合があります。

エラーコード

REASON

エラーの種類

概要

Q01

group is not active (ACC->QUE)

グループ有効チェックエラー

投入グループが期限切れなどにより無効になっています。

Q02

user is not active (ACC->QUE)

ユーザ有効チェックエラー

投入ユーザが期限切れなどにより無効になっています。

Q03

Node is too few (ACC->QUE)

下限値チェックエラー
[ノード数]

ジョブ投入時のノード数(-L node)が許可された値より小さい値が指定されています。

Q04

Elapse limit is too short (ACC->QUE)

下限値チェックエラー
[elapse]

ジョブ投入時の経過時間制限(-L elapse)が許可された値より小さい値が指定されています。

Q05

Use resource is too few (ACC->QUE)

下限値チェックエラー
[ノード時間積]

ジョブ投入時のノード時間積(-L node , -L elapse)が許可された値より小さい値が指定されています。

Q06

Node is too many (ACC->QUE)

上限値チェックエラー
[ノード数]

ジョブ投入時のノード数(-L node)が許可された値を超えています。

Q07

Elapse limit is too long (ACC->QUE)

上限値チェックエラー
[elapse]

ジョブ投入時の経過時間制限値(-L elapse)が許可された値を超えています。

Q08

Use resource is too many (ACC->QUE)

上限値チェックエラー
[ノード時間積]

ジョブ導入時のノード時間積(-L node , -L elapse)が許可された値を超えています。

Q09

Computing resources shortage occurred.[group] (ACC->QUE)

リソース残チェックエラー
(グループへの割当分)

ジョブの予想消費資源量に比べ、グループの残資源が少ない状態です。

Q10

Computing resources shortage occurred.[rsc-grp] (ACC->QUE)

リソース残チェックエラー
(グループ内でのリソースグループへの割当分)

ジョブの予想消費資源量に比べ、グループ内でのリソースグループ分の残資源が少ない状態です。

Q11

Computing resources shortage occurred.[user] (ACC->QUE)

リソース残チェックエラー
(グループ内、リソースグループ内の利用者への割当分)

ジョブの予想消費資源量に比べ、グループ内、リソースグループ内でのユーザ分の残資源が少ない状態です。

5.16.3.2. ジョブ実行時

ジョブ実行時(GATE CHECKにてエラーとなった場合)にジョブの受付が拒否される場合があります。

エラーコード

REASON

エラーの種類

概要

S01

group is not active (QUE->SIN)

グループ有効チェックエラー

投入グループが期限切れなどにより無効になっています。

S02

user is not active (QUE->SIN)

ユーザ有効チェックエラー

投入ユーザが期限切れなどにより無効になっています。

S03

need more resource [group] (QUE->SIN)

リソース残チェックエラー
(グループへの割当分)

ジョブの予想消費資源量に比べ、グループの残資源が少ない状態です。

S04

need more resource [rsc-grp] (QUE->SIN)

リソース残チェックエラー
(グループ内でのリソースグループへの割当分)

ジョブの予想消費資源量に比べ、グループ内でのリソースグループ分の残資源が少ない状態です。

S05

need more resource [user] (QUE->SIN)

リソース残チェックエラー
(グループ内、リソースグループ内の利用者への割当分)

ジョブの予想消費資源量に比べ、グループ内、リソースグループ内でのユーザ分の残資源が少ない状態です。

S06

requeue, remaining resource shortage [group] (QUE->SIN)

リソース残チェックエラー
(グループへの割当分)

ジョブの予想消費資源量に比べ、グループの残資源が少ない状態です。実行中(投入済)のジョブの結果によっては実行可能な場合があります。

S07

requeue, remaining resource shortage [rsc-grp] (QUE->SIN)

リソース残チェックエラー
(グループ内でのリソースグループへの割当分)

ジョブの予想消費資源量に比べ、グループ内でのリソースグループ分の残資源が少ない状態です。実行中(投入済)のジョブの結果によっては実行可能な場合があります。

S08

requeue, remaining resource shortage [user] (QUE->SIN)

リソース残チェックエラー
(グループ内、リソースグループ内の利用者への割当分)

ジョブの予想消費資源量に比べ、グループ内、リソースグループ内でのユーザ分の残資源が少ない状態です。実行中(投入済)のジョブの結果によっては実行可能な場合があります。

S09

requeue, Node is too few (QUE->SIN)

下限値チェックエラー
[ノード数]

投入済ジョブのノード数(-L node)が許可された値より小さい値が指定されています。

S10

requeue, Elapse limit is too short (QUE->SIN)

下限値チェックエラー
[elapse]

投入済ジョブの経過時間制限(-L elapse)が許可された値より小さい値が指定されています。

S11

requeue, Use resource is too few (QUE->SIN)

下限値チェックエラー
[ノード時間積]

投入済ジョブのノード時間積(-L node , -L elapse)が許可された値より小さい値が指定されています。

S12

requeue, Node is too many (QUE->SIN)

上限値チェックエラー
[ノード数]

投入済ジョブのノード数(-L node)が許可された値を超えています。

S13

requeue, Elapse limit is too long (QUE->SIN)

上限値チェックエラー
[elapse]

投入済ジョブの経過時間制限値(-L elapse)が許可された値を超えています。

S14

requeue, Use resource is too many (QUE->SIN)

上限値チェックエラー
[ノード時間積]

投入済ジョブのノード時間積(-L node , -L elapse)が許可された値を超えています。

S15

Computing resources shortage occurred.(QUE->RNA)

リソース残チェックエラー
(グループへの割当分)

ジョブの予想消費資源量に比べ、グループの残資源が少ない状態です。実行中(投入済)のジョブの結果によっては実行可能な場合があります。

5.16.4. CPUクロック変更(パワーキャッピング)

ジョブの消費電力がシステムで設定している閾値を越えた場合、該当ジョブが使用しているノードのCPUクロックを強制的に下げます。

本機能を受けたかどうかの確認は、ジョブ統計情報の「POWER CAPPING DATE」を参照ください。影響を受けた場合は「POWER CAPPING DATE」に閾値を越えた時刻が出力されます。