5.16. ジョブ異常終了時の確認¶
5.16.1. ジョブマネージャの終了コード¶
投入したジョブが異常終了した場合、ジョブマネージャの終了コード(PJM CODE)を参照することで原因を特定することができます。
ジョブマネージャの終了コードは、pjsub実行時に、-s
、または、-S
オプションを指定すると生成される統計情報ファイルの中に記載されています。
ジョブ実行例は以下のとおりです。
[_LNlogin]$ pjsub -s ./sample.sh
ジョブが終了すると、次のファイル名でジョブ統計情報が出力されます。
ファイル名
説明
ジョブ名.ジョブID.stats
ジョブの統計情報が出力されたファイルです。
ジョブマネージャの終了コード(PJM CODE)一覧は以下のとおりです。
PJM CODE
意味
0
ジョブの正常終了
1
ユーザが操作したpjdelコマンドによるCANCEL
2
ジョブの受付判定によるREJECT。pjsubコマンドがエラーになります
3
ジョブマネージャー出口機能による実行拒否。ジョブは実行されていません
4
ユーザが操作したpjholdコマンドによるHOLD
6
ステップジョブ依存関係式によるCANCEL。ジョブは実行されていません
7
デッドライン強制指定によりCANCEL
8
ジョブマネージャー出口機能による CANCEL。ジョブは実行されていません
9
再実行不可指定のため、ジョブ再構築時にEXIT
11
経過時間制限違反によるジョブ実行タイムアウト
12
メモリ使用量超過による強制終了
16
カレントディレクトリまたは標準入力/標準出力/標準エラー出力ファイルへのアクセス不可による終了
18
実行可能時間の最小値を超えて実行していたジョブが、後続ジョブの実行、または、デッドラインスケジュールの開始により終了。前者が原因の場合は、項目REASONが"ANOTHER JOB STARTED"になり、後者の場合は"DEADLINE SCHEDULE STARTED"になります
20
ノードダウン
21
シェルの実行失敗
22
ICCエラー
23
OOM Killer動作による終了
25
HA失敗
26
プロローグ、エピローグ処理のエラー
27
ジョブ資源管理出口処理のエラー
28
ジョブ実行環境の異常
29
指定したジョブ実行環境が不正
30
サスペンドまたはリジューム処理失敗による中断
100
ジョブマネージャの内部エラー
120
ジョブスケジューラの内部エラー
140
ジョブ資源管理の内部エラー
160
Tofuライブラリの内部エラー。ジョブは実行されていません
180
階層化ストレージの内部エラー
5.16.2. ジョブ実行時に出力されるメッセージ¶
ジョブ実行時にエラーメッセージが出力される場合があります。出力されるメッセージは、並列実行環境(PLE)、ジョブ管理(PJM)、MPI、言語処理系(Fortran/C/C++)等が出しており、メッセージごとに、説明を記載したマニュアルを用意しています。
以下の表に、メッセージとメッセージの説明が記載されている参照マニュアルの関連を示します。
エラーメッセージ *1
ジョブ出力ファイル *2
mpiexec 出力先変更
参照マニュアル
PLE nnnn plexec
ジョブ名.ジョブID.err
変更不可
ジョブ運用ソフトウェア
- コマンドリファレンス
- エンドユーザ向けガイド
PJM nnnn xxxxxx
ジョブ名.ジョブID.err
変更不可
ジョブ運用ソフトウェア
- コマンドリファレンス
- エンドユーザ向けガイド
mpi::
ジョブ名.ジョブID.err
変更可
MPI使用手引書
jwennnn
ジョブ名.ジョブID.err
変更可
Fortran/C/C++実行時メッセージ
注釈
*1: メッセージ中に含まれる文字列を示します。この文字列でメッセージを分類します。
*2: mpiexecの出力先変更のオプション指定がない場合のメッセージ出力先を示します。
5.16.3. PJM 0079 ERROR REASON一覧¶
運用上の資源チェック(GATE CHECK)によるエラーメッセージについて、PJM 0079 ERROR の REASON の一覧を示します。
"[ERR.] PJM 0079 pjsub 任意の文字列."が表示された場合は、以下のREASONを参照ください。
5.16.3.1. ジョブ受付時¶
ジョブ受付時(GATE CHECKにてエラーとなった場合)に、ジョブの受付が拒否される場合があります。
エラーコード |
REASON |
エラーの種類 |
概要 |
---|---|---|---|
Q01 |
group is not active (ACC->QUE) |
グループ有効チェックエラー |
投入グループが期限切れなどにより無効になっています。 |
Q02 |
user is not active (ACC->QUE) |
ユーザ有効チェックエラー |
投入ユーザが期限切れなどにより無効になっています。 |
Q03 |
Node is too few (ACC->QUE) |
下限値チェックエラー
[ノード数]
|
ジョブ投入時のノード数(-L node)が許可された値より小さい値が指定されています。 |
Q04 |
Elapse limit is too short (ACC->QUE) |
下限値チェックエラー
[elapse]
|
ジョブ投入時の経過時間制限(-L elapse)が許可された値より小さい値が指定されています。 |
Q05 |
Use resource is too few (ACC->QUE) |
下限値チェックエラー
[ノード時間積]
|
ジョブ投入時のノード時間積(-L node , -L elapse)が許可された値より小さい値が指定されています。 |
Q06 |
Node is too many (ACC->QUE) |
上限値チェックエラー
[ノード数]
|
ジョブ投入時のノード数(-L node)が許可された値を超えています。 |
Q07 |
Elapse limit is too long (ACC->QUE) |
上限値チェックエラー
[elapse]
|
ジョブ投入時の経過時間制限値(-L elapse)が許可された値を超えています。 |
Q08 |
Use resource is too many (ACC->QUE) |
上限値チェックエラー
[ノード時間積]
|
ジョブ導入時のノード時間積(-L node , -L elapse)が許可された値を超えています。 |
Q09 |
Computing resources shortage occurred.[group] (ACC->QUE) |
リソース残チェックエラー
(グループへの割当分)
|
ジョブの予想消費資源量に比べ、グループの残資源が少ない状態です。 |
Q10 |
Computing resources shortage occurred.[rsc-grp] (ACC->QUE) |
リソース残チェックエラー
(グループ内でのリソースグループへの割当分)
|
ジョブの予想消費資源量に比べ、グループ内でのリソースグループ分の残資源が少ない状態です。 |
Q11 |
Computing resources shortage occurred.[user] (ACC->QUE) |
リソース残チェックエラー
(グループ内、リソースグループ内の利用者への割当分)
|
ジョブの予想消費資源量に比べ、グループ内、リソースグループ内でのユーザ分の残資源が少ない状態です。 |
5.16.3.2. ジョブ実行時¶
ジョブ実行時(GATE CHECKにてエラーとなった場合)にジョブの受付が拒否される場合があります。
エラーコード |
REASON |
エラーの種類 |
概要 |
---|---|---|---|
S01 |
group is not active (QUE->SIN) |
グループ有効チェックエラー |
投入グループが期限切れなどにより無効になっています。 |
S02 |
user is not active (QUE->SIN) |
ユーザ有効チェックエラー |
投入ユーザが期限切れなどにより無効になっています。 |
S03 |
need more resource [group] (QUE->SIN) |
リソース残チェックエラー
(グループへの割当分)
|
ジョブの予想消費資源量に比べ、グループの残資源が少ない状態です。 |
S04 |
need more resource [rsc-grp] (QUE->SIN) |
リソース残チェックエラー
(グループ内でのリソースグループへの割当分)
|
ジョブの予想消費資源量に比べ、グループ内でのリソースグループ分の残資源が少ない状態です。 |
S05 |
need more resource [user] (QUE->SIN) |
リソース残チェックエラー
(グループ内、リソースグループ内の利用者への割当分)
|
ジョブの予想消費資源量に比べ、グループ内、リソースグループ内でのユーザ分の残資源が少ない状態です。 |
S06 |
requeue, remaining resource shortage [group] (QUE->SIN) |
リソース残チェックエラー
(グループへの割当分)
|
ジョブの予想消費資源量に比べ、グループの残資源が少ない状態です。実行中(投入済)のジョブの結果によっては実行可能な場合があります。 |
S07 |
requeue, remaining resource shortage [rsc-grp] (QUE->SIN) |
リソース残チェックエラー
(グループ内でのリソースグループへの割当分)
|
ジョブの予想消費資源量に比べ、グループ内でのリソースグループ分の残資源が少ない状態です。実行中(投入済)のジョブの結果によっては実行可能な場合があります。 |
S08 |
requeue, remaining resource shortage [user] (QUE->SIN) |
リソース残チェックエラー
(グループ内、リソースグループ内の利用者への割当分)
|
ジョブの予想消費資源量に比べ、グループ内、リソースグループ内でのユーザ分の残資源が少ない状態です。実行中(投入済)のジョブの結果によっては実行可能な場合があります。 |
S09 |
requeue, Node is too few (QUE->SIN) |
下限値チェックエラー
[ノード数]
|
投入済ジョブのノード数(-L node)が許可された値より小さい値が指定されています。 |
S10 |
requeue, Elapse limit is too short (QUE->SIN) |
下限値チェックエラー
[elapse]
|
投入済ジョブの経過時間制限(-L elapse)が許可された値より小さい値が指定されています。 |
S11 |
requeue, Use resource is too few (QUE->SIN) |
下限値チェックエラー
[ノード時間積]
|
投入済ジョブのノード時間積(-L node , -L elapse)が許可された値より小さい値が指定されています。 |
S12 |
requeue, Node is too many (QUE->SIN) |
上限値チェックエラー
[ノード数]
|
投入済ジョブのノード数(-L node)が許可された値を超えています。 |
S13 |
requeue, Elapse limit is too long (QUE->SIN) |
上限値チェックエラー
[elapse]
|
投入済ジョブの経過時間制限値(-L elapse)が許可された値を超えています。 |
S14 |
requeue, Use resource is too many (QUE->SIN) |
上限値チェックエラー
[ノード時間積]
|
投入済ジョブのノード時間積(-L node , -L elapse)が許可された値を超えています。 |
S15 |
Computing resources shortage occurred.(QUE->RNA) |
リソース残チェックエラー
(グループへの割当分)
|
ジョブの予想消費資源量に比べ、グループの残資源が少ない状態です。実行中(投入済)のジョブの結果によっては実行可能な場合があります。 |
5.16.4. CPUクロック変更(パワーキャッピング)¶
ジョブの消費電力がシステムで設定している閾値を越えた場合、該当ジョブが使用しているノードのCPUクロックを強制的に下げます。
本機能を受けたかどうかの確認は、ジョブ統計情報の「POWER CAPPING DATE」を参照ください。影響を受けた場合は「POWER CAPPING DATE」に閾値を越えた時刻が出力されます。