5.19. 障害の影響を受けたジョブ一覧表示コマンド¶
5.19.1. job_events¶
job_events コマンドにて、以下を確認できます
LLIO(第2階層ストレージキャッシュ)とFEFS(第2階層ストレージ)にてevictの影響を受けたジョブ
パワーキャッピングが発生したジョブ
OOM(Out of memory)が発生したジョブ
ハード故障の影響を受けたジョブ
LLIO利用制限超過が発生したジョブ
その他、システム障害の影響を受けたジョブ
- evict
Lustre系ファイルシステムがもつ機能で、異常と判断したクライアントを切り離す処理です。
ファイルシステムを利用可能な状態に保つために行われます。
- パワーキャッピング
制限電力を超えた場合にCPU周波数をNormalモードより低く抑え、消費電力を削減します。
詳細は使用例を参照ください。
- OOM(Out of memory)
ジョブ実行時に計算ノードでメモリ不足が発生した場合です。この場合、ジョブが異常終了します。
- ハード故障
ハード故障です。
- LLIO利用制限超過
LLIO利用制限を超過した場合です。
[名前]
job_events
[書式]
job_events [-g GROUP_NAME] [-c] [-h]
job_events [-g GROUP_NAME] --llio [-j JOBID]
[オプション]
オプション名 |
機能 |
---|---|
-g GROUP_NAME |
-g オプションで指定したグループのジョブが表示対象となります。ただし参照権限がない場合ジョブは表示されません。-g オプションはグループ名の指定が必須です。-g オプションがない場合は、実行者が所属する全グループのジョブが表示対象となります。 |
-c |
検索結果をCSV形式で出力します。
|
--llio |
LLIO利用制限超過が発生したファイルパスを表示します。
|
-j JOBID |
表示対象が[JOBID]に指定したジョブとなります。※
--llio オプション指定時のみ使用可能 |
-h |
ヘルプを表示します。 |
[表示例]
例1. 自身が所属する全てのグループを対象に、障害の影響を受けたジョブを確認する場合(デフォルト)
[_LNlogin]$ job_events JOBID RETRY MD USER GROUP ST JOB_START JOB_END MESSAGES 1111111 0 NM user01 group01 EXT 2024/04/12 13:21:50 2024/04/12 14:24:46 Filesystem I/O error 2222222[2] 0 BU user02 group01 EXT 2024/05/17 14:47:49 2024/05/17 14:57:51 POWER CAPPING:2024/05/17 14:50:00 2222222[3] 0 BU user02 group01 EXT 2024/05/17 14:47:49 2024/05/17 14:57:51 POWER CAPPING:2024/05/17 14:50:00,Filesystem I/O error 3333333 0 NM user03 group01 EXT 2024/06/11 14:49:04 2024/06/11 14:53:11 CN high load 4444444 0 NM user01 group02 EXT 2024/07/10 13:53:56 2024/07/10 13:54:18 Out Of Memory 5555555 0 NM user02 group02 EXT 2024/08/02 18:21:36 2024/08/02 18:37:56 POWER CAPPING:2024/08/02 18:30:00,Filesystem I/O error,Out Of Memory 5555555 1 NM user02 group02 EXT 2024/08/02 18:50:33 2024/08/02 19:42:12 Hardware error 6666666 0 NM user04 group01 EXT 2024/09/13 10:41:36 2024/09/13 14:25:02 Out Of Memory,CN high load 7777777 0 NM user05 group02 EXT 2024/10/04 12:11:14 2024/10/04 13:05:01 Job scheduler hang 8888888 0 NM user01 group03 EXT 2024/10/18 20:07:15 2024/10/18 21:21:44 LLIO Limit Over各状況に応じ、メッセージが表示されます。
evictの場合は "Filesystem I/O error" が表示されます。
パワーキャッピングの場合は "POWER CAPPING:発生日時" が表示されます。
OOMの場合は "Out Of Memory" が表示されます。
ハード故障の場合は "Hardware error" が表示されます。
LLIO利用制限超過が発生した場合は "LLIO Limit Over" と表示され、job_events --llioコマンドで超過したファイルパスを確認できます。
上記以外の障害の影響を受けた場合は、その障害に応じたメッセージが表示されます。
影響を受けたジョブが存在しなかった場合は、"There are no affected jobs." が表示されます。
例2. 自身が所属するグループ(group01)を対象に、障害の影響を受けたジョブを確認する場合
[_LNlogin]$ job_events -g group01 JOBID RETRY MD USER GROUP ST JOB_START JOB_END MESSAGES 1111111 0 NM user01 group01 EXT 2024/04/12 13:21:50 2024/04/12 14:24:46 Filesystem I/O error 2222222[2] 0 BU user02 group01 EXT 2024/05/17 14:47:49 2024/05/17 14:57:51 POWER CAPPING:2024/05/17 14:50:00 2222222[3] 0 BU user02 group01 EXT 2024/05/17 14:47:49 2024/05/17 14:57:51 POWER CAPPING:2024/05/17 14:50:00,Filesystem I/O error 3333333 0 NM user03 group01 EXT 2024/06/11 14:49:04 2024/06/11 14:53:11 CN high load 6666666 0 NM user04 group01 EXT 2024/09/13 10:41:36 2024/09/13 14:25:02 Out Of Memory,CN high load
例3. 障害の影響を受けたジョブの情報を、CSV形式で表示する場合
[_LNlogin]$ job_events -c JOBID,RETRY,MD,USER,GROUP,ST,JOB_START,JOB_END,MESSAGES 1111111,0,NM,user01,group01,EXT,2024/04/12 13:21:50,2024/04/12 14:24:46,"Filesystem I/O error" 2222222[2],0,BU,user02,group01,EXT,2024/05/17 14:47:49,2024/05/17 14:57:51,"POWER CAPPING:2024/05/17 14:50:00" 2222222[3],0,BU,user02,group01,EXT,2024/05/17 14:47:49,2024/05/17 14:57:51,"POWER CAPPING:2024/05/17 14:50:00,Filesystem I/O error" 3333333,0,NM,user03,group01,EXT,2024/06/11 14:49:04,2024/06/11 14:53:11,"CN high load" 4444444,0,NM,user01,group02,EXT,2024/07/10 13:53:56,2024/07/10 13:54:18,"Out Of Memory" 5555555,0,NM,user02,group02,EXT,2024/08/02 18:21:36,2024/08/02 18:37:56,"POWER CAPPING:2024/08/02 18:30:00,Filesystem I/O error,Out Of Memory" 5555555,1,NM,user02,group02,EXT,2024/08/02 18:50:33,2024/08/02 19:42:12,"Hardware error" 6666666,0,NM,user04,group01,EXT,2024/09/13 10:41:36,2024/09/13 14:25:02,"Out Of Memory,CN high load" 7777777,0,NM,user05,group02,EXT,2024/10/04 12:11:14,2024/10/04 13:05:01,"Job scheduler hang" 8888888,0,NM,user01,group03,EXT,2024/10/18 20:07:15,2024/10/18 21:21:44,"LLIO Limit Over"
例4. LLIO利用制限超過が発生したファイルパスを確認する場合
[_LNlogin]$ job_events --llio JOBID FILEPATH 123456789_1 /vol000?/groupA/data/AAAA/BBBB/CCCC/fileA 123456789_1 /vol000?/groupA/data/AAAA/BBBB/CCCC/fileB 123456789_2 /vol000?/groupA/data/AAAA/BBBB/CCCC/fileC 123456800 /vol000?/groupB/data/DDDD/EEEE/FFFF/fileG 123456801[1] /vol000?/groupC/data/HHHH/IIII/JJJJ/fileK 123456802 The path could not be found.
LLIO利用制限超過が発生したファイルパスを表示します。
一部のジョブではファイルパスが確認できない場合があり、その場合は "The path could not be found." と表示されます。
影響を受けたジョブが存在しなかった場合は "No jobs exceed the LLIO limit." が表示されます。
注意
evictの影響を受けた場合は、ジョブを再投入してください。
本コマンドは pjstata コマンドの実行結果を利用しています。ジョブを大量に実行していると、出力まで時間を要する場合があります。
パワーキャッピングは、.statsファイル や pjstat -sオプション でも発生有無を確認できます。
LLIO利用制限超過が発生した場合は、留意事項を参照の上、対処をお願いします。
注意
障害が発生してからjob_events コマンドでその情報が反映されるまでにはタイムラグがあり、各機能によって異なります。
以下に各機能のタイムラグを示します。
機能
タイムラグ
evictの影響を受けたジョブ
2時間パワーキャッピングが発生したジョブ
1日OOM(Out of memory)が発生したジョブ
2時間ハード故障の影響を受けたジョブ
1時間LLIO利用制限超過が発生したジョブ
20分
5.19.2. show_evict_node¶
ログインノード、およびプリポスト環境で、ファイルシステムにてIOエラーが発生した可能性のある時間を表示するshow_evict_node コマンドについて説明します。
[名前]
show_evict_node
[書式]
show_evict_node [--hostname HOSTNAME]
[--start yyyy/mm/dd hh:mm:ss]
[--end yyyy/mm/dd hh:mm:ss]
[オプション]
オプション名 |
機能 |
---|---|
--hostname HOSTNAME |
表示対象とするノードを、 HOSTNAME で指定します。
|
--start yyyy/mm/dd hh:mm:ss |
表示対象とする開始日時を、"yyyy/mm/dd hh:mm:ss"形式で指定します。
|
--end yyyy/mm/dd hh:mm:ss |
表示対象とする終了日時を、"yyyy/mm/dd hh:mm:ss"形式で指定します。
|
[表示例]
[_LNlogin]$ show_evict_node NODE FSNAME DATE ppm02 vol0006 2021/10/14 19:22:04 - 2021/10/14 19:26:14 csgw1 vol0004 2021/10/14 03:00:06 - 2021/10/14 03:01:42 ppm02 vol0003 2021/10/16 16:08:16 - 2021/10/16 16:10:14 login6 vol0004 2021/10/25 12:35:28 login3 vol0005 2021/11/07 13:37:53 - 2021/11/07 13:38:06 login3 vol0001 2021/11/07 14:08:28 - 2021/11/07 14:09:05