-
AuthorPosts
-
-
ishida-hisashiParticipant量研機構の石田です。
現在、富岳でGENESISを流しているのですが、ときどきspdynが落ちるようです。
エラーがないときもあるのですが(よくわかりません。)
jwe0019i-u the program was terminated abnormally with signal number SIGBUS.
signal identifier = BUS_ADRERR, non-existent physical address
なるエラーが出ていることもあります。
対処の方法がありましたら、教えてください。よろしくお願いいたします。 -
ckobayashiModeratorGENESIS 開発チーム、小林です。
他の要因もあるかと思いますが、一番に考えるべきはメモリ不足ではないかと思います。
ジョブスクリプトに”#PJM -S”をつけて実行すると、スクリプト名.$(jobid).statsというスタッツファイルが作成されます。このファイルは、非常に有用なものです。
メモリ不足で落ちた場合には、”REASON :”の行に”LIMIT OVER MEMORY”と記載されています。また、”MAX MEMORY SIZE (USE)”行に実際に使われたメモリの量が記載されています。メモリ不足の場合は、ノード数を増やすのが現実的な対処法かと思います。もし、メモリ量が十分に少なく、REASONの行に”-“が記されている場合は、またご連絡いただきますようお願いいたします。
-
ishida-hisashiParticipantエラーを起こした実行でのstatsファイルでは
REASONには何も書いてありませんでした。
MAX MEMORY SIZE (USE) : 4678.8 MiB (4903927808)
でした。
同じようなMD計算で正常終了したものでは、
MAX MEMORY SIZE (USE) : 3463.9 MiB (3632136192)
でした。ご指摘のようにメモリ不足の問題がありそうです。 -
ckobayashiModerator小林です。
ご回答ありがとうございます。
富岳のメモリはもっと大きいので、「その他の原因」かと思います。
いただいた情報では判断が難しいです。
確認点としては、
MD中途で落ちているようでしたら、エネルギーや温度などが以上に上昇(下降)していたりしていないでしょうか?
再度同じ計算を行った場合にも同様の問題がおきますでしょうか?
-
ishida-hisashiParticipantMDの途中で落ちました。INFO:を見ても、エネルギーや温度など、問題はないように見えます。
エラーの再現性については、良い例(少ないステップでエラーが出る)があれば、再度ご相談させていただきたいと思います。
-
ckobayashiModeratorご連絡ありがとうございます。
100ステップ以内にエラーが生じるような例をご提示いただけると、いろいろ検証ができるのではないかと思います。またよろしくお願いいたします。
-
ishida-hisashiParticipant100ステップではないのですが、エラーは再現されました。
1回目は、3,519,500 stepでジョブ終了、ジョブ番号.errには
[WARN] PLE 0610 plexec The process terminated with the signal.(rank=100)(nid=0x2a49000e)(sig=9)total num: 0+
total size: 0+
error:
<detail}2回目は、3,512,500 stepでジョブ終了、ジョブ番号.errには
[WARN] PLE 0610 plexec The process terminated with the signal.(rank=58)(nid=0x284d0004)(sig=9)total num: 0+
total size: 0+
error:
<detail}となりました。一応ご報告まで。
-
You must be logged in to reply to this topic.