富岳におけるGENESIS spdyn動作について

Viewing 6 reply threads
  • Author
    Posts
    • #15209

      ishida-hisashi
      Participant

      量研機構の石田です。
      現在、富岳でGENESISを流しているのですが、ときどきspdynが落ちるようです。
      エラーがないときもあるのですが(よくわかりません。)
      jwe0019i-u the program was terminated abnormally with signal number SIGBUS.
      signal identifier = BUS_ADRERR, non-existent physical address
      なるエラーが出ていることもあります。
      対処の方法がありましたら、教えてください。よろしくお願いいたします。

    • #15210

      ckobayashi
      Moderator

      GENESIS 開発チーム、小林です。

      他の要因もあるかと思いますが、一番に考えるべきはメモリ不足ではないかと思います。

      ジョブスクリプトに”#PJM -S”をつけて実行すると、スクリプト名.$(jobid).statsというスタッツファイルが作成されます。このファイルは、非常に有用なものです。
      メモリ不足で落ちた場合には、”REASON :”の行に”LIMIT OVER MEMORY”と記載されています。また、”MAX MEMORY SIZE (USE)”行に実際に使われたメモリの量が記載されています。

      メモリ不足の場合は、ノード数を増やすのが現実的な対処法かと思います。もし、メモリ量が十分に少なく、REASONの行に”-“が記されている場合は、またご連絡いただきますようお願いいたします。

    • #15212

      ishida-hisashi
      Participant

      エラーを起こした実行でのstatsファイルでは
      REASONには何も書いてありませんでした。
      MAX MEMORY SIZE (USE) : 4678.8 MiB (4903927808)
      でした。
      同じようなMD計算で正常終了したものでは、
      MAX MEMORY SIZE (USE) : 3463.9 MiB (3632136192)
      でした。ご指摘のようにメモリ不足の問題がありそうです。

    • #15213

      ckobayashi
      Moderator

      小林です。

      ご回答ありがとうございます。

      富岳のメモリはもっと大きいので、「その他の原因」かと思います。

      いただいた情報では判断が難しいです。

      確認点としては、

      MD中途で落ちているようでしたら、エネルギーや温度などが以上に上昇(下降)していたりしていないでしょうか?

      再度同じ計算を行った場合にも同様の問題がおきますでしょうか?

    • #15215

      ishida-hisashi
      Participant

      MDの途中で落ちました。INFO:を見ても、エネルギーや温度など、問題はないように見えます。

      エラーの再現性については、良い例(少ないステップでエラーが出る)があれば、再度ご相談させていただきたいと思います。

    • #15223

      ckobayashi
      Moderator

      ご連絡ありがとうございます。

      100ステップ以内にエラーが生じるような例をご提示いただけると、いろいろ検証ができるのではないかと思います。またよろしくお願いいたします。

    • #15259

      ishida-hisashi
      Participant

      100ステップではないのですが、エラーは再現されました。

      1回目は、3,519,500 stepでジョブ終了、ジョブ番号.errには
      [WARN] PLE 0610 plexec The process terminated with the signal.(rank=100)(nid=0x2a49000e)(sig=9)

      total num: 0+
      total size: 0+
      error:
      <detail}

      2回目は、3,512,500 stepでジョブ終了、ジョブ番号.errには
      [WARN] PLE 0610 plexec The process terminated with the signal.(rank=58)(nid=0x284d0004)(sig=9)

      total num: 0+
      total size: 0+
      error:
      <detail}

      となりました。一応ご報告まで。

Viewing 6 reply threads

You must be logged in to reply to this topic.