single GPU での計算

Viewing 2 reply threads
  • Author
    Posts
    • #14088

      masa-sugi
      Participant

      お世話になっております。東京工業大学の杉田です。

      single GPUかつ少ないCPUにて計算を行う際の注意点等に関して質問させて頂ければ幸いです。

      現在TSUBAME3.0にて約3万原子の系にて全原子MDの計算を試みているのですが、

      思った以上に計算速度が遅く何が原因なのか探っております。

      (1GPU, 4core, integrator = VRES, elec_long_period = 2でも13.7ns/day程度)

      こちらに関して2点質問させて頂ければ幸いです。

      1)

      sp_energy_pme.fppの中でコメントアウトされている

      gpu_pme_recip_build_qdf等の関数は、コメントアウトを外すことで使用可能なものでしょうか?

      あるいはメンテナンスされていないものでしょうか?

      2)

      コンパイル時や計算実行の際に気をつけるべきことをご教示頂ければ幸いです。

      (現状の計算のアウトプットファイル中の情報を一部抜き出してみました。)

      GENESIS_Information> GENESIS Information

      version      = 1.4.0

      commit ID    = 1.4.0 [2019-10-25 12:09:46 +0900]

      precision    = single

      nonbonding   = GPU

      Build_Information> Compiler Information

      fortran      = ifort (IFORT) 19.0.0.117 20180804

      option       = -xHost -O3 -ip -mkl=parallel  -assume byterecl -qopenmp

      C            = icc (ICC) 19.0.0.117 20180804

      option       = -O3 -ip -axCORE-AVX2  -qopenmp

      defined var. =

      -D_SINGLE -DMPI -DOMP -DFFTE -DLAPACK -DUSE_GPU -DCUDAGPU -DDSFMT_MEXP=19937 –

      DINTEL

      link option  =

      -assume byterecl -qopenmp  -lmkl_intel_lp64 -lmkl_sequential -lmkl_core -lmkl_

      lapack95_lp64 -L/apps/t3/sles12sp2/cuda/10.0.130/lib64 -lcudart -lstdc++

      CUDA         = Cuda compilation tools, release 10.0, V10.0.130

      Runtime_Information> Machine and Library Information

      date       = 2020/02/26 17:16:12

      cpu model    = Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40GHz

      # of GPUs    =    1

      gpu model    = Tesla P100-SXM2-16GB (CC 1024.64)

      gpu ECC      =  T

      Setup_Mpi_Md> Summary of Setup MPI

      number of MPI processes   =          4

      number of OpenMP threads  =          1

      total number of CPU cores =          4

      Setup_Boundary_Cell> Set Variables for Boundary Condition

      domains (x,y,z) =          2         2         1

      ncells (x,y,z)  =          6         6        15

    • #14107

      ckobayashi
      Moderator

      GENESIS 開発チームです。

      GENESISはMDのステップ内でCPUとGPUを同時に利用するアルゴリズム上、どうしてもCPUコアが少ない場合速度に制限がでてしまいます。

      1)に関しては、テスト用のコードでして全くメンテナンスされていませんので、利用しないでください。

      2) コンパイルの仕方自体は正しいように見えます。ただ、CPUがIntel(R) Xeon(R) CPU E5-2680 v4 @ 2.40GHzですので、CPU物理コア自体は14あると思います。CPUをもう少し利用する事を考えられた方が良いかと思います。(queueの制限でしょうか?)

    • #14110

      masa-sugi
      Participant

      お世話になっております。杉田です。

      ご返答いただきましてありがとうございます。

      TSUBAMEですと1ノード4GPU/2CPU(28core)なのであまり相性がよくないようです。

      (CPUのみの使用は割高になります。)

      本件承知致しました。

Viewing 2 reply threads

You must be logged in to reply to this topic.