システム紹介
Englishスーパーコンピュータ「富岳」のシステム構成を紹介します。
総ノード数
総理論性能
「富岳」には通常モード(CPU動作クロック周波数が2ギガヘルツ)とブーストモード(CPU動作クロック周波数が2.2ギガヘルツ)があり、それぞれの理論性能は下記の表のとおりです。
高いメモリバンド幅も「富岳」の特徴のひとつです。
総演算性能 | 通常モード (CPU動作クロック周波数2GHz) |
|
---|---|---|
ブーストモード (CPU動作クロック周波数2.2GHz) |
|
|
総メモリ容量 | 4.85 PiB | |
総メモリバンド幅 | 163 PB/s |
ノード単体性能
ノード単体での性能は以下のとおりです。
Arm命令セットアーキテクチャを採用し、独自のチップを開発しました。
命令セットアーキテクチャ | Armv8.2-A SVE 512bit 富士通拡張:ハードウェアバリア、セクタキャッシュ、プリフェッチ |
|
---|---|---|
計算コア数 | 48 + 2アシスタントコア 4 CMG(Core Memory Group, NUMA nodeのこと) |
|
演算性能 | 通常モード (CPU動作クロック周波数2GHz) |
倍精度:3.072 TF, 単精度:6.144 TF, 半精度:12.288 TF |
ブーストモード (CPU動作クロック周波数2.2GHz) |
倍精度:3.3792 TF, 単精度:6.7584 TF, 半精度:13.5168 TF | |
キャッシュ ※1 ※2 | L1D/core: 64 KiB, 4way, 256 GB/s (load), 128 GB/s (store) | |
L2/CMG: 8 MiB, 16way L2/node: 4 TB/s (load), 2 TB/s (store) L2/core: 128 GB/s (load), 64 GB/s (store) |
||
メモリ | HBM2 32 GiB, 1024 GB/s | |
インターコネクト | Tofu Interconnect D (28 Gbps x 2 lane x 10 port) | |
I/O | PCIe Gen3 x16 | |
テクノロジー | 7nm FinFET |
- 1 キャッシュ性能は2GHz動作時
- 2 詳細は GitHub 参照
Tofu Interconnect D
Tofu ケーブル
CPU同士をつなぐTofuケーブルの本数は約20万本。そのうち約半数がラック間をつなぐ光ケーブルで、光ケーブルの総延長は 約900kmあります。
本数 | 総延長 (m) | |
---|---|---|
光 | 97,632 |
855,101 |
電気 | 119,232 |
38,552 |
合計 | 216,864 |
893,653 |
その他、ストレージ等につながるケーブルは約1万本あります。
ストレージ
ストレージ構成は以下のとおりです。
第一階層
- LLIO(Lightweight Layered IO-Accelerator)
ジョブ実行専用領域
以下の3種類の領域をジョブに提供
・ノード内テンポラリ領域
・共有テンポラリ領域
・第2階層ストレージのキャッシュ領域
第二階層
- FEFS(Fujitsu Exabyte File System)
ユーザー及びジョブが利用する大容量の共有領域
Lustreベースのファイルシステム
第三階層
- 商用クラウドストレージ
I/Oネットワーク
プログラミング環境
「富岳」のプログラミング環境は以下のとおりです。
コンパイラ | Fortran2008 & Fortran2018サブセット |
---|---|
C11 & GNU拡張仕様・Clang拡張仕様 | |
C++14 & C++17サブセット & GNU拡張仕様・Clang拡張仕様 | |
OpenMP 4.5 & OpenMP 5.0サブセット | |
Java | |
並列プログラミング | XcalableMP 資料[英語](535KB) |
FDPS 資料[英語](260KB) | |
スクリプト言語 | Python + Numpy + Scipy, Ruby |
科学技術計算用ライブラリ 資料[英語](361KB) |
BLAS, LAPACK, ScaLAPACK |
SSL II (Fujitsu) | |
EigenExa, Batched BLAS, 2.5D-PDGEMM |
システムソフトウェア
「富岳」のシステムソフトウェアは下記のとおりです。
オープンソース管理ツール | Spack 資料[英語](355KB) |
---|---|
コンテナ・仮想マシン | Singularity, KVM |
OS | Red Hat Enterprise Linux 8 |
McKernel 資料[英語](641KB) | |
MPI | Fujitsu MPI (Based on OpenMPI), MPICH-Tofu (Based on MPICH) 資料[英語](404KB) |
File IO | LLIO |
DTF (Data Transfer Framework) 資料[英語](222KB) |
ターゲットアプリケーション性能
ターゲットアプリケーションの性能評価の結果、最大で「京」の131倍を達成しました。
アプリケーション | 利用形態 | 問題規模 | ノード数/ジョブ | 性能倍率 | 消費電力 |
---|---|---|---|---|---|
GENESIS | 多重 | 92,224原子 | 1 | 131 倍 | 22 MW |
GENOMON | 多重 | リード長150、14億リード(ペアードエンド) | 96 | 23 倍 | 20 MW |
GAMERA | 大規模単一 | 1兆自由度 | 147,456 | 63 倍 | 21 MW |
NICAM+ LETKF | 大規模単一 | 全球3.5kmメッシュ、1024メンバENS同化 | 131,072 | 127 倍 | 22 MW |
NTChem | 多重 | 720原子、19,680原子軌道 | 17,820 | 70 倍 | 26 MW |
ADVENTURE | 多重 | 16.5億自由度 | 4,096 | 63倍 | 28 MW |
RSDFT | 多重 | 110,592原子、221,184バンド | 10,368 | 38 倍 | 30 MW |
FFB | 大規模単一 | 6,748億要素 | 158,976 | 51 倍 | 29 MW |
LQCD | 大規模単一 | 192^4格子 | 147,456 | 38 倍 | 20 MW |