トップページ    「富岳」について    システム紹介

スーパーコンピュータ「富岳」のシステム構成を紹介します。

総ノード数

「富岳」の総ノード数※1は158,976です。

CPU1つに1ノード、CMU(CPU Memory Unit)と呼ばれるボードにCPUが2つ取り付けられて2ノード。CMU8枚でBoB(Bunch of Blades)を構成するので、BoB1つでは16ノード。BoB3つでShelfと呼ばれる塊を作り、Shelf1つでは48ノード。1つの計算機ラックにはShelfが8つ格納されるので、1ラックでは384ノード(一部のラックでは192ノード)。「富岳」全体では432ラック(うち384ノードが396 ラック、192ノードが36ラック)あり、合計で158,976ノードです。

  • 1 ノードとは:
    ノードとは「結び目」や「節」を意味する単語で、スーパーコンピュータ分野では1つの管理単位をノードと呼ぶことが多い。例えば、1つの基本ソフト(OS)が動作しているCPUやメモリの塊を指す。

総理論性能

「富岳」には通常モード(CPU動作クロック周波数が2ギガヘルツ)とブーストモード(CPU動作クロック周波数が2.2ギガヘルツ)があり、それぞれの理論性能は下記の表のとおりです。
高いメモリバンド幅も「富岳」の特徴のひとつです。

総理論性能
総演算性能 通常モード
(CPU動作クロック周波数2GHz)
  • 倍精度理論最高値(64bit)488ペタフロップス
  • 単精度理論最高値(32bit)977ペタフロップス
  • 半精度(AI学習)理論最高値(16bit)1.95エクサフロップス
  • 整数(AI推論)理論最高値(8bit)3.90 エクサオップス
ブーストモード
(CPU動作クロック周波数2.2GHz)
  • 倍精度理論最高値(64bit)537ペタフロップス
  • 単精度理論最高値(32bit)1.07エクサフロップス
  • 半精度(AI学習)理論最高値(16bit)2.15エクサフロップス
  • 整数(AI推論)理論最高値(8bit)4.30 エクサオップス
総メモリ容量 4.85 PiB
総メモリバンド幅 163 PB/s

ノード単体性能

ノード単体での性能は以下のとおりです。
Arm命令セットアーキテクチャを採用し、独自のチップを開発しました。

ノード単体性能
命令セットアーキテクチャ Armv8.2-A SVE 512bit
富士通拡張:ハードウェアバリア、セクタキャッシュ、プリフェッチ
計算コア数 48 + 2アシスタントコア
4 CMG(Core Memory Group, NUMA nodeのこと)
演算性能 通常モード
(CPU動作クロック周波数2GHz)
倍精度:3.072 TF, 単精度:6.144 TF, 半精度:12.288 TF
ブーストモード
(CPU動作クロック周波数2.2GHz)
倍精度:3.3792 TF, 単精度:6.7584 TF, 半精度:13.5168 TF
キャッシュ ※1 ※2 L1D/core: 64 KiB, 4way, 256 GB/s (load), 128 GB/s (store)
L2/CMG: 8 MiB, 16way
L2/node: 4 TB/s (load), 2 TB/s (store)
L2/core: 128 GB/s (load), 64 GB/s (store)
メモリ HBM2 32 GiB, 1024 GB/s
インターコネクト Tofu Interconnect D (28 Gbps x 2 lane x 10 port)
I/O PCIe Gen3 x16
テクノロジー 7nm FinFET

Tofu Interconnect D

計算ノード間ネットワークには、6次元メッシュ/トーラス結合を採用。
RDMA (Remote Direct Memory Access)により、低レイテンシ・高スループットを実現しました。

  • 8B入力時のレイテンシ:0.49 - 0.54 micro-sec
  • 1MiB入力時のスループット:6.35 GB/s
図:TofuDインターコネクトの構成
TofuD インターコネクトの構成
6つのTNI(Tofu Network Interface。個々の性能は6.8 GB/s、6つあわせて40.8 GB/s)がTofuネットワーク・ルーターに接続。
ルーターから1ポート2レーン×10ポート(計20レーン)に分割される。

Tofu ケーブル

CPU同士をつなぐTofuケーブルの本数は約20万本。そのうち約半数がラック間をつなぐ光ケーブルで、光ケーブルの総延長は 約900kmあります。

本数  総延長 (m)

97,632

855,101

電気

119,232

38,552

合計

216,864

893,653

その他、ストレージ等につながるケーブルは約1万本あります。

ストレージ

ストレージ構成は以下のとおりです。

第一階層

第二階層

第三階層

I/Oネットワーク

I/Oネットワーク

プログラミング環境

「富岳」のプログラミング環境は以下のとおりです。

プログラミング環境
コンパイラ Fortran2008 & Fortran2018サブセット
C11 & GNU拡張仕様・Clang拡張仕様
C++14 & C++17サブセット & GNU拡張仕様・Clang拡張仕様
OpenMP 4.5 & OpenMP 5.0サブセット
Java
並列プログラミング XcalableMP 資料[英語](535KB)新しいタブでPDFが開きます
FDPS 資料[英語](260KB)新しいタブでPDFが開きます
スクリプト言語 Python + Numpy + Scipy, Ruby
科学技術計算用ライブラリ
資料[英語](361KB)新しいタブでPDFが開きます
BLAS, LAPACK, ScaLAPACK
SSL II (Fujitsu)
EigenExa, Batched BLAS, 2.5D-PDGEMM

システムソフトウェア

「富岳」のシステムソフトウェアは下記のとおりです。

システムソフトウェア
オープンソース管理ツール Spack 資料[英語](355KB)新しいタブでPDFが開きます
コンテナ・仮想マシン Singularity, KVM
OS Red Hat Enterprise Linux 8
McKernel 資料[英語](641KB)新しいタブでPDFが開きます
MPI Fujitsu MPI (Based on OpenMPI),
MPICH-Tofu (Based on MPICH) 資料[英語](404KB)新しいタブでPDFが開きます
File IO LLIO
DTF (Data Transfer Framework) 資料[英語](222KB)新しいタブでPDFが開きます

ターゲットアプリケーション性能

ターゲットアプリケーションの性能評価の結果、最大で「京」の131倍を達成しました。

ターゲットアプリの性能評価結果
アプリケーション 利用形態 問題規模 ノード数/ジョブ 性能倍率 消費電力
GENESIS 多重 92,224原子 1 131 倍 22 MW
GENOMON 多重 リード長150、14億リード(ペアードエンド) 96 23 倍 20 MW
GAMERA 大規模単一 1兆自由度 147,456 63 倍 21 MW
NICAM+ LETKF 大規模単一 全球3.5kmメッシュ、1024メンバENS同化 131,072 127 倍 22 MW
NTChem 多重 720原子、19,680原子軌道 17,820 70 倍 26 MW
ADVENTURE 多重 16.5億自由度 4,096 63倍 28 MW
RSDFT 多重 110,592原子、221,184バンド 10,368 38 倍 30 MW
FFB 大規模単一 6,748億要素 158,976 51 倍 29 MW
LQCD 大規模単一 192^4格子 147,456 38 倍 20 MW