『問題解決型』ハードウェアメーカー
ファナティック
-
- ファナティックの特長 ファナティックの特長
- /
- 製品&ソリューション 製品&ソリューション
- /
- 導入事例 導入事例
- /
- 最新ニュース 最新ニュース
- /
- ファナティックレポート ファナティックレポート
- /
- サポート サポート
- /
- 会社案内 会社案内
- /
- 採用情報 採用情報
2019.07.26 ベンチマークレポート
Intel® の最新CPUの第2世代 Intel® Xeon® Scalable Processor(開発コード名:Cascade Lake-SP)である Xeon® Platinum 8276をSPEC® CPU2017(以下、「SPEC2017」という。) を使用してベンチマークを行いました。
同ランクの前世代CPUであるSkylake-SP(Platinum 8180)と比較しました。
前世代のSkylake-SPの複数のCPUで実施したベンチマーク結果については下記のファナティックレポートをご覧ください。
【ベンチマーク | 性能比較】Skylake-SPのベンチマークを行いました
【ベンチマーク | 性能比較】Skylake-SP CPUをSPEC® CPU2017でベンチマーク
Intel® の最新CPUのCascade Lake-SPで新たに追加された主な特徴を紹介いたします。
Optane™ DC Persistent Memoryは、3D Xpointというメモリ技術を採用した、従来のNANDに比べ、低レイテンシ、高耐久の不揮発性メモリーモジュール型SSDです。大容量データの繰り返し書き込み処理で高いパフォーマンスを発揮すると発表されました。Intel DL Boostは、VNNIと呼ばれるAVX512の拡張命令が追加され、ディープラーニングの推論性能が11倍(2017年6月のXeon-SPと比較)になると発表されました。
今回は上記の新たに追加された特徴の評価ではなく、CPUのプロセッサ性能について世代間で評価しました。
●ベンチマークに使用したCPUのスペック
世代 | クロック [GHz] |
TB時 [GHz] |
コア数 | スレッド数 | TDP [W] |
最大メモリ動作周波数 [MHz] |
AVX512 FMAユニット数 | |
Platinum 8276 | Cascade Lake | 2.2 | 4.0 | 28 | 56 | 165 | 2933 | 2 |
Platinum 8180 | Skylake | 2.5 | 3.8 | 28 | 56 | 205 | 2666 | 2 |
※今回のSkylake-SP構成ではメモリは2133 MHzで評価を行っています。
●構成
Cascade Lake-SPとSkylake-SPの評価構成は下記としました。構成が異なる仕様は★を付けています。
仕様 | |
マザーボード | Supermicro X11 DPG-QT (BIOS ver.3.0c) |
CPU | Xeon Platinum 8276 ×2 ★ |
メモリ | DDR4-2933 32GB×12(384 GB) ★ |
SSD | Intel D3-S4510 Series 480GB 2.5inch SATA3 TLC ★ |
OS | SUSE Linux Enterprise Server 12 SP3 |
Intelコンパイラ | Parallel studio XE 2018 for Linux(ver.18.0.2.199) |
ベンチマークソフト | SPEC CPU2017 |
仕様 | |
マザーボード | Supermicro X11 DPG-QT (BIOS ver.2.1) |
CPU | Xeon Platinum 8180 ×2 ★ |
メモリ | DDR4-2133 16GB×12(192 GB) ★ |
SSD | Intel 530 Series 240GB 2.5inch SATA3 MLC ★ |
OS | SUSE Linux Enterprise Server 12 SP3 |
Intelコンパイラ | Parallel studio XE 2018 for Linux(ver.18.0.2.199) |
ベンチマークソフト | SPEC CPU2017 |
※コンパイラバージョンは統一し、測定しました。
※メモリアクセス性能向上が可能なメモリアロケータ「jemalloc」は使用しておりません。
SPEC2017の4種類のベンチマークをBaseオプションでコンパイルしました。
Speed指標はHyper threadを無効に、Rate指標はHyper threadを有効にして実行しました。そのため、本測定のSpeedにおける最大実行スレッド数はコア数×CPU数、Rateにおける最大コピー数はコア数×2×CPU数となります。下記の表になります。
※メモリ1枚当たりの容量が異なりますが、intspeed、fpspeedをPlatinum 8276の2CPU構成で、同じメモリチャネル数(6チャネル)、メモリ動作周波数(2933 MHz)の条件下で、メモリ1枚当たりの容量を16 GB、32 GBに変更し検証した結果、性能差はほとんどないことを確認しております。
メモリ周波数 | メモリ容量 | Speed | Rate | |
Platinum 8180×1 | 2133MHz | 96GB | 28 | 56 |
Platinum 8180×2 | 192GB | 56 | 112 | |
Platinum 8276×1 | 2933 MHz | 192GB | 28 | 56 |
Platinum 8276×2 | 384GB | 56 | 112 |
SPEC2017に関する詳しい説明は【ベンチマーク|性能比較】Skylake-SP CPUをSPEC CPU2017でベンチマーク をご覧ください。
最新CPUのCascade Lake-SPであるPlatinum 8276と、前世代CPUのSkylake-SPであるPlatinum 8180とで4種類のベンチマークにおいて比較した結果を示します。
スコア値が高いほど、高い性能であることを示しています。
Cascade Lake-SPであるPlatinum 8276と前世代CPUのPlatinum 8180を比べると、1CPU構成、2CPU構成共に性能の向上を確認できました。各々の構成の性能比率を下記に示します。
比率(対Platinum8180) | ||||
intspeed | intrate | fpspeed | fprate | |
Platinum 8276×1 | 1.04 | 1.1 | 1.1 | 1.2 |
Platinum 8276×2 | 1.03 | 1.01 | 1.1 | 1.1 |
fpspeed、fprateの浮動小数点演算は1.1倍性能が向上しました。intspeed、intrateの整数演算は多少性能向上したものの、浮動小数点演算ほどではありませんでした。これは、整数演算が浮動小数点演算に比べ、データ量が少なく、メモリ帯域の効果が小さいためであると考えられます。
この結果から、Cascade Lake-SPはメモリ動作周波数が2933 MHzに対応したことにより、特にデータ量の多い浮動小数点演算の性能向上つながったものと考えられます。
次に、fpspeedを用いて、実行スレッド毎の性能をCascade Lake-SPとSkylake-SPで比較しました。
実行スレッド数1において、Platinum 8180→Platinum 8276になることで1.07倍の性能向上、その他の実行スレッド数においても、下記に示したように1.1~1.2倍の性能向上が確認できました。fpspeedでは全ての実行スレッド数でメモリ帯域拡大の効果が確認できました。
実行スレッド数 | 比率(対Platinum8180) |
1 | 1.07 |
4 | 1.1 |
7 | 1.1 |
12 | 1.2 |
14 | 1.2 |
21 | 1.1 |
28 | 1.1 |
次に、各CPUの実行スレッド数1のスコア値を1としたときの各実行スレッド数の性能倍数を示します。Platinum 8276は9.4を1、Platinum 8180は8.8を1として算出しました。
Platinum 8276とPlatinum 8180を比較すると、実行スレッド数1→28で、各々8.9倍、8.3倍の性能でした。実行スレッド数12以上では、Platinum 8276、Platinum 8180共に性能はあまり変化しませんでした。これは、OpenMPの並列化により、アプリケーションプログラムのオーバーヘッドが性能に影響を与えていると考えられます。Cascade Lake-SPになったことにより、性能倍数がSkylake-SPに比べ、改善していました。これは、メモリ帯域が拡張するなどにより、オーバーヘッドの影響が低くなったと考えられます。また、実行スレッド数あたりの性能も向上したことが確認できました。
アプリケーションプログラム別の比較を次で説明します。
4種類のベンチマークのアプリケーションプログラム別にCascade Lake-SP(Platinum 8276)とSkylake-SP(Platinum 8180)で性能を比較しました。
まず、fpspeedの実行スレッド数1と28におけるPlatinum 8276とPlatinum 8180のアプリケーションプログラム別の結果を示します。
実行スレッド数28でも、おおよそのアプリケーションで1.1倍~1.4倍の性能向上が確認できました。しかし、全てのアプリケーションで性能向上したわけではないことが明らかとなりました。Platinum 8180に性能が及ばなかったアプリケーション及びPlatinum 8180を1としたときの比率は、下記でした。
プログラム名(アプリケーション) | 比率(対Platinum 8180) |
621.wrf_s(天気予報) | 0.97 |
638.imagick_s(画像操作) | 0.98 |
644.nab_s(分子動力学) | 0.94 |
上記の結果から、Platinum 8276は2~6%程度、Platinum 8180に及びませんでした。実行スレッド数1の結果から、実行スレッド数28で前世代であるPlatinum 8180に性能が及ばなかった3アプリケーションを確認してみると、Platinum 8276で1.02~1.05倍の性能向上(2~5%程度)が確認できました。これは、実行スレッド数1では、CPUのTBクロックがPlatinum 8180の3.8 GHzより高い4.0 GHzで動作している可能性があると考えられます。逆に、実行スレッド数28では、Platinum 8180より低いベースクロックに引っ張られたため、Platinum 8180に性能が及ばなかった可能性があると考えられます。
ベースクロック数が高いCPUを選択していれば、621.wrf_s(天気予報)、638.imagick_s(画像操作)、644.nab_s(分子動力学)でも、Platinum 8180を上回った性能が得られていたと考えられます。
続いて、最大実行スレッド数、コピー数におけるintspeed、intrate、fprateについても、アプリケーション別に比較しました。
intrateでは、全10アプリケーションのうち、5アプリケーションがPlatinum 8276にすることで1.1~1.3倍の性能向上が確認できました。Platinum 8180に性能が及ばなかったアプリケーション及びPlatinum 8180を1としたときの比率は、下記でした。
プログラム名(アプリケーション) | 比率(対Platinum 8180) |
500.perlbench_r(perlインタプリンタ) | 0.95 |
525.x264_r(ビデオ圧縮) | 0.94 |
531.deepsjeng_r (人工知能:アルファベータツリー探索(チェス)) |
0.97 |
541.leela_r (人工知能:モンテカルロツリー探索(Go)) |
0.94 |
548.exchange2_r (人工知能:再帰的解法生成器(数独)) |
0.95 |
fprateでは、全13アプリケーションのうち、8アプリケーションはPlatinum 8276にすることで1.1~1.6倍の性能向上が確認できました。データ量が整数演算に比べ多いため、各アプリケーション別にみても、性能向上が高いことも確認できました。
Platinum 8180に性能が及ばなかったアプリケーション及びPlatinum 8180を1としたときの比率は、下記でした。
プログラム名(アプリケーション) | 比率(対Platinum 8180) |
508.namd_r(分子動力学) | 0.92 |
511.povray_r(レイトレーシング) | 0.92 |
526.blender_r (3Dレンダリングとアニメーション) |
0.96 |
538.imagick_r(画像操作) | 0.97 |
544.nab_r(分子動力学) | 0.95 |
Rateでは、Speedと比較するとPlatinum 8276がPlatinum 8180に性能が及ばなかったアプリケーションプログラムが多いことが明らかとなりました。これは、CPUのベースクロック数だけでなく、Cascade Lake-SPで追加されたSpectre Variant(投機的実行)の脆弱性対応なども関係している可能性があると考えられます。
本測定では、IntelコンパイラをParallel Studio XE 2018を使用し、Baseオプションでコンパイル(アプリケーションによらず、各ベンチマークで同じオプションを使用)していますが、最新のコンパイラを使用することや、コンパイルオプションをアプリケーションプログラムに合わせて変更することで性能が改善される可能性があると思われます。
以上、Cascade Lake-SPではメモリ動作周波数の2933 MHzのメモリを使用したり、よりベースクロック数の高いCPUを選択したり、最新のコンパイラやアプリケーションプログラムに合わせてコンパイルオプションを変更することでさらに性能向上につながる可能性があると考えます。
今後、コア数やメモリ帯域、メモリチャネル数などの観点からの比較もレポートにする予定です。
最新CPUのCascade Lake-SPであるPlatinum 8276をSPEC CPU2017でベンチマークしました。メモリ動作周波数が2933 MHzに対応したことにより、前世代CPUのSkylake-SPより全体性能で最大1.2倍(fprate)の性能向上が確認できました。特に、データ量の多い浮動小数点演算での効果を確認しました。各演算について、アプリケーションプログラム別に調査しました。2933 MHzのメモリ動作周波数のメモリを実装するだけでなく、ベースクロック数が高いCPUや最新のコンパイラを選択することや、アプリケーションプログラムに合わせてオプションを設定することでさらに高い性能が得られる可能性があるアプリケーションを明らかにすることができました。
今回、同じPlatinumランクですが1クラス異なるCPU(下2桁がクラス表記)で比較をしました。そのため、同クラスであるPlatinum 8280と比較すると性能差は今回の1.2倍より高くなる可能性があります。
当社では、お客様にあわせて利用するアプリケーション分野に特化し、高い性能が得られるように構成のチューニング、検証をすることが可能です。お気軽にご相談ください。
Cascade Lake-SPは、新たにIntel Optane™ DC Presistent Memory(DCPMM)、VNNI(Vector Neural Network Instruction)の機能をサポートしました。これらの機能についてもファナティックレポートにしていく予定です。
お問い合わせはこちら