FANATIC REPORT ファナティックレポート

【ベンチマーク|性能比較】Cascade Lake-SPをSPEC® CPU2017でベンチマーク

2019.07.26 ベンチマークレポート


【ベンチマーク | 性能比較】Cascade Lake-SPをSPEC® CPU2017でベンチマーク

Intel® Xeon® Cascade Lake-SPをSPEC® CPU2017によるベンチマーク結果

Intel® の最新CPUの第2世代 Intel® Xeon® Scalable Processor(開発コード名:Cascade Lake-SP)である Xeon® Platinum 8276をSPEC® CPU2017(以下、「SPEC2017」という。) を使用してベンチマークを行いました。
同ランクの前世代CPUであるSkylake-SP(Platinum 8180)と比較しました。

前世代のSkylake-SPの複数のCPUで実施したベンチマーク結果については下記のファナティックレポートをご覧ください。
【ベンチマーク | 性能比較】Skylake-SPのベンチマークを行いました
【ベンチマーク | 性能比較】Skylake-SP CPUをSPEC® CPU2017でベンチマーク

目次

Cascade Lake-SPの主な新規特徴

Intel® の最新CPUのCascade Lake-SPで新たに追加された主な特徴を紹介いたします。

  • Intel Optane™ DC Persistent Memory(DCPMM)サポート
  • Intel Deep Learning Boost VNNI(Vector Neural Network Instruction)サポート
  • メモリ動作周波数の向上 DDR4-2933サポート
  • Spectre Variant 2/3/3a/4 及びL1TFに対応した脆弱性対応がハードウェアの形で実装

Optane™ DC Persistent Memoryは、3D Xpointというメモリ技術を採用した、従来のNANDに比べ、低レイテンシ、高耐久の不揮発性メモリーモジュール型SSDです。大容量データの繰り返し書き込み処理で高いパフォーマンスを発揮すると発表されました。Intel DL Boostは、VNNIと呼ばれるAVX512の拡張命令が追加され、ディープラーニングの推論性能が11倍(2017年6月のXeon-SPと比較)になると発表されました。

今回は上記の新たに追加された特徴の評価ではなく、CPUのプロセッサ性能について世代間で評価しました。

測定環境

●ベンチマークに使用したCPUのスペック

世代 クロック
[GHz]
TB時
[GHz]
コア数 スレッド数 TDP
[W]
最大メモリ動作周波数
[MHz]
AVX512 FMAユニット数
Platinum 8276 Cascade Lake 2.2 4.0 28 56 165 2933 2
Platinum 8180 Skylake 2.5 3.8 28 56 205 2666 2

※今回のSkylake-SP構成ではメモリは2133 MHzで評価を行っています。

●構成
Cascade Lake-SPとSkylake-SPの評価構成は下記としました。構成が異なる仕様は★を付けています。

Cascade Lake-SP構成

仕様
マザーボード Supermicro X11 DPG-QT (BIOS ver.3.0c)
CPU Xeon Platinum 8276 ×2 ★
メモリ DDR4-2933 32GB×12(384 GB) ★
SSD Intel D3-S4510 Series 480GB 2.5inch SATA3 TLC ★
OS SUSE Linux Enterprise Server 12 SP3
Intelコンパイラ Parallel studio XE 2018 for Linux(ver.18.0.2.199)
ベンチマークソフト SPEC CPU2017

 

Skylake-SP構成

仕様
マザーボード Supermicro X11 DPG-QT (BIOS ver.2.1)
CPU Xeon Platinum 8180 ×2 ★
メモリ DDR4-2133 16GB×12(192 GB) ★
SSD Intel 530 Series 240GB 2.5inch SATA3 MLC ★
OS SUSE Linux Enterprise Server 12 SP3
Intelコンパイラ Parallel studio XE 2018 for Linux(ver.18.0.2.199)
ベンチマークソフト SPEC CPU2017

※コンパイラバージョンは統一し、測定しました。
※メモリアクセス性能向上が可能なメモリアロケータ「jemalloc」は使用しておりません。

測定結果

SPEC2017の4種類のベンチマークをBaseオプションでコンパイルしました。

  • Integer Speed(intspeed):整数演算の処理速度を評価
  • Integer Rate(intrate):整数演算のスループットを評価
  • Floating Point Speed(fpspeed):浮動小数点演算の処理速度を評価
  • Floating Point Rate(fprate):浮動小数点演算のスループットを評価

Speed指標はHyper threadを無効に、Rate指標はHyper threadを有効にして実行しました。そのため、本測定のSpeedにおける最大実行スレッド数はコア数×CPU数、Rateにおける最大コピー数はコア数×2×CPU数となります。下記の表になります。
※メモリ1枚当たりの容量が異なりますが、intspeed、fpspeedをPlatinum 8276の2CPU構成で、同じメモリチャネル数(6チャネル)、メモリ動作周波数(2933 MHz)の条件下で、メモリ1枚当たりの容量を16 GB、32 GBに変更し検証した結果、性能差はほとんどないことを確認しております。

メモリ周波数 メモリ容量 Speed Rate
Platinum 8180×1 2133MHz 96GB 28 56
Platinum 8180×2 192GB 56 112
Platinum 8276×1 2933 MHz 192GB 28 56
Platinum 8276×2 384GB 56 112

SPEC2017に関する詳しい説明は【ベンチマーク|性能比較】Skylake-SP CPUをSPEC CPU2017でベンチマーク をご覧ください。

Cascade Lake-SP vs Skylake-SPパフォーマンス比較(1、2CPU構成で測定)

最新CPUのCascade Lake-SPであるPlatinum 8276と、前世代CPUのSkylake-SPであるPlatinum 8180とで4種類のベンチマークにおいて比較した結果を示します。

【Platinum 8180 vs Platinum 8276(CPU×1)】
 

【Platinum 8180 vs Platinum 8276(CPU×2)】
 

スコア値が高いほど、高い性能であることを示しています。
Cascade Lake-SPであるPlatinum 8276と前世代CPUのPlatinum 8180を比べると、1CPU構成、2CPU構成共に性能の向上を確認できました。各々の構成の性能比率を下記に示します。

比率(対Platinum8180)
intspeed intrate fpspeed fprate
Platinum 8276×1 1.04 1.1 1.1 1.2
Platinum 8276×2 1.03 1.01 1.1 1.1

 
fpspeed、fprateの浮動小数点演算は1.1倍性能が向上しました。intspeed、intrateの整数演算は多少性能向上したものの、浮動小数点演算ほどではありませんでした。これは、整数演算が浮動小数点演算に比べ、データ量が少なく、メモリ帯域の効果が小さいためであると考えられます。
この結果から、Cascade Lake-SPはメモリ動作周波数が2933 MHzに対応したことにより、特にデータ量の多い浮動小数点演算の性能向上つながったものと考えられます。

Cascade Lake-SP vs Skylake-SP実行スレッド数で比較(1CPU構成で測定)

次に、fpspeedを用いて、実行スレッド毎の性能をCascade Lake-SPとSkylake-SPで比較しました。

【実行スレッド数依存性(Floating Point Speed, CPU×1)】
 

実行スレッド数1において、Platinum 8180→Platinum 8276になることで1.07倍の性能向上、その他の実行スレッド数においても、下記に示したように1.1~1.2倍の性能向上が確認できました。fpspeedでは全ての実行スレッド数でメモリ帯域拡大の効果が確認できました。

実行スレッド数 比率(対Platinum8180)
1 1.07
4 1.1
7 1.1
12 1.2
14 1.2
21 1.1
28 1.1

 

次に、各CPUの実行スレッド数1のスコア値を1としたときの各実行スレッド数の性能倍数を示します。Platinum 8276は9.4を1、Platinum 8180は8.8を1として算出しました。

【実行スレッド数1に対する性能倍数(Floating Point Speed, CPU×1)】
 

Platinum 8276とPlatinum 8180を比較すると、実行スレッド数1→28で、各々8.9倍、8.3倍の性能でした。実行スレッド数12以上では、Platinum 8276、Platinum 8180共に性能はあまり変化しませんでした。これは、OpenMPの並列化により、アプリケーションプログラムのオーバーヘッドが性能に影響を与えていると考えられます。Cascade Lake-SPになったことにより、性能倍数がSkylake-SPに比べ、改善していました。これは、メモリ帯域が拡張するなどにより、オーバーヘッドの影響が低くなったと考えられます。また、実行スレッド数あたりの性能も向上したことが確認できました。
アプリケーションプログラム別の比較を次で説明します。

Cascade Lake-SP vs Skylake-SPアプリケーションプログラム別比較(1CPU構成で測定)

4種類のベンチマークのアプリケーションプログラム別にCascade Lake-SP(Platinum 8276)とSkylake-SP(Platinum 8180)で性能を比較しました。

まず、fpspeedの実行スレッド数1と28におけるPlatinum 8276とPlatinum 8180のアプリケーションプログラム別の結果を示します。

【Platinum 8276 vs 8180(Floating Point Speed, CPU×1, 実行スレッド数1)】

 
実行スレッド数1では、ほとんどのアプリケーションでPlatinum 8180からPlatinum 8276にすることによって、1.01倍~1.4倍の性能向上が確認できました。

【Platinum 8180 vs 8276(Floating Point Speed, CPU×1, 実行スレッド数28)】

実行スレッド数28でも、おおよそのアプリケーションで1.1倍~1.4倍の性能向上が確認できました。しかし、全てのアプリケーションで性能向上したわけではないことが明らかとなりました。Platinum 8180に性能が及ばなかったアプリケーション及びPlatinum 8180を1としたときの比率は、下記でした。

プログラム名(アプリケーション) 比率(対Platinum 8180)
621.wrf_s(天気予報) 0.97
638.imagick_s(画像操作) 0.98
644.nab_s(分子動力学) 0.94

 

上記の結果から、Platinum 8276は2~6%程度、Platinum 8180に及びませんでした。実行スレッド数1の結果から、実行スレッド数28で前世代であるPlatinum 8180に性能が及ばなかった3アプリケーションを確認してみると、Platinum 8276で1.02~1.05倍の性能向上(2~5%程度)が確認できました。これは、実行スレッド数1では、CPUのTBクロックがPlatinum 8180の3.8 GHzより高い4.0 GHzで動作している可能性があると考えられます。逆に、実行スレッド数28では、Platinum 8180より低いベースクロックに引っ張られたため、Platinum 8180に性能が及ばなかった可能性があると考えられます。

ベースクロック数が高いCPUを選択していれば、621.wrf_s(天気予報)、638.imagick_s(画像操作)、644.nab_s(分子動力学)でも、Platinum 8180を上回った性能が得られていたと考えられます。

続いて、最大実行スレッド数、コピー数におけるintspeed、intrate、fprateについても、アプリケーション別に比較しました。

【Platinum 8276 vs 8180(Integer Speed, CPU×1 実行スレッド数28)】

 
intspeedは全てのアプリケーションで1.01~1.06倍の性能向上が確認できました。

【Platinum 8276 vs 8180(Integer Rate, CPU×1, コピー数56)】
 

intrateでは、全10アプリケーションのうち、5アプリケーションがPlatinum 8276にすることで1.1~1.3倍の性能向上が確認できました。Platinum 8180に性能が及ばなかったアプリケーション及びPlatinum 8180を1としたときの比率は、下記でした。

プログラム名(アプリケーション) 比率(対Platinum 8180)
500.perlbench_r(perlインタプリンタ) 0.95
525.x264_r(ビデオ圧縮) 0.94
531.deepsjeng_r
(人工知能:アルファベータツリー探索(チェス))
0.97
541.leela_r
(人工知能:モンテカルロツリー探索(Go))
0.94
548.exchange2_r
(人工知能:再帰的解法生成器(数独))
0.95

 

【Platinum 8276 vs 8180(Floating Point Rate, CPU×1, コピー数56)】
 

fprateでは、全13アプリケーションのうち、8アプリケーションはPlatinum 8276にすることで1.1~1.6倍の性能向上が確認できました。データ量が整数演算に比べ多いため、各アプリケーション別にみても、性能向上が高いことも確認できました。
Platinum 8180に性能が及ばなかったアプリケーション及びPlatinum 8180を1としたときの比率は、下記でした。

プログラム名(アプリケーション) 比率(対Platinum 8180)
508.namd_r(分子動力学) 0.92
511.povray_r(レイトレーシング) 0.92
526.blender_r
(3Dレンダリングとアニメーション)
0.96
538.imagick_r(画像操作) 0.97
544.nab_r(分子動力学) 0.95

 

Rateでは、Speedと比較するとPlatinum 8276がPlatinum 8180に性能が及ばなかったアプリケーションプログラムが多いことが明らかとなりました。これは、CPUのベースクロック数だけでなく、Cascade Lake-SPで追加されたSpectre Variant(投機的実行)の脆弱性対応なども関係している可能性があると考えられます。
本測定では、IntelコンパイラをParallel Studio XE 2018を使用し、Baseオプションでコンパイル(アプリケーションによらず、各ベンチマークで同じオプションを使用)していますが、最新のコンパイラを使用することや、コンパイルオプションをアプリケーションプログラムに合わせて変更することで性能が改善される可能性があると思われます。

以上、Cascade Lake-SPではメモリ動作周波数の2933 MHzのメモリを使用したり、よりベースクロック数の高いCPUを選択したり、最新のコンパイラやアプリケーションプログラムに合わせてコンパイルオプションを変更することでさらに性能向上につながる可能性があると考えます。
今後、コア数やメモリ帯域、メモリチャネル数などの観点からの比較もレポートにする予定です。

まとめ

最新CPUのCascade Lake-SPであるPlatinum 8276をSPEC CPU2017でベンチマークしました。メモリ動作周波数が2933 MHzに対応したことにより、前世代CPUのSkylake-SPより全体性能で最大1.2倍(fprate)の性能向上が確認できました。特に、データ量の多い浮動小数点演算での効果を確認しました。各演算について、アプリケーションプログラム別に調査しました。2933 MHzのメモリ動作周波数のメモリを実装するだけでなく、ベースクロック数が高いCPUや最新のコンパイラを選択することや、アプリケーションプログラムに合わせてオプションを設定することでさらに高い性能が得られる可能性があるアプリケーションを明らかにすることができました。
今回、同じPlatinumランクですが1クラス異なるCPU(下2桁がクラス表記)で比較をしました。そのため、同クラスであるPlatinum 8280と比較すると性能差は今回の1.2倍より高くなる可能性があります。

当社では、お客様にあわせて利用するアプリケーション分野に特化し、高い性能が得られるように構成のチューニング、検証をすることが可能です。お気軽にご相談ください。

Cascade Lake-SPは、新たにIntel Optane™ DC Presistent Memory(DCPMM)、VNNI(Vector Neural Network Instruction)の機能をサポートしました。これらの機能についてもファナティックレポートにしていく予定です。
 
お問い合わせはこちら

AI基盤づくりのためのワークステーション・サーバー
生産現場のAI活用 学習用ワークステーションから推論用エッジPCまで
機械学習 オーダーメイドで応える、NVIDIA® RTX™ A6000搭載 ワークステーション・サーバー

人気レポートランキング

レポートカテゴリ

製品カテゴリ