『問題解決型』ハードウェアメーカー
ファナティック
-
- ファナティックの特長 ファナティックの特長
- /
- 製品&ソリューション 製品&ソリューション
- /
- 導入事例 導入事例
- /
- 最新ニュース 最新ニュース
- /
- ファナティックレポート ファナティックレポート
- /
- サポート サポート
- /
- 会社案内 会社案内
- /
- 採用情報 採用情報
2025.05.02 ベンチマークレポート
今回は、NVIDIA H200 141GB SXM5 (以下H200)を4基使用し、NVLink Bridgeの有効な状態と無効な状態で、どのような影響があるのか、改めて調査しました。
基本的な情報取得を含め、各種パフォーマンス評価の結果を紹介させていただきます。
・ハードウェア
項目 | 品名 | 数量 |
Barebone | SYS-421GU-TNXR | 1 |
M/B | Supermicro X13DGU | 1 |
CPU | Xeon Gold 6544Y | 2 |
MEMORY | DDR5-5600 64GB | 16 |
GPU | NVIDA H200 141GB SXM5 | 4 |
・ソフトウェア
項目 | バージョン |
OS | Ubuntu 24.04.1-desktop |
Driver | 560.35.03 |
CUDA | 12.6.2 |
Docker | 24.09-tf2-py3 |
NVLinkが正常に機能しているか、以下のコマンドにて確認しました。なお、NVLinkの無効化はOS設定で行いました。
①基本情報(nvidia-smi)
②GPU間の接続方法の確認(nvidia-smi topo -m)
・NVLinkなし
・NVLinkあり
③対向GPUの確認(nvidia-smi nvlink -R)
①のBus-Id情報から、各Linkとも対向のGPUとなっていることがわかります。
④Linkの帯域確認(nvidia-smi nvlink -s)
カタログスペックにて、NVLinkの帯域幅は、「双方向:4.8TB/s」とありますので、26.562 x 18 = 478.116GB/sとなり、スペック通り機能していることがわかります。
⑤機能確認(nvidia-smi nvlink -c)
Link単位での機能を確認することができます。
まずは、CUDAのsamplesに収録されている「p2pBandwidthLatencyTest」にて、レイテンシおよび帯域幅の評価を行い、比較しました。
・レイテンシ(µs)
・帯域幅(双方向、GB/s)
帯域については、NVLink ありの状態において、双方向で200GB/s 超となっている。
また、レイテンシについては、向上していることが確認できます。
先のベンチマーク結果から、GPU間の通信量を増やすことによって、NVLinkの優位性が見られると考え、「nccl-test」を用いて評価しました。
・nccl-test
https://github.com/NVIDIA/nccl-tests
1MB~8192MBまで、サイズを変更しながら、時間および帯域幅の推移をまとめたものが以下となります。
8192MBの評価結果を抜粋したものが以下となります。
項目 | NVLinkなし | NVLinkあり | 対比 |
時間(送信) | 491591 | 38160 | 8% |
時間(受信) | 492236 | 38125 | 8% |
帯域幅(送信) | 26.21 | 337.66 | 1288% |
帯域幅(送信) | 26.18 | 337.96 | 1291% |
時間に関しては、128MBを超えたあたりから、NVLinkあり/なしの差が広がることがわかります。
8192MBの評価では、NVLinkなしに対し、NVLinkありでは、片側あたり約8%の時間で処理が完了しています。
帯域幅では、NVLinkなしの場合、早々に上限に達するのに対し、NVLinkありの場合は、緩やかに上昇していることがわかります。
8192MBの評価では、NVLinkなしに対し、NVLinkありでは、片側あたり約1300%の帯域を使用しています。
これらの内容から、通信量が大きくなるほど、NVLinkが有効であると言えます。
GPU間の通信において、NVLinkがどのように影響するのか、評価させていただきました。
今回の評価で、通信量が多くなるもしくは、通信の頻度が高くなると、NVLinkが有効となることがお分かりいただけたのではないでしょうか。
また、NVLinkの特徴として、メモリ空間を共有できることが挙げられます。
H200NVLを4基、NVLinkありの状態で使用されている場合、GPU 1基あたりのメモリ容量は、141GBとなります。
NVLinkを使用することで、メモリ容量は4倍の564GBまで扱うことができるようになります。
GPU 1基に搭載されているメモリ容量より、大きいデータを扱うようなケースでは、NVLinkを導入することで、パフォーマンスの向上を見込むことができます。
GPU 4基を搭載して、有効に活用したいとお考えの際は、是非当社までお問い合わせ下さい。