FANATIC REPORT ファナティックレポート

NVLinkの有効性評価(H200 NVLink)

2025.05.02 ベンチマークレポート


NVLinkの有効性評価

今回は、NVIDIA H200 141GB SXM5 (以下H200)を4基使用し、NVLink Bridgeの有効な状態と無効な状態で、どのような影響があるのか、改めて調査しました。
基本的な情報取得を含め、各種パフォーマンス評価の結果を紹介させていただきます。

目次

1.評価環境

2.NVLinkの動作確認

3.p2pBandwidthLatencyTest

4.nccl-test

5.まとめ


1.評価環境

・ハードウェア

項目 品名 数量
Barebone SYS-421GU-TNXR 1
M/B Supermicro X13DGU 1
CPU Xeon Gold 6544Y 2
MEMORY DDR5-5600 64GB 16
GPU NVIDA H200 141GB SXM5 4

 

・ソフトウェア

項目 バージョン
OS Ubuntu 24.04.1-desktop
Driver 560.35.03
CUDA 12.6.2
Docker 24.09-tf2-py3

2.NVLinkの動作確認

NVLinkが正常に機能しているか、以下のコマンドにて確認しました。なお、NVLinkの無効化はOS設定で行いました。

①基本情報(nvidia-smi)

 

②GPU間の接続方法の確認(nvidia-smi topo -m)
・NVLinkなし

・NVLinkあり

 

③対向GPUの確認(nvidia-smi nvlink -R)

①のBus-Id情報から、各Linkとも対向のGPUとなっていることがわかります。

 

④Linkの帯域確認(nvidia-smi nvlink -s)

カタログスペックにて、NVLinkの帯域幅は、「双方向:4.8TB/s」とありますので、26.562 x 18 = 478.116GB/sとなり、スペック通り機能していることがわかります。

 

⑤機能確認(nvidia-smi nvlink -c)

Link単位での機能を確認することができます。

3.p2pBandwidthLatencyTest

まずは、CUDAのsamplesに収録されている「p2pBandwidthLatencyTest」にて、レイテンシおよび帯域幅の評価を行い、比較しました。

 

・レイテンシ(µs) ※クリックで拡大します。

 

・帯域幅(双方向、GB/s) ※クリックで拡大します。

帯域については、NVLink ありの状態において、双方向で200GB/s 超となっている。
また、レイテンシについては、向上していることが確認できます。

4.nccl-test

先のベンチマーク結果から、GPU間の通信量を増やすことによって、NVLinkの優位性が見られると考え、「nccl-test」を用いて評価しました。

・nccl-test
https://github.com/NVIDIA/nccl-tests

1MB~8192MBまで、サイズを変更しながら、時間および帯域幅の推移をまとめたものが以下となります。

8192MBの評価結果を抜粋したものが以下となります。

項目 NVLinkなし NVLinkあり 対比
時間(送信) 491591 38160 8%
時間(受信) 492236 38125 8%
帯域幅(送信) 26.21 337.66 1288%
帯域幅(送信) 26.18 337.96 1291%

時間に関しては、128MBを超えたあたりから、NVLinkあり/なしの差が広がることがわかります。
8192MBの評価では、NVLinkなしに対し、NVLinkありでは、片側あたり約8%の時間で処理が完了しています。

帯域幅では、NVLinkなしの場合、早々に上限に達するのに対し、NVLinkありの場合は、緩やかに上昇していることがわかります。
8192MBの評価では、NVLinkなしに対し、NVLinkありでは、片側あたり約1300%の帯域を使用しています。

これらの内容から、通信量が大きくなるほど、NVLinkが有効であると言えます。

5.まとめ

GPU間の通信において、NVLinkがどのように影響するのか、評価させていただきました。
今回の評価で、通信量が多くなるもしくは、通信の頻度が高くなると、NVLinkが有効となることがお分かりいただけたのではないでしょうか。

また、NVLinkの特徴として、メモリ空間を共有できることが挙げられます。
H200NVLを4基、NVLinkありの状態で使用されている場合、GPU 1基あたりのメモリ容量は、141GBとなります。
NVLinkを使用することで、メモリ容量は4倍の564GBまで扱うことができるようになります。

GPU 1基に搭載されているメモリ容量より、大きいデータを扱うようなケースでは、NVLinkを導入することで、パフォーマンスの向上を見込むことができます。

GPU 4基を搭載して、有効に活用したいとお考えの際は、是非当社までお問い合わせ下さい。

プライベートLLM・RAGの運用基礎を支える 自由度の高い高性能GPUサーバー
AI基盤づくりのためのワークステーション・サーバー
生産現場のAI活用 学習用ワークステーションから推論用エッジPCまで

人気レポートランキング

レポートカテゴリ

製品カテゴリ