『問題解決型』ハードウェアメーカー
ファナティック
-
- ファナティックの特長 ファナティックの特長
- /
- 製品&ソリューション 製品&ソリューション
- /
- 導入事例 導入事例
- /
- 最新ニュース 最新ニュース
- /
- ファナティックレポート ファナティックレポート
- /
- サポート サポート
- /
- 会社案内 会社案内
- /
- 採用情報 採用情報
2023.12.12ニュースリリース
新GPUの NVIDIA L40SとNVIDIA A800 40GB Activeの取り扱いを開始しました。
■NVIDIA L40S
NVIDIA L40SはNVIDIA H100と比較しFP64の演算性能がない分、FP32等の演算性能が高くコストパフォーマンスの優れた製品となります。NVIDIA H100は現状入手困難となっている中でLLMや生成AI用途に必要なGPUをタイムリーに確保するのに最適な選択肢です。下記カタログスペック比較です。
主な性能
NVIDIA L40S | NVIDIA H100(PCIe) | |
GPUアーキテクチャ | NVIDIA Ada Lovelace Architecture |
NVIDIA Hopper Architecture |
倍精度浮動小数点 演算性能(FP64) |
– | 26TFLOPS |
単精度浮動小数点 演算性能(FP32) |
91.6 TFLOPS | 51 TFLOPS |
半精度浮動小数点 演算性能(FP16) |
– | – |
FP64Tensor Core演算性能 | – | 51 TFLOPS |
TF32Tensor Core演算性能 | 183 TFLOPS | 756 TFLOPS* |
BFLOAT16 Tensor Core演算性能 | 362.05 TFLOPS | 1,513 TFLOPS* |
FP16 Tensor Core演算性能 | 362.05 TFLOPS | 1,513 TFLOPS* |
FP8 Tensor Core演算性能 | 733 TFLOPS | 3,026 TFLOPS* |
INT8 Tensor Core演算性能 | 788 TOPS | 3,026 TOPS* |
INT4 Tensor Core演算性能 | 788 TOPS | – |
メモリバンド幅 | 864GB/s | 2TB/s |
メモリインターフェイス | 384-bit | 5120-bit |
メモリサイズ | 48GB GDDR6 with ECC | 80GB HBM2e |
L2キャッシュ | 96MB | 50MB |
NVLink | – | YES 600 GB/sec (双方向) 2基のH100間を接続 |
CUDAコア | 18176 | 14592 |
Tensorコア | 568 (4th Gen) | 456 (4th Gen) |
PCI-E | PCIe Gen4 x16 | PCIe Gen5 x16 |
TDP | 350W | 350W |
ディスプレイコネクタ | 4x DisplayPort 1.4a | – |
補助電源コネクタ | 1x PCIe CEM5 16pin | 1x PCIe CEM5 16pin |
フォームファクター | FHFL 10.5”, 2-slot | FHFL 10.5”, 2-slot |
*With sparsity.
※記載されている会社名、製品名は各社の商標または登録商標です。
■NVIDIA A800 40GB Active
遂にGV100の後継に近しいGPUが登場しました。NVIDIA A800 40GB ActiveはNVIDIA A100のアクティブファンタイプと言って差し支えないかと思われます。高いFP64演算性能を持ち深層学習以外のGPGPU用途に高い性能を提供します。アクティブファンタイプ(ワークステーションに搭載可能)かつGPUメモリが40GBのためNVIDIA H100と比較してコストを抑えてのGPU導入が可能です。また、本GPUはNVIDIA AI Enterpriseの3年間のサブスクリプションが付属されます。
NVIDIA AI Enterpriseの概要は以下URLをご覧ください。
https://resources.nvidia.com/en-us-nvidia-ai-enterprise/nvaie-overview
主な性能
NVIDIA A800 40GB Active | NVIDIA A100 | |
GPUアーキテクチャ | NVIDIA Ampere Architecture |
NVIDIA Ampere Architecture |
倍精度浮動小数点 演算性能(FP64) |
9.7 TFLOPS | 9.7 TFLOPS |
単精度浮動小数点 演算性能(FP32) |
19.5 TFLOPS | 19.5 TFLOPS |
RT Core 演算性能 | – | – |
Tensor演算性能(FP8) | – | – |
メモリバンド幅 | 1555GB/s | 1935GB/s |
メモリインターフェイス | 5120-bit | 5120-bit |
メモリサイズ | 40GB HBM2 | 80GB HBM2e |
NVLink | YES 400 GB/sec (双方向) 2基のA800間を接続 |
YES 600 GB/sec (双方向) 2基のA100間を接続 |
CUDAコア | 6912 | 6912 |
Tensorコア | 432 (3rd Gen) | 432 (3rd Gen) |
RTコア | – | – |
TDP | 240W | 300W |
PCI-E | PCIe Gen4 x16 | PCIe Gen4 x16 |
ディスプレイコネクタ | – | – |
補助電源コネクタ | 1x 8-pin CPU | 1x 8-pin CPU |
フォームファクター | FHFL 10.5”, 2-slot | FHFL 10.5”, 2-slot |
※記載されている会社名、製品名は各社の商標または登録商標です。
本GPUを搭載可能な製品はタワー型、ラックマウント型など幅広く取り揃えております。詳しい内容やご購入のご相談は、こちらよりお問い合わせください。