大型语言模型GPU性能对比
2 阅读时间
大型语言模型(LLM)的飞速发展给计算领域带来了新的挑战。对我而言,一个关键问题是GPU在运行这些模型时的性能表现如何。在本文中,我旨在通过TFLOPS(每秒万亿次浮点运算)和TOPS(每秒万亿次运算)的概念来考察各种GPU的性能。我将使用清晰的表格展示各个型号的性能,并辅以简要的解释说明。

来源: 作者原创
TOPS(每秒万亿次运算)和FLOPS(每秒浮点运算次数)是表征GPU性能的两个重要指标,但它们与不同类型的计算操作相关,尤其是在运行和训练LLM(大型语言模型)时。
TOPS(每秒万亿次运算)
- TOPS通常衡量整数运算(INT8、INT16、INT32等)的性能。
- 它通常用于AI加速器(例如,Tensor Cores、NPUs、TPUs),因为LLM推理(输出生成、预测)通常采用定点运算,这比浮点计算更有效率。
- 对于推理,使用INT8或INT4运算,因为它们可以减少计算和内存需求,而不会显着降低模型性能。因此,AI加速器的标称性能通常以TOPS为单位。
- 示例:一个GPU可能具有200 TOPS的INT8运算性能,这意味着它可以每秒执行200万亿次整数运算。
FLOPS(每秒浮点运算次数)
- FLOPS衡量浮点运算(FP16、FP32、FP64)的执行速度。
- 它对于LLM训练至关重要,因为大型模型需要FP16或FP32精度才能进行准确的权重和梯度计算。
- 示例:一个现代GPU可能具有20 TFLOPS(万亿次浮点运算)FP32性能,这意味着它可以每秒执行20万亿次浮点运算。
- 对于非常大的模型(例如,GPT-4或Gemini),也使用FP16(半精度浮点数)和bfloat16(BF16)运算,因为它们速度更快,同时仍能为训练提供足够的精度。
GPU | Tensor/AI 核心 | FP32 (TFLOPS) | FP16 (TFLOPS) | BF16 (TFLOPS) | INT8 (TOPS) | VRAM (GB) | 内存带宽 (GB/s) | 功耗 (W) |
---|---|---|---|---|---|---|---|---|
NVIDIA H200 SXM | 528 | 67 | 1,979 | 1,979 | 3,958 | 141 (HBM3e) | 4,800 | 600-700 |
NVIDIA H100 SXM | 576 | 67 | 1,979 | 1,979 | 3,958 | 80 (HBM3) | 3,350 | 350-700 |
NVIDIA H100 PCIe | 576 | 51 | 1,513 | 1,513 | 3,026 | 80 (HBM3) | 2,000 | 350-700 |
NVIDIA A100 PCIe | 432 | 19.5 | 312 | 312 | 624 | 80 (HBM2e) | 1,935 | 250-400 |
RTX 6000 ADA | 568 | 91.1 | 48 (GDDR6 ECC) | 960 | 300 | |||
NVIDIA L40s | 568 | 91.6 | 48 (GDDR6 ECC) | 864 | 350 | |||
RTX A6000 | 336 | 38.7 | 48 (GDDR6) | 768 | 250 | |||
NVIDIA RTX 5090 | 680 | 104.8 | 450 | 900 | 32 (GDDR7x) | 1,790 | 575 | |
NVIDIA RTX 4090 | 512 | 82.6 | 330 | 660 | 24 (GDDR6x) | 1,008 | 450 | |
NVIDIA RTX 3090 | 328 | 40 | 285 | 24 | 936 | 350 | ||
NVIDIA RTX 2080 | 544 | 14.2 | 108 | 11 | 616 | 260 | ||
AMD MI300X | 61 | 654? | 1,307 | 2,615 | 192 (HBM3) | 5,200 | 750 |