大型语言模型GPU性能对比

Gábor Bíró 2025年1月11日
2 阅读时间

大型语言模型(LLM)的飞速发展给计算领域带来了新的挑战。对我而言,一个关键问题是GPU在运行这些模型时的性能表现如何。在本文中,我旨在通过TFLOPS(每秒万亿次浮点运算)和TOPS(每秒万亿次运算)的概念来考察各种GPU的性能。我将使用清晰的表格展示各个型号的性能,并辅以简要的解释说明。

大型语言模型GPU性能对比
来源: 作者原创

TOPS(每秒万亿次运算)FLOPS(每秒浮点运算次数)是表征GPU性能的两个重要指标,但它们与不同类型的计算操作相关,尤其是在运行和训练LLM(大型语言模型)时。

TOPS(每秒万亿次运算)

  • TOPS通常衡量整数运算(INT8、INT16、INT32等)的性能。
  • 它通常用于AI加速器(例如,Tensor Cores、NPUs、TPUs),因为LLM推理(输出生成、预测)通常采用定点运算,这比浮点计算更有效率。
  • 对于推理,使用INT8或INT4运算,因为它们可以减少计算和内存需求,而不会显着降低模型性能。因此,AI加速器的标称性能通常以TOPS为单位。
  • 示例:一个GPU可能具有200 TOPS的INT8运算性能,这意味着它可以每秒执行200万亿次整数运算。

FLOPS(每秒浮点运算次数)

  • FLOPS衡量浮点运算(FP16、FP32、FP64)的执行速度。
  • 它对于LLM训练至关重要,因为大型模型需要FP16或FP32精度才能进行准确的权重和梯度计算。
  • 示例:一个现代GPU可能具有20 TFLOPS(万亿次浮点运算)FP32性能,这意味着它可以每秒执行20万亿次浮点运算。
  • 对于非常大的模型(例如,GPT-4Gemini),也使用FP16(半精度浮点数)和bfloat16(BF16)运算,因为它们速度更快,同时仍能为训练提供足够的精度。

GPU Tensor/AI
核心
FP32 (TFLOPS) FP16 (TFLOPS) BF16 (TFLOPS) INT8 (TOPS) VRAM (GB) 内存带宽 (GB/s) 功耗 (W)
NVIDIA H200 SXM 528 67 1,979 1,979 3,958 141 (HBM3e) 4,800 600-700
NVIDIA H100 SXM 576 67 1,979 1,979 3,958 80
(HBM3)
3,350 350-700
NVIDIA H100 PCIe 576 51 1,513 1,513 3,026 80
(HBM3)
2,000 350-700
NVIDIA A100 PCIe 432 19.5 312 312 624 80
(HBM2e)
1,935 250-400
RTX 6000 ADA 568 91.1 48
(GDDR6 ECC)
960 300
NVIDIA L40s 568 91.6 48
(GDDR6 ECC)
864 350
RTX A6000 336 38.7 48
(GDDR6)
768 250
NVIDIA RTX 5090 680 104.8 450 900 32
(GDDR7x)
1,790 575
NVIDIA RTX 4090 512 82.6 330 660 24
(GDDR6x)
1,008 450
NVIDIA RTX 3090 328 40 285 24 936 350
NVIDIA RTX 2080 544 14.2 108 11 616 260
AMD MI300X 61 654? 1,307 2,615 192 (HBM3) 5,200 750
Gábor Bíró 2025年1月11日