大型语言模型GPU性能对比

Gábor Bíró • 2025年1月11日

2 阅读时间

大型语言模型（LLM）的飞速发展给计算领域带来了新的挑战。对我而言，一个关键问题是GPU在运行这些模型时的性能表现如何。在本文中，我旨在通过TFLOPS（每秒万亿次浮点运算）和TOPS（每秒万亿次运算）的概念来考察各种GPU的性能。我将使用清晰的表格展示各个型号的性能，并辅以简要的解释说明。

来源: 作者原创

TOPS（每秒万亿次运算）和FLOPS（每秒浮点运算次数）是表征GPU性能的两个重要指标，但它们与不同类型的计算操作相关，尤其是在运行和训练LLM（大型语言模型）时。

TOPS（每秒万亿次运算）

TOPS通常衡量整数运算（INT8、INT16、INT32等）的性能。
它通常用于AI加速器（例如，Tensor Cores、NPUs、TPUs），因为LLM推理（输出生成、预测）通常采用定点运算，这比浮点计算更有效率。
对于推理，使用INT8或INT4运算，因为它们可以减少计算和内存需求，而不会显着降低模型性能。因此，AI加速器的标称性能通常以TOPS为单位。
示例：一个GPU可能具有200 TOPS的INT8运算性能，这意味着它可以每秒执行200万亿次整数运算。

FLOPS（每秒浮点运算次数）

FLOPS衡量浮点运算（FP16、FP32、FP64）的执行速度。
它对于LLM训练至关重要，因为大型模型需要FP16或FP32精度才能进行准确的权重和梯度计算。
示例：一个现代GPU可能具有20 TFLOPS（万亿次浮点运算）FP32性能，这意味着它可以每秒执行20万亿次浮点运算。
对于非常大的模型（例如，GPT-4或Gemini），也使用FP16（半精度浮点数）和bfloat16（BF16）运算，因为它们速度更快，同时仍能为训练提供足够的精度。

GPU	Tensor/AI 核心	FP32 (TFLOPS)	FP16 (TFLOPS)	BF16 (TFLOPS)	INT8 (TOPS)	VRAM (GB)	内存带宽 (GB/s)	功耗 (W)
NVIDIA H200 SXM	528	67	1,979	1,979	3,958	141 (HBM3e)	4,800	600-700
NVIDIA H100 SXM	576	67	1,979	1,979	3,958	80 (HBM3)	3,350	350-700
NVIDIA H100 PCIe	576	51	1,513	1,513	3,026	80 (HBM3)	2,000	350-700
NVIDIA A100 PCIe	432	19.5	312	312	624	80 (HBM2e)	1,935	250-400
RTX 6000 ADA	568	91.1				48 (GDDR6 ECC)	960	300
NVIDIA L40s	568	91.6				48 (GDDR6 ECC)	864	350
RTX A6000	336	38.7				48 (GDDR6)	768	250
NVIDIA RTX 5090	680	104.8	450		900	32 (GDDR7x)	1,790	575
NVIDIA RTX 4090	512	82.6	330		660	24 (GDDR6x)	1,008	450
NVIDIA RTX 3090	328	40	285			24	936	350
NVIDIA RTX 2080	544	14.2	108			11	616	260
AMD MI300X		61	654?	1,307	2,615	192 (HBM3)	5,200	750

群体智能：自然启发的复杂问题解决方案

Gábor Bíró • 2024年9月1日

在人工智能和机器人技术领域，群体智能（Swarm Intelligence, SI）是一个备受期待且研究日益深入的领域。这种方法从自然界中的集体行为模式中汲取灵感，例如蚂蚁、蜜蜂、鱼群或鸟群的行为。其目的是借鉴这些自然系统，开发能够高效执行复杂任务的人工系统，以去中心化、自组织的方式运作，通常通过简单个体规则产生出令人惊讶的复杂应现行为。

加速计算和人工智能领域的领导者英伟达，正式发布了备受瞩目的下一代平台，该平台围绕强大的 Blackwell GPU 构建。这款以数学家戴维·布莱克威尔命名的全新架构，在公司GTC 2024大会上发布，是极具影响力的Hopper架构（H100/H200）的继任者。值得注意的是，Blackwell代表着英伟达首次在其数据中心GPU中采用 chiplet（芯粒）设计，集成了两个使用定制 台积电 4NP 工艺 节点制造的大型GPU芯片。

量子存储器：驱动量子互联网的关键组件

Gábor Bíró • 2024年4月29日

量子互联网的愿景——一个利用量子力学奇异定律实现革命性通信能力的网络——取决于几项关键技术的发展。其中，量子存储器无疑是一项不可或缺的组件。对于量子网络的实际运行至关重要，量子存储器提供了存储脆弱量子信息的关键能力，充当网络内通信链路和本地处理节点之间的重要接口。

Reverse Polish Notation: An Elegant Alternative for Evaluating Mathematical Expressions

Gábor Bíró • 2025年3月2日

Reverse Polish Notation (RPN) is an efficient method for evaluating mathematical expressions, characterized by placing operators after their operands. This approach allows for the omission of parentheses, simplifying and clarifying the calculation process. Although it might seem different at first, using RPN significantly speeds up the execution of operations, especially in computer systems and programmable calculators.