【LLM】大模型推理、微调显卡挑选一览表

编程语言 2025-04-09 21:10

0 阅读

表1. NVIDIA显卡系列特性对比

系列	核心特征	应用场景	典型用户	代表型号	发布时间
RTX	消费级显卡，支持光线追踪，适合游戏/轻量AI	游戏开发、3D渲染、轻量级AI推理	游戏玩家/AI入门开发者	RTX 4090/3090	2018 (Turing)
A系列	数据中心级，高精度计算能力	大规模模型训练、科学计算	AI实验室/云计算中心	A100/A10	2020 (Ampere)
A800	A系列中国特供版，符合出口限制	中国境内大模型训练	中国数据中心	A800	2021 (Ampere)
H系列	超大规模模型专用，FP8支持	GPT级模型训练、量子计算模拟	超算中心/AI头部企业	H100/H200	2022 (Hopper)
H800	H系列中国特供版，带宽优化版	中国境内万亿参数模型训练	中国超算中心	H800	2022 (Hopper)
L系列	可视化与推理优化，高显存带宽	工业仿真/医学影像处理	科研机构/专业工作室	L40/L4	2022 (Ada)
T系列	能效比优化，支持虚拟化	云游戏/边缘计算	云服务商	T4	2018 (Turing)

表2. 大模型推理显存需求（单位：GB）

参数量	FP16	推荐方案	INT8	推荐方案	INT4	推荐方案	INT2	推荐方案
7B	12	RTX 4090单卡	8	RTX 4080单卡	6	RTX 3060单卡	4	RTX 3060单卡
13B	24	RTX 4090单卡	16	RTX 4090单卡	12	RTX 4090单卡	8	RTX 4080单卡
30B	60	A100×2 (NVLink)	40	L40单卡	24	RTX 4090单卡	16	T4单卡
70B	120	A100×2 (80GB)	80	L40×2	48	L40单卡	32	RTX 4090×2
110B	200	H100×3	140	H100×2	72	A10×3	48	A10×2

表3. 大模型微调显存需求（单位：GB）

参数量	Freeze	推荐方案	LoRA	推荐方案	QLoRA-INT8	推荐方案	QLoRA-INT4	推荐方案
7B	20	RTX 4090单卡	16	RTX 4090单卡	10	RTX 4080单卡	6	RTX 3060单卡
13B	40	A100单卡	32	A100单卡	20	L40单卡	12	RTX 4090单卡
30B	80	A100(80GB)	64	A100(80GB)	40	L40单卡	24	RTX 4090单卡
70B	200	H100×3	160	H100×2	80	H100单卡	48	L40单卡
110B	360	H100×5	240	H100×3	140	H100×2	72	A10×3

关键注释：

多卡配置：标注"×N"表示需要N张同型号显卡，建议使用NVLink桥接
特供版差异：A800/H800相比原版带宽降低约30%，适合合规要求场景
精度选择：
- FP16：最高精度，适合科研验证
- INT8：平衡精度与速度，推荐生产环境
- INT4/INT2：极速推理，适合边缘设备

显存计算规则：

理论显存 = 参数量 × 精度字节数 × 1.2（含梯度缓存）
示例：7B模型FP16需求 = 7×10^9 × 2字节 × 1.2 ≈ 16.8GB → 表格取整为20GB