表1. NVIDIA显卡系列特性对比
系列 | 核心特征 | 应用场景 | 典型用户 | 代表型号 | 发布时间 |
---|---|---|---|---|---|
RTX | 消费级显卡,支持光线追踪,适合游戏/轻量AI | 游戏开发、3D渲染、轻量级AI推理 | 游戏玩家/AI入门开发者 | RTX 4090/3090 | 2018 (Turing) |
A系列 | 数据中心级,高精度计算能力 | 大规模模型训练、科学计算 | AI实验室/云计算中心 | A100/A10 | 2020 (Ampere) |
A800 | A系列中国特供版,符合出口限制 | 中国境内大模型训练 | 中国数据中心 | A800 | 2021 (Ampere) |
H系列 | 超大规模模型专用,FP8支持 | GPT级模型训练、量子计算模拟 | 超算中心/AI头部企业 | H100/H200 | 2022 (Hopper) |
H800 | H系列中国特供版,带宽优化版 | 中国境内万亿参数模型训练 | 中国超算中心 | H800 | 2022 (Hopper) |
L系列 | 可视化与推理优化,高显存带宽 | 工业仿真/医学影像处理 | 科研机构/专业工作室 | L40/L4 | 2022 (Ada) |
T系列 | 能效比优化,支持虚拟化 | 云游戏/边缘计算 | 云服务商 | T4 | 2018 (Turing) |
表2. 大模型推理显存需求(单位:GB)
参数量 | FP16 | 推荐方案 | INT8 | 推荐方案 | INT4 | 推荐方案 | INT2 | 推荐方案 |
---|---|---|---|---|---|---|---|---|
7B | 12 | RTX 4090单卡 | 8 | RTX 4080单卡 | 6 | RTX 3060单卡 | 4 | RTX 3060单卡 |
13B | 24 | RTX 4090单卡 | 16 | RTX 4090单卡 | 12 | RTX 4090单卡 | 8 | RTX 4080单卡 |
30B | 60 | A100×2 (NVLink) | 40 | L40单卡 | 24 | RTX 4090单卡 | 16 | T4单卡 |
70B | 120 | A100×2 (80GB) | 80 | L40×2 | 48 | L40单卡 | 32 | RTX 4090×2 |
110B | 200 | H100×3 | 140 | H100×2 | 72 | A10×3 | 48 | A10×2 |
表3. 大模型微调显存需求(单位:GB)
参数量 | Freeze | 推荐方案 | LoRA | 推荐方案 | QLoRA-INT8 | 推荐方案 | QLoRA-INT4 | 推荐方案 |
---|---|---|---|---|---|---|---|---|
7B | 20 | RTX 4090单卡 | 16 | RTX 4090单卡 | 10 | RTX 4080单卡 | 6 | RTX 3060单卡 |
13B | 40 | A100单卡 | 32 | A100单卡 | 20 | L40单卡 | 12 | RTX 4090单卡 |
30B | 80 | A100(80GB) | 64 | A100(80GB) | 40 | L40单卡 | 24 | RTX 4090单卡 |
70B | 200 | H100×3 | 160 | H100×2 | 80 | H100单卡 | 48 | L40单卡 |
110B | 360 | H100×5 | 240 | H100×3 | 140 | H100×2 | 72 | A10×3 |
关键注释:
-
多卡配置:标注"×N"表示需要N张同型号显卡,建议使用NVLink桥接
-
特供版差异:A800/H800相比原版带宽降低约30%,适合合规要求场景
-
精度选择:
- FP16:最高精度,适合科研验证
- INT8:平衡精度与速度,推荐生产环境
- INT4/INT2:极速推理,适合边缘设备
-
显存计算规则:
理论显存 = 参数量 × 精度字节数 × 1.2(含梯度缓存) 示例:7B模型FP16需求 = 7×10^9 × 2字节 × 1.2 ≈ 16.8GB → 表格取整为20GB