【LLM】大模型推理、微调显卡挑选一览表

表1. NVIDIA显卡系列特性对比

系列 核心特征 应用场景 典型用户 代表型号 发布时间
RTX 消费级显卡,支持光线追踪,适合游戏/轻量AI 游戏开发、3D渲染、轻量级AI推理 游戏玩家/AI入门开发者 RTX 4090/3090 2018 (Turing)
A系列 数据中心级,高精度计算能力 大规模模型训练、科学计算 AI实验室/云计算中心 A100/A10 2020 (Ampere)
A800 A系列中国特供版,符合出口限制 中国境内大模型训练 中国数据中心 A800 2021 (Ampere)
H系列 超大规模模型专用,FP8支持 GPT级模型训练、量子计算模拟 超算中心/AI头部企业 H100/H200 2022 (Hopper)
H800 H系列中国特供版,带宽优化版 中国境内万亿参数模型训练 中国超算中心 H800 2022 (Hopper)
L系列 可视化与推理优化,高显存带宽 工业仿真/医学影像处理 科研机构/专业工作室 L40/L4 2022 (Ada)
T系列 能效比优化,支持虚拟化 云游戏/边缘计算 云服务商 T4 2018 (Turing)

表2. 大模型推理显存需求(单位:GB)

参数量 FP16 推荐方案 INT8 推荐方案 INT4 推荐方案 INT2 推荐方案
7B 12 RTX 4090单卡 8 RTX 4080单卡 6 RTX 3060单卡 4 RTX 3060单卡
13B 24 RTX 4090单卡 16 RTX 4090单卡 12 RTX 4090单卡 8 RTX 4080单卡
30B 60 A100×2 (NVLink) 40 L40单卡 24 RTX 4090单卡 16 T4单卡
70B 120 A100×2 (80GB) 80 L40×2 48 L40单卡 32 RTX 4090×2
110B 200 H100×3 140 H100×2 72 A10×3 48 A10×2

表3. 大模型微调显存需求(单位:GB)

参数量 Freeze 推荐方案 LoRA 推荐方案 QLoRA-INT8 推荐方案 QLoRA-INT4 推荐方案
7B 20 RTX 4090单卡 16 RTX 4090单卡 10 RTX 4080单卡 6 RTX 3060单卡
13B 40 A100单卡 32 A100单卡 20 L40单卡 12 RTX 4090单卡
30B 80 A100(80GB) 64 A100(80GB) 40 L40单卡 24 RTX 4090单卡
70B 200 H100×3 160 H100×2 80 H100单卡 48 L40单卡
110B 360 H100×5 240 H100×3 140 H100×2 72 A10×3

关键注释:

  1. 多卡配置:标注"×N"表示需要N张同型号显卡,建议使用NVLink桥接

  2. 特供版差异:A800/H800相比原版带宽降低约30%,适合合规要求场景

  3. 精度选择

    • FP16:最高精度,适合科研验证
    • INT8:平衡精度与速度,推荐生产环境
    • INT4/INT2:极速推理,适合边缘设备
  4. 显存计算规则

    理论显存 = 参数量 × 精度字节数 × 1.2(含梯度缓存)
    示例:7B模型FP16需求 = 7×10^9 × 2字节 × 1.2 ≈ 16.8GB → 表格取整为20GB