最近有幸拿到了一台配备双卡 NVIDIA GeForce RTX 5090 显卡的工作站PC,这无疑是许多追求极致性能的开发者梦想装备。不过,新硬件的到来往往伴随着一些挑战,尤其是在软件适配和性能表现方面。
通过销售渠道了解到,目前国内市场上暂时还没有涡轮散热版的 RTX 5090,我们拿到的是风扇版。这意味着在多卡配置时需要特别注意散热和空间。
在本文中,我们将分享在 Ubuntu 系统下配置这台双卡 5090 机器进行 AI 推理的实践过程,重点探讨大家可能关心的几个问题:用什么推理框架?性能如何?是否存在传闻中的性能限制? 这也是一次深度的体验和实测。
一、 测试平台概览
首先,简单介绍一下我们的测试平台配置:
- CPU: Intel Core i9-14900K
- 散热器: 雅浚 EA5SE360 水冷
- 主板: 华硕 PRO WS W680-ACE 工作站主板
- 内存: 海盗船 DDR5 5200 32GB * 2
- 固态硬盘: 金士顿 NV3 2TB PCIe 4.0 M.2
- 电源: 长城 2200W 金牌认证电源
- 机箱: 定制 10 槽位 金河田 9125B
- 显卡: NVIDIA GeForce RTX 5090 * 2 (风扇版)
系统环境:
- 操作系统: Ubuntu 22.04
- NVIDIA 驱动: 570.133.07
- CUDA 版本: 12.8
nvidia-smi 确认两张 RTX 5090 均被正确识别,CUDA 12.8 环境就绪。
二、 AI 推理框架的选择:Ollama、SGLang 还是 vLLM?
拿到新卡,自然要跑一下 AI 模型。但面对新硬件,推理框架的选择至关重要。哪个框架能无缝衔接,哪个又需要我们“动手”解决兼容性问题呢?
2.1 Ollama:开箱即用,配置简单
好消息是,Ollama 已经支持使用 RTX 5090 进行推理。配置过程非常简单,对于想快速上手体验的用户来说是首选。