【大模型部署实战】Ollama如何保持模型常驻内存，或者显存，如何立刻释放

企业开发 2025-04-08 09:14

0 阅读

Ollama 是一个用于管理和运行大语言模型的框架，默认情况下，模型在生成响应后会在内存中保留 5 分钟。这一设计旨在提高响应速度，尤其是在多次请求的情况下。然而，用户可能希望根据需求调整这一行为，以便更好地管理内存使用。

保持模型在内存中的方法

要保持模型在内存中，Ollama 提供了一个名为 keep_alive 的参数。用户可以通过 API 请求来设置该参数，以控制模型在内存中的保留时间。以下是可用的设置选项：

持续时间字符串：例如 "10m"（10分钟）或 "24h"（24小时）。
秒数：例如 3600（1小时）。
负数：例如 -1 或 "-1m"，这将使模型无限期地保留在内存中。
零：设置为 0 将使模型在生成响应后立即卸载。

示例命令

要预加载模型并使其