Ollama 是一个用于管理和运行大语言模型的框架,默认情况下,模型在生成响应后会在内存中保留 5 分钟。这一设计旨在提高响应速度,尤其是在多次请求的情况下。然而,用户可能希望根据需求调整这一行为,以便更好地管理内存使用。
保持模型在内存中的方法
要保持模型在内存中,Ollama 提供了一个名为 keep_alive
的参数。用户可以通过 API 请求来设置该参数,以控制模型在内存中的保留时间。以下是可用的设置选项:
- 持续时间字符串:例如
"10m"
(10分钟)或"24h"
(24小时)。 - 秒数:例如
3600
(1小时)。 - 负数:例如
-1
或"-1m"
,这将使模型无限期地保留在内存中。 - 零:设置为
0
将使模型在生成响应后立即卸载。
示例命令
要预加载模型并使其