【大模型部署实战】Ollama如何保持模型常驻内存,或者显存,如何立刻释放

Ollama 是一个用于管理和运行大语言模型的框架,默认情况下,模型在生成响应后会在内存中保留 5 分钟。这一设计旨在提高响应速度,尤其是在多次请求的情况下。然而,用户可能希望根据需求调整这一行为,以便更好地管理内存使用。

保持模型在内存中的方法

要保持模型在内存中,Ollama 提供了一个名为 keep_alive 的参数。用户可以通过 API 请求来设置该参数,以控制模型在内存中的保留时间。以下是可用的设置选项:

  • 持续时间字符串:例如 "10m"(10分钟)或 "24h"(24小时)。
  • 秒数:例如 3600(1小时)。
  • 负数:例如 -1"-1m",这将使模型无限期地保留在内存中。
  • :设置为 0 将使模型在生成响应后立即卸载。

示例命令

要预加载模型并使其