Ollama 如何让模型保持在内存或卸载

Ollama 默认情况下,模型会在内存中保存 5 分钟,然后才会卸载。如果您向 LLM 发出大量请求,这可以缩短响应时间。但是,您可能希望在 5 分钟过去之前释放内存,或者无限期地加载模型。使用参数keep_alive/api/generateAPI/api/chat端点来控制模型在内存中保留的时间。
keep_alive参数可以设置为:

  • 持续时间字符串(例如“10m”或“24h”)
  • 秒数(例如 3600)
  • 任何负数都会使模型保持在内存中(例如 -1 或“-1m”)
  • “0”将在生成响应后立即卸载模型
    例如,要预加载模型并将其保留在内存中,请使用:
curl http://localhost:11434/api/generate -d '{"model": "llama2", "keep_alive": -1}'
 

要卸载模型并释放内存使用:

curl http://localhost:11434/api/generate -d '{"model": "llama2", "keep_alive": 0}'

猜你喜欢

转载自blog.csdn.net/canduecho/article/details/140647634