Ollama 如何让模型保持在内存或卸载

Ollama 默认情况下，模型会在内存中保存 5 分钟，然后才会卸载。如果您向 LLM 发出大量请求，这可以缩短响应时间。但是，您可能希望在 5 分钟过去之前释放内存，或者无限期地加载模型。使用参数keep_alive和/api/generateAPI/api/chat端点来控制模型在内存中保留的时间。
该keep_alive参数可以设置为：

持续时间字符串（例如“10m”或“24h”）
秒数（例如 3600）
任何负数都会使模型保持在内存中（例如 -1 或“-1m”）
“0”将在生成响应后立即卸载模型
例如，要预加载模型并将其保留在内存中，请使用：

curl http://localhost:11434/api/generate -d '{"model": "llama2", "keep_alive": -1}'

要卸载模型并释放内存使用：

curl http://localhost:11434/api/generate -d '{"model": "llama2", "keep_alive": 0}'

猜你喜欢

目录

热门文章