ollama可以轻松在本地部署大语言模型,简单方便,并且内置了丰富的大语言模型库,涵盖多种类型的模型,可以很方便的拉取模型。但是有时候想要通过ollama部署自己的大语言模型,或者从huggingface、hf-mirror以及modelscope上下载模型,就需要先将模型导入到ollama,然后进行运行。
目前从上面网站上下载的原始模型文件主要为.safetensors格式或者.gguf格式。
1、 导入.safetensors 模型或适配器
从safetensors权重导入模型,首先需要创建一个Modelfile文件,其中包含一个指向包含你的 Safetensors 权重的目录的 FROM 命令
模型目录应包含支持架构的 Safetensors 权重。
目前支持的模型架构:
- Llama(包括 Llama 2、Llama 3、Llama 3.1 和 Llama 3.2)
- Mistral(包括 Mistral 1、Mistral 2 和 Mixtral)
- Gemma(包括 Gemma 1 和 Gemma 2)
- Phi3
Modelfile内容包括:
FROM <model directory>
如下,指向.safetensors文件所在的文件夹
从 Safetensors 权重导入微调适配器

Modelfile内容包括:
FROM <base model name>
ADAPTER <path to safetensor adapter>
目前支持的 Safetensor 适配器:
- Llama(包括 Llama 2、Llama 3 和 Llama 3.1)
- Mistral(包括 Mistral 1、Mistral 2 和 Mixtral)
- Gemma(包括 Gemma 1 和 Gemma 2)
- Mistral(包括 Mistral 1、Mistral 2 和 Mixtral)
从创建 Modelfile 的目录中运行 ollama create 命令
ollama create my-model-name -f <path of model_file>
另外,可以使用ollama show --modulefile <model name>查看相同架构的模型的modelfile的写法。
2、导入 GGUF 的模型或适配器
可以通过以下方式获取 GGUF 模型或适配器:
- 使用 Llama.cpp 中的 convert_hf_to_gguf.py 脚本将 Safetensors 模型转换为 GGUF 模型;
- 使用 Llama.cpp 中的 convert_lora_to_gguf.py 脚本将 Safetensors 适配器转换为 GGUF 适配器;
- 从 HuggingFace 等地方下载模型或适配器
要导入 GGUF 模型,创建一个 Modelfile,内容包括:
FROM /path/to/file.gguf
与safetensors文件不同,这里直接指向gguf文件。
对于 GGUF 适配器,创建 Modelfile,内容如下:
FROM /path/to/file.gguf
ADAPTER /path/to/file.gguf
在导入 GGUF 适配器时,重要的是使用与创建适配器时所用的相同基础模型。
一旦你创建了 Modelfile,请使用 ollama create 命令来构建模型。
ollama create my-model-name -f <path of model_file>
3、量化模型
量化模型可以让你以更快的速度和更少的内存消耗运行模型,但精度会有所降低 。
Ollama 可以使用 -q/--quantize 标志与 ollama create 命令将基于 FP16 和 FP32 的模型量化为不同的量化级别。
首先,创建一个包含你希望量化的 FP16 或 FP32 基础模型的 Modelfile。
FROM /path/to/model
使用 ollama create 来创建量化模型。
ollama create --quantize q4_K_M mymodel
支持的量化方式
- q4_0
- q4_1
- q5_0
- q5_1
- q8_0
- q3_K_S
- q3_K_M
- q3_K_L
- q4_K_S
- q4_K_M
- q5_K_S
- q5_K_M
- q6_K
4、llama.cpp的下载和安装
llama.cpp 是一个开源项目,它提供了一种简单而高效的方法来进行模型的量化,同时还能进行模型格式的转换。对于safetensors格式的模型,有些模型ollama无法导入(如 deepseek的模型),因此需要使用llama.cpp来进行格式的转换。使用方式如下:
(1)llama.cpp下载
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
(2)安装python库
pip install -r requirements.txt
(3)将 safetensors 转换为 gguf 格式
python convert_hf_to_gguf.py <model path> --outtype f16
--outtype后面跟量化类型,使用f16或者f32表示不进行量化。
以上便是使用ollama导入模型的方法。