Ollama 使用指南

编程语言 2024-11-01 19:26:41 阅读次数: 0

1、简介

Ollama是一个开源的大型语言模型服务工具，它能帮助用户快速在本地运行大模型。通过简单的安装指令，用户可以执行一条命令就在本地运行开源大型语言模型，如Llama 2。Ollama极大地简化了在Docker容器内部署和管理LLM的过程，使得用户能够快速地在本地运行大型语言模型。

功能齐全：Ollama将模型权重、配置和数据捆绑到一个包中，定义成Modelfile。它优化了设置和配置细节，包括GPU使用情况，从而提高了模型运行的效率。
轻量级：Ollama的代码简洁明了，运行时占用资源少。这使得它能够在本地高效地运行，不需要大量的计算资源。此外，它还支持热加载模型文件，无需重新启动即可切换不同的模型，这使得它非常灵活多变。
易用性：Ollama提供了多种安装方式，支持Mac和Linux平台，并提供了Docker镜像。用户只需按照安装指南进行操作即可完成安装，无需具备专业的技术背景。

2、安装Ollama

Ollama 支持多平台部署，可以在官网，选择适合的平台，下载对应的安装包。

当然也可以选择在项目的 GitHub 的 Releases页面进行下载。

同时，该项目还支持 docker 一键部署，使用Docker通过 docker pull ollama/ollama命令拉取即可。可以说在部署方面，只需要有比较简单的运维基础就可以在你当下的平台中部署起来。

3、模型库

Ollama 支持在 ollama.com/library 上获取的模型列表，以下是一些可下载的示例模型：

Model	Parameters	Size	Download
Llama 3	8B	4.7GB	`ollama run llama3`
Llama 3	70B	40GB	`ollama run llama3:70b`
Mistral	7B	4.1GB	`ollama run mistral`
Dolphin Phi	2.7B	1.6GB	`ollama run dolphin-phi`
Phi-2	2.7B	1.7GB	`ollama run phi`
Neural Chat	7B	4.1GB	`ollama run neural-chat`
Starling	7B	4.1GB	`ollama run starling-lm`
Code Llama	7B	3.8GB	`ollama run codellama`
Llama 2 Uncensored	7B	3.8GB	`ollama run llama2-uncensored`
Llama 2 13B	13B	7.3GB	`ollama run llama2:13b`
Llama 2 70B	70B	39GB	`ollama run llama2:70b`
Orca Mini	3B	1.9GB	`ollama run orca-mini`
LLaVA	7B	4.5GB	`ollama run llava`
Gemma	2B	1.4GB	`ollama run gemma:2b`
Gemma	7B	4.8GB	`ollama run gemma:7b`
Solar	10.7B	6.1GB	`ollama run solar`

注意：运行 7B 模型至少需要 8 GB 的 RAM，运行 13B 模型需要 16 GB，运行 33B 模型需要 32 GB。

4、ollama的库

Ollama主要支持Python和JavaScript两种编程语言的库，分别是ollama-python和ollama-js，这两个库将会使ollama使用得更加方便和高效。

1、ollama-pytho

ollama-python库提供一个Python接口来与ollama交互，使得Python开发者可以轻松在自己的项目中集成和运行大模型，使用pip命令安装：pip install ollama-pytho

安装后，可以通过几行简单的代码来运行模型，比如：

import ollama

# 运行模型
response = ollama.run('llama3', 'hello')
print(response)

2、ollama-js

对于JavaScript开发者，ollama-js库同样提供了一个易于使用的接口。可以通过npm或yarn来安装这个库：

npm install ollama-js
# 或者
yarn add ollama-js

安装完成后，可以在Node.js项目中直接调用ollama：

const ollama = require('ollama-js');

// 运行
ollama.run('llama3','hello world!',response=>{
  console.log(response);
}

通过这些库，ollama极大简化了不同语言项目使用大模型的过程。

5、Ollama使用

5.1 模型运行

打开CMD命令终端，输入指令ollama run model_name，model_name为你要运行的模型。若是首次运行某个模型，ollama首先会下载对应的模型文件，然后运行模型。

ollama run llama3
ollama run llama3:70b
ollama run phi
ollama run qwen2
......

这里有个点需要提一下，那就是默认情况下模型存储位置，这对于管理和备份模型至关重要。

Linux：/var/lib/ollama/models
Windows：C:\Users\<用户名>\.ollama\models
macOS：/Library/Application Support/Ollama/models

可以看到Windows中默认路径在C盘，而本地部署下载的模型最小可能都有几个G，如果多下载几个模型，C盘可能就被挤爆了，因此最好在下载模型之前就更改默认存储路径，步骤如下：

右键点击“此电脑”或“计算机”，选择“属性”；
点击“高级系统设置”，在弹出的窗口中点击“环境变量”按钮；
在“系统变量”，点击“新建”来创建一个新的环境变量
输入变量名OLLAMA_MODELS和你选择的目录路径（例如D:\OllamaModels）；
设置完环境变量后，需要重启Ollama以使更改生效。为确保更改生效，建议重启电脑。

5.2 模型管理

ollama 安装之后，与模型交互就是通过命令来进行的。

ollama list：显示模型列表；
ollama show：显示模型的信息；
ollama pull：拉取模型；此命令也可以用于更新本地模型，只会拉取差异部分。
ollama push：推送模型；
ollama cp：拷贝一个模型；
ollama rm：删除一个模型；
ollama run：运行一个模型；
ollama start 启动服务；
ollama serve 在不运行桌面应用程序的情况下启动 ollama；
ollama models 查看模型列表；
ollama model details [模型名称] 获取更详细的模型信息，包括模型的描述、版本、大小等；
ollama models 查看模型列表

5.2 模型自定义

ollama不仅支持运行预构建的模型，还提供了灵活的工具来导入和自定义自己的模型，无论是从GGUF、Pytorch或Safetensors格式导入还是进行模型的个性化设置，ollama都能满足需求。

5.2.1 从GGUF导入模型

创建一个名为Modelfile的文件，并在其中指定要导入的模型路径：

FROM ./yourself-model.gguf

然后，使用下面的命令来创建模型：

ollama create yourself-model -name -f Modelfile

最后，通过运行一下命令来启动模型：

ollama run yourself-model -name

5.2.2 从PyTorch导入模型

准备PyTorch模型：确保你有PyTorch格式的模型文件。
转换模型：如果需要，使用工具将PyTorch模型转换为Ollama支持的格式。
导入模型：按照Ollama的指导，将转换后的模型导入到Ollama中。

5.2.3 从Safetensors导入模型

准备Safetensors文件：获取Safetensors格式的模型文件。
创建Modelfile：在Ollama中创建一个Modelfile，指定Safetensors文件的路径。
导入模型：使用Ollama的命令或界面功能导入Safetensors文件。

5.2.4 自定义提示

此外，还可以通过自定义提示来调整模型的行为。步骤如下：

拉取想要定制的模型

ollama pull qwen

创建Modelfile，在其中设置参数和系统消息

FROM qwen
# 设置温度参数
PARAMETER temperature 1
# 设置系统消息
SYSTEM """
你是一名教师，以教师的角度分析问题
"""

创建并运行定制模型

ollama create myself-llama3 -f Modelfile
ollama run myself-llama3

这样就能按照自己需求定制模型，满足个性化的需求。

猜你喜欢

转载自blog.csdn.net/baidu_39231810/article/details/141062353

Ollama 使用指南

Ollama命令使用指南

Ollama简介，以及中文使用指南和AMD图形显卡驱动下载

使用ollama导入模型

Ollama初步使用

Ollama 在 LangChain 中的使用

在 Python 中使用 Ollama API

通过Ollama 使用Gemma 模型

ollama 使用自己的微调模型

Ollama教程与大模型本地部署指南

图谱RAG本地Ollama安装与配置指南

ollama gemma3离线使用案例

ollama 使用自定义大模型

Ollama：一站式 AI 模型管理与交互平台，Ollama 简介，Ollama 的核心功能，Ollama 的使用场景

Ollama：本地大语言模型（LLM）部署 && 使用 Ollama 构建一个智能问答系统

Ollama+ComfyUI实现AI绘画——项目实践指南

使用 Ollama 部署本地 LLM：构建 AI REST API 的简易指南

别被 “一键部署” 骗了！使用Ollama本地部署DeepSeek 避坑指南

使用 Ollama 部署本地 LLM：构建AI REST API的简易指南

使用Ollama和Continue打造开源AI代码助手

使用Ollama+Python本地环境搭建AI大模型

使用 Ollama 本地部署 DeepSeek 模型及 Chatbox 配置

Ai学习之Ollama使用GPU运行模型的环境部署

本地ollama+deepseek模型搭建及使用（内外网环境）

ollama运行怎么使用8张A10的GPU卡

在WSL中高效使用Windows目录下的Ollama模型

sourcetree使用指南

Kubeflow使用指南

PaddlePaddle使用指南

Vagrant使用指南

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

ConfigurationClassParser类的parse方法源码解析

基础大讲堂-java 位运算符

ConsecutiveInteger判断给定的整数n能否表示成连续的m(m>1)个正整数之和

多项式问题之六——多项式快速幂

Spring Security技术栈开发企业级认证与授权（四）RESTful API服务异常处理

Linux基础命令---apachectl

MATLAB中的线性插值

Unity编辑器拓展之十七：NGUI ComponentSelector增加搜索框

SqlServer 备份还原教程

[Unity动画]01.

每日归档

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)