AI角色扮演游戏框架SillyTavern（酒馆）的本地与云服务器搭建

简介：本文介绍SillyTavern（酒馆）角色扮演游戏的玩法。并考虑到AI模型服务商API的不稳定性，以及功能限制，本文演示基于本地系统与基于云服务器的AI模型搭建，为SillyTavern的使用提供API接口。文中将介绍SillyTavern的搭建即其原理；介绍AI模型框架，AI模型，并分析优劣与问题，同时推荐相应模型；介绍云服务器的选择并根据需求分析各云服务商和云服务器，以便读者选择；分别在Linux和Windows环境下搭建模型；介绍如何穿透没有购买公网的云服务器并通过转发API配置SillyTavern框架；

考虑到CSDN必须要登录才能阅读或复制全文，对很多读者颇为不便，这里贴出全文doc文档以供下载。这是本人服务器，访问即可下载全文。

特别通知:经过测评,通过自己搭建的服务器来跑模型,无论质量还是价格,都明显低于网络API.仅做玩票性质,并不实用,性价比甚至仅为网络API的十分之一.

另外如果租用云服务商的显卡,建议事先看好是否提供退款服务,或少量充值,以防后悔.例如AutoDL就不提供退款服务.

一、SillyTavern的搭建与原理

1. SillyTavern的介绍

SillyTavern为许多LLM API（KoboldAI/CPP、Horde、NovelAI、Ooba、Tabby、OpenAI、OpenRouter、Claude、Mistral等）提供了一个单一的统一界面，适合移动设备的布局，视觉小说模式，Automatic1111和ComfyUI API图像生成集成，TTS，WorldInfo（传说书），可定制的用户界面，自动翻译，比你想要或需要的更多的提示选项，以及通过第三方扩展带来的无尽增长潜力。

SillyTavern（或简称 ST）是一个本地安装的用户界面，允许您与文本生成 LLM、图像生成引擎和 TTS 语音模型进行交互。

-----来自官方的解释

不过能点开看到这里想必对这类软件已经有了了解，所以就不多解释了。我们直接进入正题。

2. SillyTavern的下载与安装

这是SillyTavern的文档网站https://docs.sillytavern.app/https://docs.sillytavern.app/https://docs.sillytavern.app/https://docs.sillytavern.app/https://docs.sillytavern.app/https://docs.sillytavern.app/https://docs.sillytavern.app/https://docs.sillytavern.app/https://docs.sillytavern.app/https://docs.sillytavern.app/https://docs.sillytavern.app/https://docs.sillytavern.app/https://docs.sillytavern.app/https://docs.sillytavern.app/https://docs.sillytavern.app/

网上的安装教程很多都是AI写的，所以我们直接跟着GitHub的安装流程走就好了。

如果对GitHub不熟悉的读者，可以阅读这篇文章，云API也可以参考他。

WINNAS轻松搭：SillyTavern（酒馆）从入门到精通 - 梦雨玲音

不过我想能用CSDN的用户，大都知道怎么食用GitHub吧？

3. SillyTavern的玩法介绍及其原理

考虑到能阅读CSDN的读者，大部分都是计算机相关的人士。咱们都是理工科的，没必要整那些虚的。所以就直接上这游戏的原理。

等看一遍这游戏的原理，以及角色卡、世界书（mod）的编写。一眼就能看明白这游戏怎么玩，马上就能入手了。

考虑到网上已经有这类视频很好的讲解，没必要听我在这里叭叭，所以我们直接放视频链接。

sillytarven/酒馆创建角色卡基础0_哔哩哔哩_bilibili

sillytarven/酒馆创建角色卡基础1 世界书和状态栏_哔哩哔哩_bilibili

sillytarven/酒馆创建角色卡平然/常识修改_哔哩哔哩_bilibili

这个是安卓手机上的操作。

酒馆使用简单教程_哔哩哔哩_bilibili

考虑到新人可能一时间找不到资源，下面我们再补充一些卡包，这些是我从群里找到的，链接是群里提供的，你们看情况下载就好。

4. SillyTavern的原理及相关社区

qq上搜一下群，或者贴吧。

不过目前由于某些原因，现在类脑和拟人现在关闭了新人入群的渠道，等后面应该会开放。（写文时是2025/2/6）

考虑到一些问题链接都删了。

如果不知道Discord的话，就自己搜一下相关信息，这里不好讲太细。

5. SillyTavern在Linux云服务器上搭建

考虑到本地每次都要点开很麻烦，还好那些服务器云商有新客优惠，比我我这台一年29还是39忘了。似乎是在华为云？反正这些云商现在已经被我薅了个遍。你们挨个看看哪个便宜就行。

另外，不要买大陆的服！不然下载的时候会遇到各种麻烦。推荐港区。

如果实在不想掏这钱的话，就走内网穿透吧。家里找个不要的电脑把SillyTavern跑起来，然后用软件内网穿透。注意Windows要开防火墙。Linux...Linux下面我们会讲。

我用的是debian 11，你们最好买ubuntu22.04以上，垃圾debian 11，apt的nodejs是v12，等会安装会比较麻烦。

总之你们直接从官网git clone。

如果不慎租了大陆的服，那就像我一样，直接给他压缩包下载下来。

下载下来之后，不管你们是用winscp也好，还是其他什么也好，总之上传上去。

输入unzip文件名，直接解压。

然后可以看到这些。

直接./start.sh运行。

它会自动安装nodejs和npm之类的环境（大陆的服的话，就多试几次，可能就ok了）

你用apt安装如果版本低的话，比如我这儿是12版，那就不行。看要求至少要22版的。

我试过从官网上把nodejs考下来（大陆服就下不下来，我是从本地下载的二进制文件，然后本地上传上去的），whereis查一下，然后挨个放进/usr里。但是nodejs不认。

所以只能让它慢慢下了。

总之你运行通过后，

会给出这个页面。

然后你ctrl+c，终止之后，改配置文件。

vim config.yaml

改成我这样的就行。

我用户名和密码是默认的，懒得改了，你要改的话要加双引号！！！

例如

username: "woc"

password: "azhe"

改完之后，运行，输入账号密码，上去看看管不管使。（默认用户名和密码就是user password）

管使了，我们

终止之后。

nohub bash start.sh &

给它调到后台运行，然后就可以exit了。

ps.另外有个怪事，我试图

ctrl+z，给这进程先暂停调到后台。

然后

bg jobspec %1

disown -h %1

先让它在后台运行起来，然后再让它从终端里面滚蛋，挂靠到系统上。

用jobs可以看到它不在jobs里了。

不关终端还能跑，但是一关终端，服务就宕机了，没搞清楚是怎么一回事，等日后有时间了研究一下。不过这套玩意太拉胯了，你们要用的话，建议还是用tmux吧。。。

二、AI模型框架和AI模型的选择与本地搭建与云服务器的选择

1. AI模型常识与推荐

原本我想仔细写写，但是想了想还是算了，直接放个看过的文章。这比我再嚼一遍喂给读者会保留更多原有信息。

【极简+全面+网盘】windows快速部署角色扮演大模型 - 哔哩哔哩

角色扮演大模型的选用建议 - 哔哩哔哩

具体我也不好写太细，后面你跟着这些模型慢慢找相关信息就ok了。

~~这是我的这几天搜索的比较有趣的模型（很多我也没试过，想玩玩的可以试一下）~~

https://huggingface.co/cgxjdzz/Qwen-2.5-7B-Instruct-novel-lora
saiga_nemo_12b

https://huggingface.co/mradermacher/Dans-PersonalityEngine-V1.1.0-12b-GGUF/tree/main
Cydonia-v1.3-Magnum-v4-22B

~~本地大模型推荐~~

~~magnum-32b和magnum-72b v2~~

~~注意推荐v2版本，v4版本则是想象力丰富但智商降低~~

~~这个系列模型基于阿里巴巴的qwen，中文很不错~~

~~是比较万金油的模型，非常适合404~~

~~vathene-v1.2.i1-IQ4_XS~~

~~turbcat-instruct-72b~~

中文不错，更拟人的模型，适合扮演具体的，性格鲜明的角色进行对话，但不适合系统类，世界类等npc较多，逻辑需求交给的场景，也不是很擅长写旁白剧情

~~hf-mirror.com/Sao10K/72B-Qwen2.5-Kunou-v1~~

~~hf-mirror.com/sophosympatheia/Evathene-v1.3~~

hf-mirror.com/blockblockblock/turbcat-instruct-72b-bpw4.6-exl2
据说中文任务量和英文一样多。

hf-mirror.com/Doctor-Shotgun/L3.3-70B-Magnum-v4-SE
据说角色扮演优化。

~~hf-mirror.com/Sao10K/L3.3-70B-Euryale-v2.3~~

hf-mirror.com/mistralai/Mistral-Nemo-Instruct-2407
网上说12b可当70b使，我不太信。

~~hf-mirror.com/MarinaraSpaghetti/NemoMix-Unleashed-12B~~

https://hf-mirror.com/ValueFX9507/Tifa-Deepsex-14b-CoT-GGUF-Q4
国产cosplay小模型，日后可以试试。

https://hf-mirror.com/Tifa-RP/Tifa-7B-Qwen2-v0.1-GGUF
国产小模型

最近找到了专门讨论AI模型的社区，社区中有大佬对市面上的模型进行测评，比我一小白详细的多了。

下面我就直接放大佬的测评链接。

（已删除）

再后面教程中我推荐的模型不必理会，那都是几天前的我，几天前的我还是个菜。

3. 两种AI模型框架ollama与lm studio的比较

ollama下载模型方便一点，直接换镜像网址就ok了。ollama对Linux的支持非常好，没有图形界面也能用。例如你从云服务器哪儿租了个显卡，而对方只提供给你个终端CLI，至少你不用倒腾装图形界面vnc之类的东西。

lm studio的话，你要替换文件，比较麻烦，或者你到huggingface上下载下来模型，然后本地导入进去。对Linux的服务器非常不友好，因为这玩意的运行必须要有图形界面。大多数云服务商不提供，你要手动安装图形界面，然后用vnc连过去。

后面这两种我都会介绍到，你们看需求选用就好。

4. huggingface的介绍与镜像

官网是huggingface.co

简单来将，你可以把他当一个模型共享网站就行，想要什么模型，有人共享出来，你就能下载下来跑。当然官网在国外，考虑到下载速度，一般我们用国内的镜像站HF-Mirror。

简单来说，如果有人分享模型，你直接在上面搜名字就好。

点进去就能看到模型简介。

这儿可以找到他发布的相关模型。

这儿可以找到量化对应的模型，相信看了前面链接里的教程，你应该知道量化是啥。（如果提供的话）

点击之后，例如点击Q4_K_M进去之后，可以直接把模型下载到本地（看到那个Download没？

gguf是指gguf格式。

你也可以中这里下载。

如果直接下载的话，我推荐用IDM，至少下载的快一点。

5. ollama搭建与运行模型

访问ollama的官网，直接下载，安装就行。

Ollama

ollama的安装和下载非常傻瓜化，windows上就是下载之后，下一部下一步，Linux就是执行他提供的那条命令就行。

如果实在看不懂的话，可以看他的文档。

【极简+全面+网盘】windows快速部署角色扮演大模型 - 哔哩哔哩

安装完之后，打开cmd，直接输入ollama，如果出现提示就说明安装成功了。

如果提示没有运行，你就输入 ollama serve 运行就行了。

用ollama下载模型的话，你首先知道要下载的模型叫什么。

ollama推荐了一些常见的模型（不过那些模型不适合我们玩），所以，你拿到别人推荐的模型名后。到huggingface的官网上，查他的名字。

例如别人推荐了个叫Dans-PersonalityEngine-V1.1.0-12b-GGUF的模型。

你查到之后点进去。

可以看看他的介绍（如果想看的话）

然后直接复制这些

再看下面的量化参数，选一个你想要的参数，例如我打算下个最小的IQ2_S

然后就在cmd里写，注意IQ2_S前面要用冒号。当然如果不带参数的话就会下载推荐的默认模型。

有时候模型没有给你提供量化的选择，你就直接写网站，下载默认的就行。

如果成功的话，你可以看到他正在下载。

下载完成后，输入ollama list可以查看下载到本地的模型。（我就不下了，占空间）

可以看到我这儿下载了两个模型，一个llama3.2一个就是之前说的那个。

你想运行的话，就输入ollama run [模型名]就好

退出的话，就输入/bye就行。

当然这只是退出对话，你想终止模型运行的话，就输入ollama stop，如果不知道运行有哪些模型的话，就ollama ps查看，删除模型的话就ollama rm。

（之前卡了一下删除命令没有截到，不过看看就好）

如果你忘了这些命令的话，直接输入ollama执行就能查看有什么命令。

上面几个就是最常用的。

至于模型下载路径，这里懒得演示了，直接扔别人写好的文档

【deepseek-r1】ollama如何更改安装位置以及自定义模型下载位置-CSDN博客

至于Linux用户，应该有自己查找资料的能力，我就不画蛇添足了。

ollama模型运行之后，本地会默认生成一个api，就是127.0.0.1:11434。

你在浏览器访问可以看到

不论你有没有运行AI模型，只要框架跑起来，都可以看到这个。

6. Im studio搭建与运行模型

至于lm studio就更简单了，

LM Studio - Discover, download, and run local LLMs

官方进去之后，选择安装包，然后下一步下一步就行，下载完之后都是图形界面。

进去之后，你会发现模型找不到，不用担心，这是国区特色。

设置起来比较麻烦，我们直接在网页下载之后导入即可。

之前有讲过如何从huggingface即其镜像网站上下载，这里我们就简单演示一下如何导入模型并运行。

确定已经安装完了lm studio之后，我们还是打开控制台。

然后输入lms，这玩意是lm studio自带的命令行工具。

然后，我们输入lms import 模型就ok。

它会问你是否继续，你回答y就行。

然后用上下左右选，选第二个就行。

懒得解释了，直接截图翻译。

第二个选择好后，剩下的回车就行。

会告诉你已经移动成功了。

然后进去之后，我们就可以在这里看到模型。

然后我们点坐上角第二个那个绿色的块块，进入这个界面。

可以按照上图方式运行模型，

考虑到我是用笔记本跑的，性能比较渣，就不用大模型演示了。框架和模型无所谓先后，你也可以先把模型跑起来，再运行LM框架。

然后就要配置模型的运行。一般来说默认就行，重点是上下文，就是2048那个，你要是跑角色扮演的游戏的话，就把那个调高点。（当然我这个是小模型，最高有效就只能2048，建议你那至少调8192）。剩下的选项你要想了解，鼠标移过去，然后会弹出英文，你用翻译软件慢慢翻译就ok。

最后点load model就能运行模型了。

然后把框架也跑起来。跑起来之后，它会给你个ip地址和端口，这个是本地的（你可以用frp之类的软件映射到外网什么的），这个就是API了。

你把模型跑起来之后，可以直接进去聊天，选中你运行起来的模型就行。我跑的是小模型，不支持这个，只是演示一下（笔记本电脑太渣，跑不了27b的）这个至少要rx580 8g显存+32g内存才能勉勉强强跑起来，大概1秒2-3个字符。

7. SillyTavern接入本地API

不论是ollama还是lm studio，把AI模型跑起来之后。拿到API（就是那个IP地址和端口）

ollama默认的是127.0.0.1:14434

lm studio默认的是127.0.0.1:1234

拿到这个之后，之前SillyTavern安装好后，会弹出页面，点那个插头图标。（如果之前关掉了的话，还是运行start.bat就能重新打开）

然后会让你选API，（聊天补全就是一个字一个字蹦，文本补全就是等AI写完了一下再直接全部显示），自定义兼容openai就行。

自定义那个你就按他的提示把你的127.0.0.1:端口，按它的格式填进去，剩下的都不用管。

然后点击链接，我推荐先切到文本补全的选项，因为他的连接可以测试。

你填好之后，直接点连接就可以测试有没有连上。

如果连上的话是绿色，红色就是没有连上或出问题。

连上之后，可以发点对话测试一下。

连不上的话...慢慢排查问题吧。>_< 我折腾这些也花了两天两夜。

三、云服务器模型的搭建

1. 各个云服务商的性价比与常用功能对比

目前经过我的测试，找到以下几个性价比比较高的，

矩池云：他的4090*24g 200g数据盘 2.8元好处是硬盘较大，一般70b的模型，文件大概一百多g。且数据盘可以叠加，例如你租两份，硬盘大小也扩大两倍，但400g也没这必要。还有个好处就是自带十来个http映射，你不需要再搭穿透了（当然服务商官方的穿透有点危，你待确定你模型跑出来的数据合不合适。）。坏处就是价格贵，而且没有无卡启动低配下文件的功能（例如autodl，可以用1毛1小时的价格，先下文件下一天）

恒源云：他的4090*24g 50g硬盘 1.6元（似乎目前在搞活动），价格便宜，是目前见过最便宜的，但是无卡启动需要lv2，大概待冲1000，相当于没有。而且硬盘只有50，扩容到200的话一天1.44元，150的话一天1.16。硬盘不用释放时间，15天。

autodl：他的4090*24g 50g硬盘 1.88元，价格也还便宜。硬盘+150g，1天1块。可以无卡启动，1小时1毛钱，这是最大的优点。硬盘不用，释放时间15天。

算力云：他的4090*24g 200g硬盘 2.24，价格偏贵，但好处是硬盘大，至少130b q4的模型，不需要硬盘扩容了。缺点是网络不好，而且不能无卡启动。最大的好处是提供windows系统，至少对小白来说配起来比linux简单不少。硬盘不用，释放时间7天。

以上云服务商，你在百度上搜一下就能找到，

2. 在Windows上搭建模型，并穿透（基于lm studio）

windows上搭建，前面已经讲过了，远程用起来，也无非是用电脑上的远程桌面连接去连那个服务器。这个实在太基础了，都不知道怎么讲。

连接之后，在远程桌面上安装lm studio，这个和本地安装一模一样。（你们可以在本地先安装之后，跑个小点的模型测试一下，把问题全打通，再上服务器。）

之后再安装一个穿透软件，我这里用的是Cpolar，免费且好用，最近打算买个会员也算支持一下。（之前我有提到过要要用http隧道，后来发现tcp也是可以用的，所以这里纠正一下。并且cpolar不好用，推荐用户可以再找找其他frp，现在我在用以前用过的sakura，之前也用过一个openfrp，现在想想也是可以的。）

当然也可以选择通过官方提供的穿透方法穿透，不过考虑到数据的敏感性，所以我选择的方案是第三方工具。

在cpolar注册一个账号，然后在服务器下载安装包并解压安装。

运行之后，会弹出一个网页，输入账号密码登录即可。

填写好后创建隧道。

这个就是API了，像本地那样，填写进游戏的API框框中，就能访问测试。

3. 在Linux上搭建模型，并穿透（基于ollama）

我的linux服务器是租的AutoDl。

有以下两个原因，第一是因为我要跑的模型叫做anthracite-org/magnum-v4-123b-gguf，在4q量化下，有73.2g，所以我扩容25g后，1天0.14，一个月4.2。这个价格我能承受。而恒源云一个月则要8.7。

而autodl上有个显卡叫vGPU-32GB，一台1.58，租四台的话，6.32，这比5台4090便宜不少。

不说价格了，我们继续。

如果你是在autodl上买的话，购买之后，首先关机，然后以无卡模式开机，这种方式可以调试代码，下载软件，一个小时只要一毛钱。

开机之后，用jupyterlab工具进入，进入之后，双击终端进入一个终端。

大概这个样子。

云商的服务器，各种容量参数什么的不好直接用df -h，free -m ，top之类的命令查看。

硬盘占用什么的，你点进他的链接，会告诉你怎么查。而htop的话，你直接上实时监控上看就ok。

安装ollama在Linux也很简单，直接访问ollama官网，

然后复制 curl -fsSL https://ollama.com/install.sh | sh 这一条

复制之后执行，他就会自动安装下载。

如果出现网络错误的话，可能是运气不好。

source /etc/network_turbo # 科学加速

unset http_proxy && unset https_proxy # 取消科学加速

这两条命令大概可以解决问题，当然你也可以重新执行一遍ollama官网的下载，没准第二次就装上了。

装上之后，运行ollama serve，可以看到跑起来了，说明没问题。

我们先ctrl+c给他终止了。

export OLLAMA_HOST="0.0.0.0:11434"

export OLLAMA_MODELS=/root/autodl-tmp/models

# 可以写进.bashrc里，省的每次执行都要重新输入。写最后面就行了。

执行这两条命令，前者的设定使ollama接受外界访问，后者给模型下载路径改成数据盘。

注意这两条一定要执行的，（ollama serve开之前都要先执行，不然你list都找不到文件），不然你后面穿透的话，会报403错误，我一开始以为是穿透工具不行，后面才发现是因为ollama给拒了。这玩意折磨了我两天，害得我想方设法的在linux装图形界面和vnc来运行lm studio。而垃圾云服务商提供的图形界面安装教程存在bug，根本没法用。

注意，网上写的把这些玩意改拿什么配置文件，屁用没有，你一定要直接改环境才行。改.bashrc都比改那狗屎配置文件靠谱。

另外你执行的命令，只在你当前的终端管用。且个终端就要重新执行这两条命令，毕竟那是另外的bash了。

执行完之后，我们再输入 ollama serve 启动ollama。

注意启动之后，运行信息会占用界面，我们直接点加号再开个终端就行，这个不用管，后面还能在上面看日志信息。或者你给他调到后台执行，不过没必要。

然后直接ollama拉镜像，我推荐玩st就用magnum-v4这个模型，123b q4km的那个要73.2g，72b q4的47g，而q5的54.5g。

但是这些模型主要语料还是英文，如果你们有什么好的中文语料训练的模型，可以推荐给我。

然后执行，

ollama pull hf-mirror.com/anthracite-org/magnum-v4-72b-gguf:Q4_K_M

这个至少要48g显存，例如2块4090。

ollama pull hf-mirror.com/anthracite-org/magnum-v4-123b-gguf:Q4_K_M

# 其实这个跑不了，因为ollama不支持分片gguf拉取。后面我们会讲一下怎么把这些片片合并。

这个至少要90g显存75g硬盘，例如4块4090。

下载之后，直接 ollama run 就行了。

如果运行成功的话，会提示你输入信息，你可以测试几下，然后我们就可以继续下一步了。

现在先输入 /bye 给他关掉。

注意，虽然你和他bye了，但其实AI还在后台运行。运行ollama ps就可以看到，然后你也可以ollama stop终止。但我们这里不用终止。

安装一个穿透软件，这里推荐Cpolar。

你进他的官网注册一下。

Cpolar快速入门教程：Ubuntu系列 - cpolar 极点云官网

然后阅读他的文档下载一下就行，其实就只需要执行一行。

curl -L https://www.cpolar.com/static/downloads/install-release-cpolar.sh | sudo bash

执行完就安装上了。

运行 cpolar 会弹出命令帮助。

登录进穿透软件，会看到这个

你在终端执行我选中的部分就行了。

然后执行

cpolar http 11434

可以看到，他给我们映射了一个地址，我们双击点开就可以看到已经能在远程访问到了。

我们多刷新几次页面。

可以看到不论是穿透工具，还是ollama都记录上了我们的访问请求。

其实此时这个网址，就是我们游戏中需要的api接口。

这时候我们直接拿这个网址，输入到游戏的的接口处就OK了。

此时发消息，可以收到回复。

4. 有分片的模型合并以及导入本地模型

（如果你是从云商租的服务器，注意，本地导入模型一定要看磁盘空间的容量，保障你的磁盘空间是模型大小的两倍以上，例如模型是72g，你的剩余空间一定要是144g，最好200g，留有一定余量。因为导入模型的时候，它不会自动给那些分片删了。导入完成后，事后你可以缩容。autodl是只扣一天几毛钱。）

之前忘了说了，这里补上。

现在很多较大的模型，大于50g的模型，很多使用分片的方法，这种方式便于网络不好的环境下，下载使用。（毕竟100g的模型，下到50g突然网络中断，那岂不是亏死）

例如之前我下载的123b模型，在q4下就分成了三个片。

我们用ollama直接拉这样的模型，是不被支持的（至少我写这篇文档的时候是这样的）

拉的时候它会报错，告诉我们，ollama不支持什么的。

这个时候我们只有点到上图的页面手动下载，Windows上你直接下载就行了。Linux上，你可以复制链接，用wget在服务器下载，也可以直接下载，然后用winscp之类的工具上传上去。这些都是常识，就不细讲了。

总之，例如上面的模型，下载完之后，你可以看到

anthracite-core_magnum-v4-123b-Q4_K_M-00001-of-00003.gguf

anthracite-core_magnum-v4-123b-Q4_K_M-00002-of-00003.gguf

anthracite-core_magnum-v4-123b-Q4_K_M-00003-of-00003.gguf

这样的文件，中间有个000x-of-000x的编号。

下面我们进这里，下载llama的压缩包，里面包含一系列工具，可以评测调整模型什么的，这些感兴趣的可以慢慢了解。

GitHub - ggerganov/llama.cpp：C/C++ 中的 LLM 推理

我们把他下载下来并解压，可以看到里面有一系列文件。

我们把那些带编号的一堆文件丢进这个目录，然后以以下命令参数运行。

（下面这个例子是我的模型，你要下载你喜欢的模型，就按你喜欢的模型名字填，呃，这个应该不用我解释吧。）

./llama-gguf-split --merge anthracite-core_magnum-v4-123b-Q4_K_M-00001-of-00003.gguf anthracite-core_magnum-v4-123b-Q4_K_M.gguf

其中他要求的文件名，你就写第一个文件的文件名就行。第二个文件就是输出出来的文件，为保证可读性，建议只需要把分片的名字去了就行，比如上例那个去了-00001-of-00003。

导出之后，我们可以看到目录中生成了anthracite-core_magnum-v4-123b-Q4_K_M.gguf文件。

但那些分片的文件还在，并占用着大量空间，你自己手动删了就行（上图是我删了之后，只剩下anthracite-core_magnum-v4-123b-Q4_K_M.gguf）

如果是lm studio的话直接按之前讲过的方法导入就行。但ollama好像还没讲如何导入。

这里就说明一下。

首先你随便创建个目录，把模型放进去，然后写个文件，名字叫Modelfile，

然后写下这么一行内容，如果不行的话用绝对路径。

FROM ./模型名字

其实这里还可以写一些参数，来对模型进行配置，但这个有机会了，你们可以慢慢研究（或者等我更新填坑。）这里我们先跑通再说。

然后执行命令

ollama create <模型名称> -f ./Modelfile

其实就是读取之前写的Modelfile，根据你写的内容进行导入。

不出意外，如果模型比较大的话，这需要很长时间。

你可以新开一个终端输入source ~/.bashrc，通过磁盘空间的占用，来判断这模型导入到哪一步了。（如果你租的是autodl的话，其他的云商应该也提供相应的命令，去文档里找找吧。

导入成功后，你输入ollama list即可看见模型，run就行了（如果你是autodl的话，看看爆内存是不是在无卡模式运行）。

四、详细配置与模型微调

目前正在用绅士小说训练模型，等我炼完了丹，如果效果好的话，就跟你们讲讲。

未完待续...（但可能挖坑不填）

多余的话：

今天用的时候ollama的官网炸了。所以如果你们从ollama官网那条下载命令出错的话，只好从github上拉下来了。

我不论是wget还是curl都下下来一堆垃圾，所以就直接下到本地然后上传到服务器。

tar -zxf ollama.tgz

不过我没敢用官网的方式放/usr里，因为感觉autodl对linux有专门设置，怕出问题，就直接解压到root目录了。

另外，autodl的那个vGPU-32GB很垃圾别买，用ollama的话，上两个显卡，利用率只有50%，上四个显卡利用率只有25%。卡信息交换瓶颈了。听说vllm能解决这个问题，不过我没试，等日后试了，再更新一下。我现在用的是A40 48g显存，一小时三块，刚好能跑72b 4q量化。

目前常跑的模型是72B-Qwen2.5-Kunou-v1和L3.3-70B-Euryale-v2.3，另外发现一个14b的中文角色扮演小模型，Tifa-Deepsex-14b-CoT。这个模型的f16量化可以用3090 24g来跑，一小时只要一块钱。

如果安装ollama，穿透转发之后，显示那个监听端口是127.0.0.1而不是下面图中的方括号，而且访问出403错误的话。把ollama删了，然后直接下载文件，解压到本地执行。./bin/ollama serve。就像之前说的那样。这样的话，就使用bash的环境变量了。

如果有什么问题可以直接[email protected]给我发邮件或者回复，很高兴可以帮助刚入坑的新人答疑解惑。其实我也是刚刚入坑不到一个星期的新人，甚至在这之前都没跑过模型。自从见别人玩这个狂肝了三天三夜，总算跑通了环境。（笑

最后，那些整活向的卡很有趣，规则类怪谈也可以玩一玩。

男女良学校那个卡很有趣！改成TS类型的简直最好玩了，QED，本文完结。（逃