【个人笔记本】本地化部署类chatgpt模型详细流程

不推荐小白，环境配置比较复杂

全部流程

下载原始模型：Chinese-LLaMA-Alpaca-2
linux部署llamacpp环境
使用llamacpp将Chinese-LLaMA-Alpaca-2模型转换为gguf模型
windows部署Text generation web UI 环境
使用Text generation web UI 加载模型并进行对话

准备工作

笔记本环境：
- 操作系统：win11
- CPU：AMD R7535HS
- GPU：笔记本4060显卡
- CUDA版本：11.8
- VM虚拟机：Ubuntu16
下载模型和部署环境全程需要挂梯子

下载原始模型

原项目链接：https://github.com/ymcui/Chinese-LLaMA-Alpaca-2

模型名称	类型	大小	下载地址
Chinese-LLaMA-2-13B	基座模型	24.7 GB	[百度] [Google] [🤗HF]
Chinese-LLaMA-2-7B	基座模型	12.9 GB	[百度] [Google] [🤗HF]
Chinese-Alpaca-2-13B	指令模型	24.7 GB	[百度] [Google] [🤗HF]
Chinese-Alpaca-2-7B	指令模型	12.9 GB	[百度] [Google] [🤗HF]

下载Chinese-Alpaca-2-7B模型即可，百度网盘不需要挂梯子，其他都需要梯子

linux部署llamacpp环境

原项目链接：https://github.com/ggerganov/llama.cpp
原文档链接：https://github.com/ymcui/Chinese-LLaMA-Alpaca-2/wiki/llamacpp_zh

Step 1: 安装python3.10

sudo apt update
sudo apt install python3.10

Step 2: 克隆和编译llama.cpp

拉取最新版llama.cpp仓库代码

# 要安装git+梯子
git clone https://github.com/ggerganov/llama.cpp

或者

#浏览器挂梯子打开https://github.com/ggerganov/llama.cpp
#下载项目
#解压缩项目到本地

对llama.cpp项目进行编译，生成./main（用于推理）和./quantize（用于量化）二进制文件
```
cd 解压缩项目路径
make
```

Step 3: 生成量化版本模型

创建目录并拷贝模型到项目目录：zh-models/7B/
将Chinese-LLaMA-Alpaca-2模型转换为gguf模型
```
#根目录
python convert.py zh-models/7B/
```

将生成的fp16格式的gguf模型进行4-bit量化

./quantize ./zh-models/7B/ggml-model-f16.gguf ./zh-models/7B/ggml-model-q4_0.gguf q4_0

Step 4: 加载并启动模型

到这一步其实可以用llama.cpp的加载模型方式对话了
但我用的虚拟机，性能有限，故而使用Text generation web UI 加载模型，具体如何加载建议看原文档和项目说明

windows部署Text generation web UI 环境

原项目：https://github.com/oobabooga/text-generation-webui

Step 1: 下载安装Miniconda3_py310

链接：https://repo.anaconda.com/miniconda/Miniconda3-py310_23.3.1-0-Windows-x86_64.exe

Step 2: 克隆项目到本地

git clone  https://github.com/oobabooga/text-generation-webui

Step 3: 打开Miniconda3命令行，建立新conda环境

conda create -n textgen

Step 4: 下载安装相关的python各类环境库

有github链接的必须手动下载whl,再pip安装whl的绝对位置

conda activate textgen
cd 项目位置
pip install env/bitsandbytes-0.41.1-py3-none-win_amd64.whl
pip install E:\AI\环境第三方库\auto_gptq-0.4.2+cu117-cp310-cp310-win_amd64.whl

https://github.com/jllllll/exllama/releases/download/0.0.17/exllama-0.0.17+cu117-cp310-cp310-win_amd64.whl
pip install E:\AI\环境第三方库\exllama-0.0.17+cu117-cp310-cp310-win_amd64.whl

pip install llama-cpp-python==0.1.84

https://github.com/jllllll/llama-cpp-python-cuBLAS-wheels/releases/download/textgen-webui/llama_cpp_python_cuda-0.1.84+cu117-cp310-cp310-win_amd64.whl
pip install E:\AI\环境第三方库\llama_cpp_python_cuda-0.1.84+cu117-cp310-cp310-win_amd64.whl

https://github.com/jllllll/GPTQ-for-LLaMa-CUDA/releases/download/0.1.0/gptq_for_llama-0.1.0+cu117-cp310-cp310-win_amd64.whl
pip install E:\AI\环境第三方库\gptq_for_llama-0.1.0+cu117-cp310-cp310-win_amd64.whl

https://github.com/jllllll/ctransformers-cuBLAS-wheels/releases/download/AVX2/ctransformers-0.2.25+cu117-py3-none-any.whl
pip install E:\AI\环境第三方库\ctransformers-0.2.25+cu117-py3-none-any.whl

pip install -r requirements.txt -i 换源

Step 5: 启动web服务

conda activate textgen
cd E:/AI/项目/text-generation-webui-main
python server.py

使用Text generation web UI 加载模型并进行对话

打开生成的url网址
加载本地模型
对话即可

【个人笔记本】本地化部署类chatgpt模型详细流程

全部流程

准备工作

下载原始模型

linux部署llamacpp环境

Step 1: 安装python3.10

Step 2: 克隆和编译llama.cpp

Step 3: 生成量化版本模型

Step 4: 加载并启动模型

windows部署Text generation web UI 环境

Step 1: 下载安装Miniconda3_py310

Step 2: 克隆项目到本地

Step 3: 打开Miniconda3命令行，建立新conda环境

Step 4: 下载安装相关的python各类环境库

Step 5: 启动web服务

使用Text generation web UI 加载模型并进行对话

更多推荐

用一个RecyclerView实现二级评论

golang：context

数据库索引

Golang代码漏洞扫描工具介绍——govulncheck

基于Qt实现的可视化大屏监控

安达发APS|生产计划部门如何提升产量？

三、数学建模之非线性规划

Vue-01:MVVM数据双向绑定与Vue的生命周期

全面了解SpringBoot拦截器

前端代码规范

Rust中的结构体

热文推荐

docker容器管理-实操命令

注入常考面试题总结

ubuntu 20.04 创建elasticsearch 7.x cluster

软件设计师笔记系列（二）

使用凌鲨管理本地仓库

嵌入式Linux驱动开发（I2C专题）（三）

Linux学习第12天：基于API函数的字符设备驱动开发：一字一符总见情

解决hadoop使用put上传报错问题

数据解析之Xpath解析（超详细定位）

【个人笔记本】本地化部署 类chatgpt模型 详细流程

全部流程

准备工作

下载原始模型

linux部署llamacpp环境

Step 1: 安装python3.10

Step 2: 克隆和编译llama.cpp

Step 3: 生成量化版本模型

Step 4: 加载并启动模型

windows部署Text generation web UI 环境

Step 1: 下载安装Miniconda3_py310

Step 2: 克隆项目到本地

Step 3: 打开Miniconda3命令行，建立新conda环境

Step 4: 下载安装相关的python各类环境库

Step 5: 启动web服务

使用Text generation web UI 加载模型并进行对话

更多推荐

热文推荐

【个人笔记本】本地化部署类chatgpt模型详细流程