ChatGLM P-Tuningv2微调定制AI大模型

2023-09-20 10:35:11

前言

什么是模型微调

想象一下,你正在学习如何弹奏一首钢琴曲目。你已经学会了一些基本的钢琴技巧,但你想要更进一步,尝试演奏一首特定的曲目。这时,你会选择一首你感兴趣的曲目,并开始深度练习。

Fine-tuning(微调)在机器学习中也是类似的概念。当我们使用预先训练好的模型(预训练Pre-training)来解决一个特定的任务时,有时我们需要对这个模型进行微调。这意味着我们会在已经训练好的模型的基础上进行进一步的训练,以使其更适应我们的特定任务。

在微调过程中,会使用一小部分与任务相关的数据来训练模型。可以冻结模型的一部分或全部层,只对最后几层进行训练。这样做的目的是保留模型之前学到的通用特征,同时允许模型根据新数据进行适应和调整

为什么要模型微调

一方面,为了满足领域特定的需求。通过微调,可以根据特定领域的需求来调整模型,特别适合搭建私有知识库。

另一方面,考虑到成本因素,预训练最少也需要上百条A100显卡,而微调单台显卡就能搞定

当前有哪些主流的微调方法

当前主流的LLM模型微调方法有prefix-tuning,p-tuning和lora等方法,其中LORA更注重对特征的解释和理解,而P-Tune更注重对模型参数的微调

官方网址:

更多推荐

Ubuntu上通过源码方式安装Redis

上一篇文章Ubuntu上安装、使用Redis的详细教程已经介绍了再Ubuntu操作系统上安装Redis的详细过程,但是因为安装的Redis只有最主要的配置文件和redis-server,为了更深入地学习Redis和进行更复杂的操作,需要安装一个完整的Redis服务。这篇文章就介绍一下怎么在ubuntu上通过源码编译方式

[每周一更]-(第63期):Linux-nsenter命令使用说明

nsenter命令是一个可以在指定进程的命令空间下运行指定程序的命令。它位于util-linux包中。1、用途一个最典型的用途就是进入容器的网络命令空间。相当多的容器为了轻量级,是不包含较为基础的命令的,比如说ipaddress,ping,telnet,ss,tcpdump等等命令,这就给调试容器网络带来相当大的困扰:

HTTP 响应头Cache-Control

每个资源都可以通过Http头Cache-Control来定义自己的缓存策略,Cache-Control控制谁在什么条件下可以缓存响应以及可以缓存多久。最快的请求是不必与服务器进行通信的请求:通过响应的本地副本,我们可以避免所有的网络延迟以及数据传输的数据成本。为此,HTTP规范允许服务器返回一系列不同的Cache-Co

【Python】PySpark 数据计算 ④ ( RDD#filter 方法 - 过滤 RDD 中的元素 | RDD#distinct 方法 - 对 RDD 中的元素去重 )

文章目录一、RDD#filter方法1、RDD#filter方法简介2、RDD#filter函数语法3、代码示例-RDD#filter方法示例二、RDD#distinct方法1、RDD#distinct方法简介2、代码示例-RDD#distinct方法示例一、RDD#filter方法1、RDD#filter方法简介RD

MySQL-MHA

1、什么是MHAMHA(MasterHighAvailability)是一套优秀的MySQL高可用环境下故障切换和主从复制的软件。MHA的出现就是解决MySQL单点的问题。MySQL故障切换过程中,MHA能做到0-30秒内自动完成故障切换操作。MHA能在故障切换的过程中最大程度上保证数据的一致性,以达到真正意义上的高可

UVA-1343 旋转游戏 题解答案代码 算法竞赛入门经典第二版

GitHub-jzplp/aoapc-UVA-Answer:算法竞赛入门经典例题和习题答案刘汝佳第二版题目其实不难,但是耗费了我较多时间。这种题关键就是在于找到约束条件,我在DFS的基础上,试了很多种策略:1.对3种数字,每种数字递归遍历一次,这样每次只需要关注一种数字的变化,情况更少。2.使用一个longlong类型

如何自动获取短信验证码?

点击下方关注我,然后右上角点击...“设为星标”,就能第一时间收到更新推送啦~~~这篇文章通过解决实际项目开发中遇到的如何自动获取短信验证码的问题,进一步讲述在Java中如何使用正则。Java中如何使用正则Java中正则相关类位于java.util.regex包下,主要使用2个类,如下:Pattern类:Pattern

tokio::net学习

tokio::net该模块包含TCP/UDP/Unix网络类型,类似于标准库,可用于实现网络协议。networkingprotocolsOrganizationTcpListenerandTcpStreamprovidefunctionalityforcommunicationoverTCPUdpSocketprovi

自己实现 SpringMVC 底层机制 系列之-实现任务阶段 7- 完成简单视图解析

😀前言自己实现SpringMVC底层机制系列之-实现任务阶段7-完成简单视图解析🏠个人主页:尘觉主页🧑个人简介:大家好,我是尘觉,希望我的文章可以帮助到大家,您的满意是我的动力😉😉在csdn获奖荣誉:🏆csdn城市之星2名⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣💓Java全栈群星计

卷积神经网络中的 Full、Same 和 Valid 卷积

文章目录卷积神经网络概述Full卷积Same卷积Valid卷积卷积模式的选择代码示例结论🎉欢迎来到AIGC人工智能专栏~卷积神经网络中的Full、Same和Valid卷积☆*o(≧▽≦)o*☆嗨~我是IT·陈寒🍹✨博客主页:IT·陈寒的博客🎈该系列文章专栏:AIGC人工智能📜其他专栏:Java学习路线Java面

自己实现 SpringMVC 底层机制 系列之-实现任务阶段 4- 完成自定义@Service 注解功能

😀前言自己实现SpringMVC底层机制系列之-实现任务阶段4-完成自定义@Service注解功能🏠个人主页:尘觉主页🧑个人简介:大家好,我是尘觉,希望我的文章可以帮助到大家,您的满意是我的动力😉😉在csdn获奖荣誉:🏆csdn城市之星2名⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣⁣💓

热文推荐