Continual Pre-Training of Large Language Models: How to (re)warm your model?

2023-09-14 18:32:28

本文是LLM系列文章,针对《Continual Pre-Training of Large Language Models: How to (re)warm your model?》的翻译。

大型语言模型的持续预训练:如何(重新)预热你的模型

摘要

大型语言模型(LLM)通常在数十亿个token上进行预训练,但一旦新数据可用,就会重新启动过程。一个更便宜、更有效的解决方案是能够对这些模型进行持续的预训练,即用新数据更新预训练的模型,而不是从头开始重新训练。然而,由新数据引起的分布偏移通常会导致过去数据的性能下降。在这项工作中,我们研究了不同热身策略的效果。我们的假设是,在新的数据集上进行训练时,必须重新提高学习率以提高计算效率。我们研究了在Pile上预训练的模型(上游数据,300Btoken)的热身阶段,同时我们继续在SlimPapajama上预训练(下游数据,297Btoken),遵循线性热身和余弦衰减时间表。我们在Pythia410M语言模型架构上进行了所有实验,并通过验证困惑来评估性能。我们试验了不同的训练前检查点、不同的最大学习率和不同的热身时间。我们的研究结果表明,虽然重新武装模型首先增加了上游和下游数据的损失,但从长远来看,它提高了下游性能,优于从头开始训练的模型——即使是大型下游数据集。

1 引言

2 设置

3 相关工作

4 持续加热

5 讨论/局限性

6 结论

我们的实验表明,预热到更高的最大学习率有助于在Pile上预先训练的模型适应SlimPajama,而较小的最大学习速率可以保持Pile上的性能。然而,在这两种情况下,重新武装的模型都比从头开始训练的模型有所改进。这些结果促使在新的数据集上使用持续的预训练,而不是从头开始训练。然而,还需要更多的研究来为更大的模型规模、不同的分布变化建立类似的结果,并验证这种策略可以重复应用于更新模型。

更多推荐

一文快速创建前端react项目

目前React是最受欢迎和广泛使用的JavaScript库之一。许多知名的公司和组织都在使用React来构建它们的Web应用程序,包括Facebook,Netflix等。学习好React将会使你能够获得更多的就业机会和职业发展机会。要快速创建React项目,你可以使用CreateReactApp工具。CreateRea

【腾讯云国际站】CDN内容分发网络特性介绍

为什么使用腾讯云国际站CDN内容分发网络?当用户直接访问源站中的静态内容时,可能面临的体验问题:客户离服务器越远,访问速度越慢。客户数量越多,网络带宽费用越高。跨境用户访问体验较差。腾讯云国际站CDN如何改善您的网络体验:腾讯云国际站CDN缓存内容后,用户仅需要访问就近的CDN节点即可获取静态内容。缓解源站带宽压力,网

实现AIGC更好的数据存力,这家科技巨头为我们指明了方向

存力即数据存储能力蕴藏着巨大的发展机会【全球存储观察|热点关注】2023年,全球被ChatGPT的热潮席卷,拥抱AIGC的创新赛道成为众多企业的新选择。全球存储观察分析指出,影响AIGC发展的三大因素也日益凸显,即算力、存力与运力,算力即计算能力;存力即数据存储能力;运力即网络运载能力。而其中令业界越来越重视的存力,蕴

Linux——Shell脚本编程(2)

一、Shell变量LinuxShell中的变量分为,系统变量和用户自定义变量(这个用的比较多)。系统变量:$HOME、$PWD、$SHELL、$USER等等,比如:echo$HOME等等..显示当前shell中所有变量:set举例说明:二、设置环境变量记得在注释的时候,内容单独放在一块。位置参数变量注意此处的脚本中,确

【C#源码】医院检验信息管理系统LIS LIS源码

LIS检验系统包含检验科各部门工作和管理需求及其它实验室检验的相应事务,具有检验单申请、付费,标本采集、接收、传输、处理、分注、分类(按项目分类)、检测的自动化流水作业,检验结果自动分析,检验数据自动传输、手工输入,检验结果审核的辅助处理,室内质量控制完善执行,分析后标本贮存管理,病人、医生方便获得检验单等基本功能,并

【2023】Git版本控制-本地仓库详解

目录1.Git是什么?它能做什么?2.安装Git3.Git版本管理3.1.Git初始化(创建仓库)3.2.提交代码3.3.代码回退3.4.代码恢复4.分支4.1.创建分支4.2.在分支上提交任务4.3.合并分支4.4.删除分支1.Git是什么?它能做什么?Git是一个分布式版本控制系统,它主要用于跟踪和管理软件项目的源

如何选择服务器?服务器选择方法

选择适合的服务器需要考虑多个因素,包括预期的工作负载、性能需求、可扩展性、安全性和预算等。以下是一些常见的方法和考虑因素,可帮助您选择适合的服务器:确定工作负载:首先要了解服务器将用于什么样的工作负载。是用于网站托管、数据库管理、文件存储还是其他特定的应用程序?不同的工作负载对服务器的要求不同,例如处理高流量的网站可能

基于SSM的北京集联软件科技有限公司信息管理系统

末尾获取源码开发语言:JavaJava开发工具:JDK1.8后端框架:SSM前端:采用JSP技术开发数据库:MySQL5.7和Navicat管理工具结合服务器:Tomcat8.5开发软件:IDEA/Eclipse是否Maven项目:是目录一、项目简介二、系统设计系统概要设计系统功能结构设计三、系统项目截图用户管理公告管

软考考试多少分算通过?

软考证书取得需要达到总分45分,每门科目满分为75分。因此,不要小看45分,在考试中获得这个分数并不容易。此外,软考要求一次性通过,如果没有通过,成绩将不被保留。因此,必须在一次考试中成功通过所有科目,否则就需要重新参加考试。如果考生只通过了其中一门,而另一门没能通过,就需要面对重新参加考试的情况。因此,建议考生在选择

一文了解语音合成技术(TTS)

TTS是TextToSpeech的缩写,即“从文本到语音”。它将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语(或者其他语言语音)输出的技术,隶属于语音合成(SpeechSynthesis)。语音,在人类的发展过程中,起到了巨大的作用。语音是语言的外部形式,是最直接地记录人的思维活动的符号体系

python链接数据库并创建/删除/插入多个数据库/表/表数据

嗨喽,大家好呀~这里是爱看美女的茜茜呐👇👇👇更多精彩机密、教程,尽在下方,赶紧点击了解吧~python源码、视频教程、插件安装教程、资料我都准备好了,直接在文末名片自取就可importpymysqll链接数据库并执行sql语句conn=pymysql.connect(host='10.245.251.61',us

热文推荐