大模型如何可信?字节跳动研究的最新《可信赖的大型语言模型》综述,提出评估 LLMs 可信度时需要考虑的七大维度

2023-08-13 21:33:43

🍉 CSDN 叶庭云https://yetingyun.blog.csdn.net/


一、前言

论文地址:Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models’ Alignment

在将大型语言模型(LLMs)应用于实际场景之前,确保对齐性已成为一项关键任务。确保对齐性指的是让模型的行为与人类意图相一致。例如,在 GPT-4 发布之前,OpenAI 花了 6 个月的时间迭代对齐 GPT-4。然而,目前从业者面临的一个主要挑战是:缺乏评估 LLMs 的输出是否符合社会规范、价值观和法规的明确指导

这一障碍阻碍了 LLMs 的系统迭代和部署。为了解决这个问题,这篇论文对评估 LLMs 可信度时需要考虑的关键维度进行了全面的调查。该调查涵盖了 LLMs 可信度的七大维度:

  • 可靠性
  • 安全性
  • 公平性
  • 抗误用性
  • 可解释性和推理性
  • 遵守社会规范
  • 鲁棒性

每一大类又进一步分为若干小类,结果共产生 29 个小类。此外,还选取了 8 个子类别的子集作为进一步研究的对象,在几个广泛使用的 LLMs 上设计并进行了相应的测量研究。测量结果表明,一般来说,做了更多对齐的模型往往表现更好的整体可信度。然而,对齐的有效性因所考虑的不同可信度的维度而有所差异。这突出了进行更细粒度的分析、测试和对 LLMs 的对齐进行持续改进的重要性。通过阐明 LLMs 可信度的这些关键维度,这篇论文旨在为该领域的从业者提供有价值的见解和指导。理解和解决这些问题对于在各种实际应用中实现可靠和合理的 LLMs 部署至关重要。

论文的实验脚本和生成的数据:https://github.com/kevinyaobytedance/llm_eval

当前执行 LLMs 对齐的标准流程的示意图如下所示

在这里插入图片描述

  • 第一步:有监督 Fine Tuning。给定一个在大规模文本数据集上训练的预训练过的(未对齐的)LLM,我们首先对 prompts 进行采样,并要求人类根据 prompts 编写相应的(好的)输出。然后,我们对预训练过的 LLM 在 prompt and human-written outputs 上进行精细处理,以获得 SFT LLM。
  • 第二步:训练奖励模型。我们再次对 prompts 进行采样,对于每个 prompt,我们从 SFT LLM 生成多个输出,并请人类对它们进行排名。根据排名结果,我们训练了一个奖励模型(一个预测 LLM 的输出有多好的模型)。
  • 第三步:基于人类反馈的强化学习。给定一个 prompt,我们对 SFT LLM 的输出进行采样。然后我们用训练好的奖励模型来预测输出的奖励。这里使用了强化学习(RL)算法更新带预测奖励的 SFT LLM。

二、主要内容

提议的对评估 LLMs 可信度时需要考虑的七大关键维度及其子类别的分类法。包括 7 个主要类别:可靠性、安全性、公平性、抗误用性、可解释性和推理性、遵守社会规范和鲁棒性。每个大类包含若干小类,总共有 29 个小类。

在这里插入图片描述

LLMs 目前的主要应用。将实际应用分为了四大类:写作辅助、信息检索、商业用途和个人用途。请注意,这些应用都或多或少地相互重叠,论文的介绍肯定不是完全详尽的。

在这里插入图片描述


三、总结

这篇论文对评估 LLMs(大型语言模型)的可信度方面的重要因素进行了全面调查。提供了详细的分类法,并讨论了在这些维度上进行对齐的挑战。调查了大量文献,以寻找相应的潜在解决方案(如果存在)。除了论文提出的分类法,还提供了一组选定维度的详细测量研究。展示了如何构造一个数据集来自动化 LLMs 对齐度量的评估。作者观察到,做了更多对齐的 LLMs(基于公开声明的关于已执行对齐的信息)通常表现得更好。但在特定主题上肯定有改进的余地,这表明了执行更细粒度的对齐以实现更好的可信度覆盖的重要性和好处。

研究结果表明,总体而言,根据公开宣称的对齐效果信息,表现出更高对齐度的大语言模型倾向于表现更好。然而,作者也观察到在特定主题上仍有改进的空间。这一发现强调了进行更精细对齐以实现更全面可信度覆盖的重要性和优势。总体而言,这项研究为理解和评估大语言模型的可信度提供了有价值的见解和指导,突出了在各个维度上实现鲁棒性对齐的持续研究和努力的重要性。通过解决这些挑战,可以提高在实际应用中部署大语言模型的整体可靠性和伦理影响。

局限性。必须承认,论文的分类法并不包括 LLMs 可信度的全部范围。我们鼓励社区参与迭代努力,以开发一个更细粒度和更全面的框架,更好地解决 LLMs 可信度的评估问题。关于论文的测量研究,重要的是要认识到它们并非没有缺陷。为了在没有大量人工标注的情况下自动化评估过程,进行了两个主要的简化。首先,将某些评估问题转化为多项选择的形式,以便提供结构化且可通过程序验证的答案。这样就不需要人工评审员来解释非结构化的自然语言输出。其次,依赖于更先进的 LLMs 来评估测试给定 LLM 提供的答案,假设优秀的 LLMs 提供了真实的判断。使用这种方法更快速和更具成本效益,因为更慢但更准确的替代方案将涉及人工评审员。最近的一个例子是在 DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models 中提供的,该文提供了对 GPT 模型的各种信任度指标的详细评估报告。我们相信这个领域对未来的研究和进展具有重要的潜力。

开放性问题。尽管 OpenAI 与 LLMs 的对齐工作取得了显著的成功,但 “对齐科学” 领域仍处于早期阶段,提出了许多既缺乏理论洞察力又缺乏实践指导的开放性问题。几个关键问题仍未得到回答。 例如:

  • RLHF(基于人类反馈的强化学习)是对齐 LLMs 的最佳方法,还是可以设计更好的替代方法来更有效地实现对齐?
  • 我们如何建立构建对齐数据的最佳实践?
  • 此外,打标签工作者的个人观点如何影响 LLMs 的对齐结果?
  • 对齐在多大程度上依赖于数据?
  • 此外,必须确定哪些 LLMs 挑战可以通过对齐有效地解决,哪些挑战可能对对齐解决方案更有抵抗力。

总之,人类社会迫切需要更具原则性的方法来评估和实施 LLMs 的对齐,以及确保这些模式符合我们的社会价值观和伦理考虑。随着这一领域的发展,解决这些开放性问题对于建立越来越值得信赖和负责任地部署的 LLMs 将是至关重要的。


📚️ 参考链接:

更多推荐

Linux入门教程||Linux 文件与目录管理

我们知道Linux的目录结构为树状结构,最顶级的目录为根目录/。其他目录通过挂载可以将它们添加到树中,通过解除挂载可以移除它们。在开始本教程前我们需要先知道什么是绝对路径与相对路径。绝对路径:路径的写法,由根目录/写起,例如:/usr/share/doc这个目录。相对路径:路径的写法,不是由/写起,例如由/usr/sh

华为云云耀云服务器L实例评测|服务器反挖矿防护指南

前言本文为华为云云耀云服务器L实例测评文章,测评内容是云耀云服务器L实例反挖矿防护指南系统配置:2核2G3MCentOS7.9之前的文章中『一文教你如何防御数据库恶意攻击』,我们讲到黑客如何通过攻击数据库来获取权限,以及我们需要如何处理防护云耀云服务器L实例接下来我们将要讲述另外一种黑客攻击的手段——挖矿,本文将从黑客

Acwing算法心得——猜测短跑队员的速度(重写比较器)

大家好,我是晴天学长,今天的算法题用到了比较器的知识,是经常会用到的一个知识点,常见与同种数据的排序,需要的小伙伴请自取哦!如果觉得写的不错的话,可以点个关注哦,后续会继续更新的。💪💪💪1)猜测短跑队员的速度一个短跑运动员在一个数轴上跑步。他的奔跑速度是恒定的,但是奔跑方向可能会不断发生改变,有时朝数轴正方向,有

学习潘海东博士的《潮汐调和分析原理和应用》和调和分析软件S_Tide

潘海东博士在B站(用户名:ocean_tide)分享了他的电子书《潮汐调和分析原理和应用》,以及他开发的潮汐调和分析工具包S_Tide,非常厉害。水文同事在进行潮汐预报的时候,会经常说到调和分析和调和常数,博主一听到这些名词就懵圈,不明所以。而《潮汐调和分析原理和应用》开篇就讲潮汐调和分析求解分潮振幅和迟角的过程本质就

【每日随笔】关于 “ 终身学习 “ ① ( 各阶段学习过程 | 扫盲教育与选拔教育阶段 | 研究生阶段 | 终身学习阶段 )

文章目录一、学习的各个阶段1、扫盲教育与选拔教育阶段2、研究生阶段3、终身学习阶段4、终身学习内容推荐一、学习的各个阶段1、扫盲教育与选拔教育阶段小学六年和初中三年是扫盲教育,也就是九年义务教育,这是为了扫盲用的,初中毕业,就可以成为一个合格的劳动力;高中三年和大学四年是选拔教育,是用来选拔人才的,在之前知识的基础上,

解锁 zkSync Era:开创全新的 Layer 2 扩展时代

作者:stella@footprint.network数据来源:zkSyncDashboard在解决以太坊扩展性问题方面,Layer2解决方案备受关注。这些解决方案旨在通过引入Rollups,StateChannels或NestedBlockchains等技术来克服Layer1的局限性。在Layer2扩展领域,围绕Op

Java/JDK 21正式发布!15个特性一览

JDK21已经于2023年9月19日正式发布。本文总结了JDK21发布的新特性。发布版本说明根据发布的规划,这次发布的JDK21将是一个长期支持版(LTS版)。LTS版每2年发布一个,上一次长期支持版是21年9月发布的JDK17。本版本是JavaSE平台21版的参考实现,由Java社区流程中的JSR396指定。安装包下

「干货」洁净室悬浮粒子计数器全部常见型号参数汇总

我们的人体工程学设计轻巧的Lighthouse手持式3016-IAQ是市场上先进的手持式粒子计数器,其质量浓度模式的密度约为μg/m3。Lighthouse手持式粒子计数器最多可提供6个粒径同时计数的通道,可在快速,易于阅读的彩色触摸屏上显示累积和差分粒子计数数据以及温度/相对湿度数据。可测量PM0.5,PM1.0,P

融合柯西变异和自适应莱维飞行的布谷鸟优化算法,改进布谷鸟,MATLAB代码

经常有小伙伴后台留言问:作者改进的算法可不可以用来写论文呀?回答是:当然可以!且不用加引用!如果我的文章能帮助到大家写论文,那是作者的荣幸呀!布谷鸟优化算法是一个非常经典的优化算法,直到今天还有不少人研究对其改进。今天为大家带来一期由小淘自行改进的布谷鸟优化算法---融合柯西变异和自适应莱维飞行的布谷鸟优化算法(Cau

正则表达式以及python的re模块介绍

正则表达式字符串是编程时涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在。比如判断一个字符串是否是合法的Email地址,虽然可以编程提取@前后的子串,再分别判断是否是单词和域名,但这样做不但麻烦,而且代码难以复用。正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义

【PX4】Ubuntu20.04+ROS Noetic 配置PX4-v1.12.2和Gazebo11联合仿真环境【教程】

【PX4】Ubuntu20.04+ROSNoetic配置PX4-v-v1.12.2和Gazebo11联合仿真环境【教程】文章目录【PX4】Ubuntu20.04+ROSNoetic配置PX4-v-v1.12.2和Gazebo11联合仿真环境【教程】0.安装Ubuntu+ROS1.安装依赖2.安装QGC地面站3.配置PX

热文推荐