一、前言

论文地址：Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models’ Alignment

在将大型语言模型（LLMs）应用于实际场景之前，确保对齐性已成为一项关键任务。确保对齐性指的是让模型的行为与人类意图相一致。例如，在 GPT-4 发布之前，OpenAI 花了 6 个月的时间迭代对齐 GPT-4。然而，目前从业者面临的一个主要挑战是：缺乏评估 LLMs 的输出是否符合社会规范、价值观和法规的明确指导。

这一障碍阻碍了 LLMs 的系统迭代和部署。为了解决这个问题，这篇论文对评估 LLMs 可信度时需要考虑的关键维度进行了全面的调查。该调查涵盖了 LLMs 可信度的七大维度：

可靠性
安全性
公平性
抗误用性
可解释性和推理性
遵守社会规范
鲁棒性

每一大类又进一步分为若干小类，结果共产生 29 个小类。此外，还选取了 8 个子类别的子集作为进一步研究的对象，在几个广泛使用的 LLMs 上设计并进行了相应的测量研究。测量结果表明，一般来说，做了更多对齐的模型往往表现更好的整体可信度。然而，对齐的有效性因所考虑的不同可信度的维度而有所差异。这突出了进行更细粒度的分析、测试和对 LLMs 的对齐进行持续改进的重要性。通过阐明 LLMs 可信度的这些关键维度，这篇论文旨在为该领域的从业者提供有价值的见解和指导。理解和解决这些问题对于在各种实际应用中实现可靠和合理的 LLMs 部署至关重要。

论文的实验脚本和生成的数据：https://github.com/kevinyaobytedance/llm_eval

当前执行 LLMs 对齐的标准流程的示意图如下所示：

在这里插入图片描述

第一步：有监督 Fine Tuning。给定一个在大规模文本数据集上训练的预训练过的（未对齐的）LLM，我们首先对 prompts 进行采样，并要求人类根据 prompts 编写相应的（好的）输出。然后，我们对预训练过的 LLM 在 prompt and human-written outputs 上进行精细处理，以获得 SFT LLM。
第二步：训练奖励模型。我们再次对 prompts 进行采样，对于每个 prompt，我们从 SFT LLM 生成多个输出，并请人类对它们进行排名。根据排名结果，我们训练了一个奖励模型（一个预测 LLM 的输出有多好的模型）。
第三步：基于人类反馈的强化学习。给定一个 prompt，我们对 SFT LLM 的输出进行采样。然后我们用训练好的奖励模型来预测输出的奖励。这里使用了强化学习（RL）算法更新带预测奖励的 SFT LLM。

二、主要内容

提议的对评估 LLMs 可信度时需要考虑的七大关键维度及其子类别的分类法。包括 7 个主要类别：可靠性、安全性、公平性、抗误用性、可解释性和推理性、遵守社会规范和鲁棒性。每个大类包含若干小类，总共有 29 个小类。

在这里插入图片描述

LLMs 目前的主要应用。将实际应用分为了四大类：写作辅助、信息检索、商业用途和个人用途。请注意，这些应用都或多或少地相互重叠，论文的介绍肯定不是完全详尽的。

在这里插入图片描述

三、总结

这篇论文对评估 LLMs（大型语言模型）的可信度方面的重要因素进行了全面调查。提供了详细的分类法，并讨论了在这些维度上进行对齐的挑战。调查了大量文献，以寻找相应的潜在解决方案（如果存在）。除了论文提出的分类法，还提供了一组选定维度的详细测量研究。展示了如何构造一个数据集来自动化 LLMs 对齐度量的评估。作者观察到，做了更多对齐的 LLMs（基于公开声明的关于已执行对齐的信息）通常表现得更好。但在特定主题上肯定有改进的余地，这表明了执行更细粒度的对齐以实现更好的可信度覆盖的重要性和好处。

研究结果表明，总体而言，根据公开宣称的对齐效果信息，表现出更高对齐度的大语言模型倾向于表现更好。然而，作者也观察到在特定主题上仍有改进的空间。这一发现强调了进行更精细对齐以实现更全面可信度覆盖的重要性和优势。总体而言，这项研究为理解和评估大语言模型的可信度提供了有价值的见解和指导，突出了在各个维度上实现鲁棒性对齐的持续研究和努力的重要性。通过解决这些挑战，可以提高在实际应用中部署大语言模型的整体可靠性和伦理影响。

局限性。必须承认，论文的分类法并不包括 LLMs 可信度的全部范围。我们鼓励社区参与迭代努力，以开发一个更细粒度和更全面的框架，更好地解决 LLMs 可信度的评估问题。关于论文的测量研究，重要的是要认识到它们并非没有缺陷。为了在没有大量人工标注的情况下自动化评估过程，进行了两个主要的简化。首先，将某些评估问题转化为多项选择的形式，以便提供结构化且可通过程序验证的答案。这样就不需要人工评审员来解释非结构化的自然语言输出。其次，依赖于更先进的 LLMs 来评估测试给定 LLM 提供的答案，假设优秀的 LLMs 提供了真实的判断。使用这种方法更快速和更具成本效益，因为更慢但更准确的替代方案将涉及人工评审员。最近的一个例子是在 DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models 中提供的，该文提供了对 GPT 模型的各种信任度指标的详细评估报告。我们相信这个领域对未来的研究和进展具有重要的潜力。

开放性问题。尽管 OpenAI 与 LLMs 的对齐工作取得了显著的成功，但 “对齐科学” 领域仍处于早期阶段，提出了许多既缺乏理论洞察力又缺乏实践指导的开放性问题。几个关键问题仍未得到回答。例如：

RLHF（基于人类反馈的强化学习）是对齐 LLMs 的最佳方法，还是可以设计更好的替代方法来更有效地实现对齐？
我们如何建立构建对齐数据的最佳实践？
此外，打标签工作者的个人观点如何影响 LLMs 的对齐结果？
对齐在多大程度上依赖于数据？
此外，必须确定哪些 LLMs 挑战可以通过对齐有效地解决，哪些挑战可能对对齐解决方案更有抵抗力。

总之，人类社会迫切需要更具原则性的方法来评估和实施 LLMs 的对齐，以及确保这些模式符合我们的社会价值观和伦理考虑。随着这一领域的发展，解决这些开放性问题对于建立越来越值得信赖和负责任地部署的 LLMs 将是至关重要的。

📚️ 参考链接：

大模型如何可信？字节跳动研究的最新《可信赖的大型语言模型》综述，提出评估 LLMs 可信度时需要考虑的七大维度

文章目录

一、前言

二、主要内容

三、总结

更多推荐

Linux入门教程||Linux 文件与目录管理

华为云云耀云服务器L实例评测｜服务器反挖矿防护指南

Acwing算法心得——猜测短跑队员的速度（重写比较器）

学习潘海东博士的《潮汐调和分析原理和应用》和调和分析软件S_Tide

【每日随笔】关于 “ 终身学习 “ ① ( 各阶段学习过程 | 扫盲教育与选拔教育阶段 | 研究生阶段 | 终身学习阶段 )

解锁 zkSync Era：开创全新的 Layer 2 扩展时代

Java/JDK 21正式发布！15个特性一览

「干货」洁净室悬浮粒子计数器全部常见型号参数汇总

融合柯西变异和自适应莱维飞行的布谷鸟优化算法，改进布谷鸟，MATLAB代码

正则表达式以及python的re模块介绍

【PX4】Ubuntu20.04+ROS Noetic 配置PX4-v1.12.2和Gazebo11联合仿真环境【教程】

热文推荐

中外人工智能专家共话大语言模型与 AI 创新

【CS324】LLM（大模型的能力、数据、架构、分布式训练、微调等）

猫头虎博主第5️⃣期赠书活动:《Java官方编程手册（第12版·Java 17）套装上下册》

【Java 基础篇】自如应对文本数据：Java缓冲字符流详解

Java下部笔记

【Java 基础篇】优雅处理文本数据：Java字符流详解

Java中的异常基础知识

数据结构Map-Set和哈希表

如何在JavaScript中实现链式调用（chaining）？