Investigating Answerability of LLMs for Long-Form Question Answering

2023-09-18 10:58:30

本文是LLM系列的文章,针对《Investigating Answerability of LLMs for Long-Form Question Answering》的翻译。

摘要

随着我们进入LLM的新时代,了解它们的能力、局限性和差异变得越来越重要。为了在这一方向上取得进一步进展,我们努力更深入地了解大规模LLM(例如,ChatGPT)与规模较小但有效的开源LLM及其提炼出的同行之间的差距。为此,我们特别关注长形式问答(LFQA),因为它有几个实用且有影响力的应用程序(例如,故障排除、客户服务等),但对LLM来说仍然研究不足,具有挑战性。我们提出了一种从抽象摘要中生成问题的方法,并表明从长文档的摘要中生成后续问题可以为LLM从长上下文中推理和推断创造一个具有挑战性的环境。我们的实验结果证实:(1)我们提出的从抽象摘要生成问题的方法对LLM构成了一个具有挑战性的设置,并显示了ChatGPT等LLM与开源LLM(Alpaca,Llama)之间的性能差距,但他们的生成能力在摘要生成的问题上显著下降–尤其是对于较长的上下文(>1024个token)。

1 引言

2 相关工作

3 提出的评估方法

4 结果与分析

5 结论

随着像ChatGPT这样的LLM和开源成功的LLM的出现,了解不同LLM的功能和局限性是极其重要的。为了通过参考较长的上下文来测试LLM更深层次的推理能力,我们评估了LLM对ChatGPT在长文档摘要上生成的问题的回答。结果表明,我们提出的问题生成方法对LLM提出了一个具有挑战性的设置,并揭示了大规模LLM和开源LLM之间的性能差距。我们希望我们的分析能推动未来的研究方向,例如在受约束的序列长度设置中利用较长的上下文,以及为较小的LLM开发更好的长格式文本生成。

6 局限性

在这项研究中,我们提出了一种自动评估设置,用于从摘要中生成问题,并使用GPT-4对LLM中生成的答案进行不同度量的评估。实验结果表明,我们提出的评估设置对LLM来说是一个具有挑战性的设置。然而,我们的研究可能有一些局限性。
GPT-4作为评估者虽然GPT-4与长格式文本生成的人类评估显示出高度相关性,但使用GPT-4进行评估的能力本身就是一个活跃的研究领域。因此,我们的结果可能受到GPT-4未被发现的能力的限制。
生成问题的ChatGPT生成由ChatGPT提示的问题的答案可能会导致ChatGPT的乐观结果。然而,其他基线在产生有意义的问题方面存在局限性。我们展示了使用其他LLM生成问题的广泛分析(附录A.2)。
未知的训练数据对于像ChatGPT这样的大规模LLM的训练数据分布知之甚少。使用不同方法和数据分布训练的模型使公平比较的评估更加困难。

更多推荐

中小企业生产信息化系统哪个好用?选亿发制造业管理系统提供商

中小型制造企业虽然规模相对较小,但同样是市场经济的重要组成部分。要在这个竞争环境中脱颖而出,智能化生产管理系统成为中小型制造企业不可或缺的工具。让各部门之间的数据无缝衔接,实现工厂的整体协调性和工作效率的大幅提升。让我们从几个关键方面来看中小型制造工厂如何选择适合的生产管理系统。生产计划管理:中小型工厂通常需要灵活的生

001 linux 导学

前言本文建立在您已经安装好linux环境后,本文会向您介绍Shell的一些常用指令什么是linuxLinux是一种自由和开放源代码的类UNIX操作系统,该操作系统的内核由林纳斯托瓦兹在1991年首次发布,之后,在加上用户空间的应用程序之后,就成为了Linux操作系统,并在全球范围内得到了广泛的使用和支持。Linux具有

新闻软文的写作要点有哪些?媒介盒子告诉你

信息时代,受众获取信息的方式越来越碎片化,他们对信息的敏感度越来越高,这就导致虽然广告的成本高了,但是广告的效果越来越不明显。这个时候可以考虑新闻软文,新闻体软文是软文与新闻的结合体,它能够提升企业的曝光率,为企业的宣传起到积极作用,那接下来媒介盒子就从三大方面告诉大家,新闻软文的写作方式。一、 保证真实性新

VUE之proxy配置实现跨域

什么是跨域要了解跨域,首先得知道浏览器的同源策略。同源策略:是由Netscape提出的一个安全策略,能够阻挡恶意文档,保护本地数据。它能限制一个源的文档或脚本对另一个源的交互,使得其它源的文档或脚本,无法读取或修改当前源。是否同源:当两个url的域名、协议和端口均相同。举例来说:url:http://127.0.0.1

前后端连接-界面跳转,异步

异步需要有一个js中转前后端数据互通流程:建立jsp文件,连接js文件,在js文件中设置传入后端的值与使用方法(get,post),后端执行完代码后将值返回给js,js接收后返回给jsp;界面跳转流程:表单被提交后,根据设置传入后端的值与使用方法(get,post)在对应的servlet中调用对应的方法,并进行逻辑判断

QT 调用USB免驱摄像头

文章目录前言一、界面布局二、QImageEncoderSettings类三、图像的显示总结前言本篇文章来讲解一下如何使用QT调用摄像头,这里我使用的是USB免驱动摄像头,使用不需要按照驱动QT就可以调用到摄像头。一、界面布局这里使用QT设计师进行界面的布局:二、QImageEncoderSettings类QImageE

【Linux网络编程】Socket-TCP实例

该代码利用socket套接字建立Tcp连接,包含服务器和客户端。当服务器和客户端启动时需要把端口号或ip地址以命令行参数的形式传入。服务器启动如果接受到客户端发来的请求连接,accept函数会返回一个打开的socket文件描述符,区别于监听连接的listensock,它用来为客户端提供服务的。因为有线程池的存在,可以立

Linux设备驱动模型之platform设备

Linux设备驱动模型之platform设备上一章节介绍了Linux字符设备驱动,它是比较基础的,让大家理解Linux内核的设备驱动是如何注册、使用的。但在工作中,个人认为完全手写一个字符设备驱动的机会比较少,更多的都是基于前人的代码修修补补过三年。在内核驱动中,你会看到比较多的platform相关的字样,他们具体是什

涨知识,关于代码签名证书10大常见问题解答

在当今互联网+时代,各种软件程序充斥着这个网络世界,大大小小的软件层出不穷,如何让用户信任软件并下载软件,是众多软件开发公司需要解决的问题,由此代码签名证书应运而生,提供了软件程序的身份认证、完整性和可信任性的解决方案。那么什么是代码签名证书?代码签名证书的原理是什么?锐成小编收集整理了关于代码签名证书10大常见问题解

PostgreSQL的主从复制方式

主从复制方式PostgreSQL支持多种主从复制(Master-SlaveReplication)方式,用于创建可靠的数据备份和故障容错解决方案。以下是几种常见的主从复制方式:同步复制(SynchronousReplication):在同步复制中,主节点将事务发送到一个或多个从节点,并等待从节点确认写操作已成功应用。只

AIGC驱动产品开发创新,改变你所知的一切!

你是否想过,3000年后的饮料是什么味道?9月12日,可口可乐全球创意平台“乐创无界”再度推出全新限定产品——首款联合人工智能(AI)打造的无糖可口可乐“未来3000年”。从口味研发到包装设计都体现了AI的深度参与打造。Y3000与AI共创这一举措,也呼应了平台以潮流创新的产品与沉浸式体验链接年轻消费者的理念,赋予可口

热文推荐