GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

2023-09-11 22:58:01

在图像-文本对上调整大语言模型(LLM)的指令已经实现了前所未有的视觉-语言多模态能力。然而,他们的视觉语言对齐仅建立在图像级别上,缺乏区域级别对齐限制了他​​们在细粒度多模态理解方面的进步。在本文中,我们提出对感兴趣区域进行指令调整。关键设计是将边界框重新表述为空间指令的格式。将空间指令和语言嵌入提取的视觉特征的交错序列输入到LLM,并以指令调整格式对转换后的区域文本数据进行训练。我们的区域级视觉语言模型(称为 GPT4RoI)带来了超越图像级理解的全新对话和交互体验。

github:GitHub - jshilong/GPT4RoI: GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest

arxiv: https://arxiv.org/abs/2307.03601

GPT4ROI:感兴趣区域的指令微调大语言模型

背景:大规模语言模型在图像文本对上微调展现出令人惊讶的 多模态表现,然而都是在图像级别的,缺少区域级别的多模态推理

意义:细粒度的信息交互,可控、多轮对话、多种组成

相关技术:大规模语言模型、视觉语言模型、区域级别图像理解

创新点:将边界框转换为空间指令,利用大模型的识别、分析、推理能力,实现空间维度上的处理,支持区域级别的理解和多轮对话

具体内容:GPT4RoI是一个视觉大模型,支持处理包含空间信息的instructions,如<region>。在tokenization和embeddings过程中,instructions中的<region>替换为RoIAlign结果,随后所有的embeddings送入LLM处理。

数据集:COCO 、RefCOCO and RefCOCO+,RefCOCOg、Flicker30k、

训练方法:Stage 1: Pre-training、Stage 2: End-to-end Fine-tuning

效果:对感兴趣区域进行识别种类、简单属性和位置、文本生成和推理,

后续工作:模型架构进一步完善,丰富区域微调数据集,增加指令模板扩大场景覆盖

不足:交互方式单一

更多推荐

以php为后端,vue为前端的租房微信小程序

租房微信小程序是一个非常有用的应用,它不仅可以帮助人们快速找到心仪的房屋,还可以提供便捷的房屋租赁服务。本文将介绍如何使用PHP作为后端语言和Vue作为前端框架来开发一个租房微信小程序。环境搭建首先,需要在本地或云上安装并配置PHP和Vue环境。可以使用XAMPP、WAMP、MAMP等集成的开发环境,也可以手动安装和配

stm32学习笔记:GPIO输入

1、寄存器输入输出函数//读取输入数据寄存器某一个端口的输入值,参数用来指定某一个端口,返回值是uint8_t类型,用来代表高低电平(读取按键的值)uint8_tGPIO_ReadInputDataBit(GPIO_TypeDef*GPIOx,uint16_tGPIO_Pin);//读取整个输入数据寄存器,参数用来指定

在使用SpringBoot时遇到的异常总结(持续更新...)

文章目录异常MyBatisjava.sql.SQLIntegrityConstraintViolationException:Cannotaddorupdateachildrow:aforeignkeyconstraintfailsMybatis-Plus查询语句无故自动加条件参考文献因为平时在写SpringBoot项

Centos7安装mysql详细过程

官网https://dev.mysql.com/downloads/repo/yum/1、下载安装包cd/optwgethttp://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpm2、安装MYSQL源yum-yinstallmysql57-co

若依DataScopeAspect数据权限解析和ew.customSqlSegment源码解析

目录一、DataScopeAspect使用场景二、ew.customSqlSegment${ew.customSqlSegment}build:this.normal:queryWrapperwhere条件不为空的时候,才有normalget第二次进来add(),已经拼接完ew.customSqlSegment了,因为

人工智能术语翻译(四)

文章目录摘要MNOP摘要人工智能术语翻译第四部分,包括M、N、O、P开头的词汇!M英文术语中文翻译常用缩写备注MachineLearningModel机器学习模型MachineLearning机器学习ML机器学习MachineTranslation机器翻译MTMacroAverage宏平均Macro-F1宏F1Macr

FFmpeg入门及编译

文章目录前言一、FFmpeg简介二、基本组成1、封装模块-AVFormat2、编解码模块-AVCodec3、滤镜模块-AVFilter4、视频图像转换计算模块-swscale5、音频转换计算模块-swresample6、AVUtil-核心工具库7、AVDevice-硬件采集,加速,显示三、命令行工具四、FFmpeg环境

jvm深入研究文档--java中的堆--详解!--jvm底层探索(1)

阿丹:JVM的内存分区包括以下几个部分:堆区(Heap)-这是JVM的主要部分,用于存储实例对象和大多数Java对象,如数组和用户定义的类。方法区(MethodArea)-这是线程私有的,用于存放类对象(加载好的类)。栈区(Stack)-这是线程私有的,包括虚拟机栈和本地方法栈。虚拟机栈用于保存调用关系的内存空间,而本

Linux学习之Redis使用

搭建Redis服务器在主机redis64运行redis服务#安装redis服务[root@redis64~]#yuminstall-yredis#启动redis服务并开机启动[root@redis64~]#systemctlenableredis--now#查看redis端口[root@redis64~]#ss-tnl

redis 常用数据结构2

目录listLPUSHLRANGELPUSHXRPUSHRPUSHXLPOPRPOPLINDEXLINSERTLLENLREMLTRIMLSETBLPOP/BRPOP编码方式setSADDSMEMBERSSISMEMBERSPOPSCARDSRANDMEMBERSMOVESREMSINTERSINTERSTORESUN

基于javaweb的顶岗实习管理系统(jsp+servlet)

系统简介本项目采用eclipse工具开发,jsp+servlet+jquery技术编写,数据库采用的是mysql,navicat开发工具。三个角色:管理员,教师,学生模块简介管理员:1、登录2、学生管理3、公告管理4、教师管理5、任务分类管理6、实习任务管理7、实习任务申请管理8、实习报告分数管理学生:1、登录2、个人

热文推荐