视觉Transformer在低级视觉领域的研究综述

视觉Transformer在低级视觉领域的研究综述

2023-09-20 16:49:34

视觉Transfomer的基本原理

在这里插入图片描述

在图像处理过程中，ViT首先将输入的图片分成块，对其进行线性的编码映射后排列成一堆的向量作为编码器的输入，在分类任务中会在这个一维向量加入了一个可学习的嵌入向量用作分类的类别预测结果表示，最后通过一个全连接层输出结果

注意力机制

注意力机制让网络更聚焦于输入中相关信息的方法，从而减少对无关信息的关注程度

计算步骤：

将输入X通过函数f(x)将其分成若干个[a1,a2…at ]节点，这些节点分别通过三个权重矩阵W^q、W^k和W^{v，得到对应的q}t^ 、k^t 和 v^t
qⁱ = aⁱW^q kⁱ=aⁱW^k vⁱ=aⁱW^v
其中qⁱ 代表查询向量，后续会去和每一个kⁱ进行匹配
kⁱ代表被查询向量，后续会被每个qⁱ匹配，vⁱ代表从aⁱ中提取得到的信息向量
计算qⁱ和kⁱ之间的相似性来获得权重
对相似度权重进行归一化处理。常使用softmax函数将相似度矩阵归一化为注意力权重矩阵。

通过softMax函数就可以将多分类的输出值转换为范围在[0,1]和为1的概率分布
根据权重对信息向量进行求和得到注意力：

其中，L_x表示输入序列的长度，Similarity表示相似度计算，Q、K和V分别表示查询向量、被查询向量和信息向量

图像序列化和位置编码

Transfomer的输入是一个序列，要能够对图像进行处理则要使得二维的图像变成一个一维的序列。
在这里插入图片描述

Transformer模块

Transfomer模块上是基于编码器和解码器架构，而编码器和解码器是由多个层构成。编码器负责提取特征，解码器负责将提取到的特征转化为结果。编码器由注意力层和全连接层构成。
在这里插入图片描述

视觉Transformer的优势和缺点

优点

多模态融合能力强
更宽广的感受野

缺点

VIT有着庞大的计算量、参数量和算法复杂度。
数据需求量大

Transformer在低级视觉任务中的应用

低级视觉任务常用数据集

在这里插入图片描述

更多推荐

Hadoop sqoop

0目录1.安装sqoop2.补充sqoop流程1.安装sqoop解压、改名[root@kb129install]#tar-xvf./sqoop-1.4.7.tar.gz-C/opt/soft/[root@kb129soft]#mvsqoop-1.4.7/sqoop147拷贝配置文件[root@kb129conf]#pw

[k8s] kubectl port-forward 和kubectl expose的区别

kubectlport-forward和kubectlexpose是Kubernetes命令行工具kubectl提供的两种不同方式来公开服务。kubectlport-forwardkubectlport-forward命令用于在本地主机和集群内部的Pod之间建立一个临时的端口转发通道。该命令将本地机器上的一个端口绑定到

DVWA靶机，通过XSS盗取cookie登录

文章目录一发现XSS漏洞1.1登录DVWA，找到XSS（DOM）模块，测试XSS是否存在。1.2在选项的传参后面加入一串js代码，也就是可以XSS弹出的代码。payload如下：二、盗取cookie2.1在XSS平台上搭建一个测试项目。这里用的是免费的XSS平台：选择【我的项目】->【创建】，创建一个测试项目：2.2配

Java高级-注解

注解1.介绍2.元注解3.注解的解析4.注解的应用场景1.介绍注解Annotation就是Java代码里的特殊标记，作用是让其他程序根据注解信息来决定什么是执行该程序注解：注解可以在类上、构造器上、方法上、成员变量上、参数上等位置自定义注解/***自定义注解*/public@interfaceMyTest1{Strin

IntelliJ IDEA 2023.2 最新版如何激活?IntelliJ IDEA 2023.2最新版激活方法及验证ja-netfilter配置成功提示

🌷🍁博主猫头虎带您GotoNewWorld.✨🍁🦄博客首页——猫头虎的博客🎐🐳《面试题大全专栏》文章图文并茂🦕生动形象🦖简单易学！欢迎大家来踩踩~🌺🌊《IDEA开发秘籍专栏》学会IDEA常用操作，工作效率翻倍~💐🌊《100天精通Golang(基础入门篇）》学会Golang语言，畅玩云原生，走遍大

SpringBoot ＋MyBatis批量插入数据

💍背景介绍在最近的开发过程中，遇到了往数据库中表中插入大量的数据。有一个全国银行各分行的信息，共计148032条数据文件有8.45MB，因为考虑到数据量比较大，就想着导入到MySQL看一看需要多长时间。💍方案一：用for语句循环插入（不推荐）使用for循环语句将，将数据一条条插入。insertintot_bankv

【LeetCode-面试经典150题-day25】

目录530.二叉搜索树的最小绝对差230.二叉搜索树中第K小的元素98.验证二叉搜索树530.二叉搜索树的最小绝对差题意：给你一个二叉搜索树的根节点root，返回树中任意两不同节点值之间的最小差值。差值是一个正数，其数值等于两值之差的绝对值。树中节点的数目范围是[2,100]0<=Node.val<=105【输入样例】

React+Typescript项目环境中搭建并使用redux环境

前几篇文章我们的项目已经开始功能渐渐完善了那么我们来说最后一个点redux这个并不需要我们多努力其实官方文档给到已经算是很全面了我们可以直接访问地址TypeScript中文手册中文手册和官方是一样的而且对我们非常友好我们会在左侧导航栏中找到一个React点进去进入之后一直往下翻我们就可以看到Redux部分我们直接用他这

9.子数组统计问题

文章目录子数组计数问题[560.和为K的子数组](https://leetcode.cn/problems/subarray-sum-equals-k/)[974.和可被K整除的子数组](https://leetcode.cn/problems/subarray-sums-divisible-by-k/)[523.连续

C#实战：基于腾讯OCR技术实现企业证书识别和数据提取实践

一、OCR技术介绍在当今数字化时代，OCR（OpticalCharacterRecognition）识别技术正发挥着越来越重要的作用。OCR技术通过将图像中的文字转化为可编辑的文本形式，实现了对大量纸质文档的数字化处理和信息提取。常见的有企业资质证书的识别到身份证、护照等各类证件的自动识别等方面，OCR技术正在为各行各

macOS Big Sur：探索新设计，聚焦新体验

自苹果公司推出macOSBigSur以来，这一新版操作系统以其突破性的设计刷新了我们对Mac的认知。本文将详细介绍macOSBigSur的各项新功能及其为用户带来的卓越体验。安装：macOSBigSur(macos11)v11.7.10正式版一、全新设计：导览更轻松，控制更随心macOSBigSur对用户界面进行了全面

热文推荐

实时云渲染与直播应用场景结合技术探索

//随着互联网以及终端设备的全面发展，直播在日常的生活中已经越来越常见。越来越多的人开始在直播中与主播互动，作为一种娱乐消遣的方式。但是有些直播平台频发的卡顿以及打赏特效的单一会让用户的直播体验大打折扣。LiveVideoStack邀请到腾讯云的江敏为我们介绍腾讯云如何将云渲染应用在直播场景中，为直播带来更好的体验。文
前端中blob文件流和base64的区别

在前端中，base64和fileBlob是用于处理文件数据的两种不同方式。1.Base64编码Base64是一种将二进制数据转换为文本字符串的编码方式。它将文件数据转换为一串由ASCII字符组成的字符串。在前端中，可以使用JavaScript的btoa()和atob()函数来进行Base64编码和解码。优点：-Base
基於RISC-V QEMU 仿真運行Linux 系統環境搭建

前言文章詳細說明如何從堶零開始基於RISC-VQEMU仿真運行Linux系統環境搭建,是Linux小白入門教程不二之選,歡迎留言討論,轉發請注明原文出處~1.準備QEMU仿真環境--RISC-V64bits安裝包下載地址:https://www.qemu.org/安裝命令及安裝成功效果如下所示,target-list設
RabbitMQ常见的应用问题

文章目录1.消息可靠性保障2.消息的幂等性保障1.消息可靠性保障在实际生产环境中，可能会由于网络问题导致消息接收异常产生某种影响，基于这种情况我们需要保障消息的可靠性。RabbitMQ中的消息可靠性也称为消息补偿，如下图所示，可以保证消息的可靠性。分为9种种步骤实现消息补偿1、生产者处理业务逻辑，将数据写入到数据库。2
【云原生】kubernetes应用程序包管理工具Helm

Helm什么是Helm安装Helm重要概念使用Helm1简介官网地址:HelmHelm是一个Kubernetes应用程序包管理工具，它允许你轻松管理和部署Kubernetes应用程序。Helm通过使用称为Charts的预定义模板来简化Kubernetes应用程序的部署和管理。Chart包含了一组Kubernetes对象
【云原生 | 58】Docker三剑客之Docker Swarm中的调度器

🍁博主简介：🏅云计算领域优质创作者🏅2022年CSDN新星计划python赛道第一名🏅2022年CSDN原力计划优质作者🏅阿里云ACE认证高级工程师🏅阿里云开发者社区专家博主💊交流社区：CSDN云计算交流社区欢迎您的加入！目录1、spread调度策略2、binpack调度策略👑👑👑结束语👑👑👑
[Django-1] 快速建立项目

初始化Django初始化项目创建app项目和app的关系下面的代码一般放在view.py中项目启动项目中中的urls.py和app中的urls.py的关系ModelDjango生成表查询理解初始化项目python-mpipinstallDjangocd到想要创建项目的目录django-adminstartproject
【云原生之Docker实战】使用Docker部署flatnotes笔记工具

【云原生之Docker实战】使用Docker部署flatnotes笔记工具一、flatnotes介绍1.1flatnotes简介1.2flatnotes特点二、本地环境介绍2.1本地环境规划2.2本次实践介绍三、本地环境检查3.1检查Docker服务状态3.2检查Docker版本3.3检查dockercompose版本
036：vue导出页面生成pdf文件

第036个查看专栏目录:VUE------elementUI专栏目标在vue和elementUI联合技术栈的操控下，本专栏提供行之有效的源代码示例和信息点介绍，做到灵活运用。（1）提供vue2的一些基本操作：安装、引用，模板使用，computed，watch，生命周期(beforeCreate，created,befo