《动手学深度学习 Pytorch版》 6.1 从全连接层到卷积

2023-09-17 21:00:11

6.1.1 不变性

  • 平移不变性(translation invariance):

    不管检测对象出现在图像中的哪个位置,神经网络的前面几层应该对相同的图像区域具有相似的反应,即为“平移不变性”。

  • 局部性(locality):

    神经网络的前面几层应该只探索输入图像中的局部区域,而不过度在意图像中相隔较远区域的关系,这就是“局部性”原则。最终,可以聚合这些局部特征,以在整个图像级别进行预测。

6.1.2 多层感知机的限制

假设多层感知机的输入是 X X X,将其隐藏表示记为 H H H(二者形状相同)。

使用 [ X ] i j [\boldsymbol{X}]_{ij} [X]ij [ H ] i j [\boldsymbol{H}]_{ij} [H]ij 表示位置 ( i , j ) (i,j) (i,j) 位置上的像素点。

因为每个像素点都需要和其他像素点联系,故每个像素点都需要一个二阶的权重张量,又由于是二维图像,故最终权重张量 W \mathrm{W} W 为四维。

再假设偏置参数为 U U U,则可以将全连接层表示为:

[ H ] i j = [ U ] i j + ∑ k ∑ l [ W ] i , j , k , l [ X ] k , l [\boldsymbol{H}]_{ij} = [\boldsymbol{U}]_{ij}+\sum_k\sum_l[\mathrm{W}]_{i,j,k,l}[\boldsymbol{X}]_{k,l} [H]ij=[U]ij+kl[W]i,j,k,l[X]k,l

为了方便表示,我们对下标 ( k , l ) (k,l) (k,l) 进行重新索引,使得 k = i + a , l = j + b k=i+a,l=j+b k=i+a,l=j+b,则可以得到重拍后的权重矩阵 [ V ] i , j , a , b = [ W ] i , j , i + a , j + b [V]_{i,j,a,b}=[\mathrm{W}]_{i,j,i+a,j+b} [V]i,j,a,b=[W]i,j,i+a,j+b

上式可表述为:

[ H ] i j = [ U ] i j + ∑ a ∑ b [ V ] i , j , a , b [ X ] i + a , j + b [\boldsymbol{H}]_{ij} = [\boldsymbol{U}]_{ij}+\sum_a\sum_b[\mathrm{V}]_{i,j,a,b}[\boldsymbol{X}]_{i+a,j+b} [H]ij=[U]ij+ab[V]i,j,a,b[X]i+a,j+b

  1. 平移不变性

    现在引入平移不变性,即检测对象在输入 X X X 中的平移应该仅导致隐藏表示 H H H 中的平移。简言之,无须每个像素都要独享一个二维权值张量,所有像素共享同一个即可,故权重张量降为二维即可。此时式子可以简化为:

    [ H ] i j = u + ∑ a ∑ b [ V ] a , b [ X ] i + a , j + b [\boldsymbol{H}]_{ij} = u+\sum_a\sum_b[\boldsymbol{V}]_{a,b}[\boldsymbol{X}]_{i+a,j+b} [H]ij=u+ab[V]a,b[X]i+a,j+b

    这就是所谓卷积,使用系数 [ V ] a , b [\boldsymbol{V}]_{a,b} [V]a,b ( i , j ) (i,j) (i,j) 附近的像素 ( i + a , j + b ) (i+a,j+b) (i+a,j+b) 进行加权得到 [ H ] i j [\boldsymbol{H}]_{ij} [H]ij

  2. 局部性

    对于上述的 a , b a,b a,b 不应该取太大,即范围不应太大,至少不应该是全图。故可将 ∣ a ∣ > Δ ∣ b ∣ > Δ \left|a\right|>\Delta \left|b\right|>\Delta a>Δb>Δ的范围设置为0(即不考虑范围外的影响)。故可将式子重写为:

    [ H ] i j = u + ∑ a Δ ∑ b Δ [ V ] a , b [ X ] i + a , j + b [\boldsymbol{H}]_{ij} = u+\sum_a^\Delta\sum_b^\Delta[\boldsymbol{V}]_{a,b}[\boldsymbol{X}]_{i+a,j+b} [H]ij=u+aΔbΔ[V]a,b[X]i+a,j+b

至此,可以称 V V V 为卷积核。简言之,卷积操作实际就是计算一圈像素对中间像素的影响,使用不同的卷积核则计算的是不同方面的影响,最终实现提取不同特征的效果。此处参考王木头大佬的视频《从“卷积”、到“图像卷积操作”、再到“卷积神经网络”,“卷积”意义的3次改变》。

6.1.3 卷积

在数学中,卷积被定义为:

( f ∗ g ) ( x ) = ∫ f ( z ) g ( x − z ) d z (f*g)(\boldsymbol{x})=\int f(\boldsymbol{z})g(\boldsymbol{x}-z)d\boldsymbol{z} (fg)(x)=f(z)g(xz)dz

用一个例子说明的话,一个不确定的输入函数叠加上一个确定的输出函数,计算最终余量即为卷积。

6.1.4 “沃尔多在哪里”回顾

上面一直将图片作为二维张量,实际上图像一般包含三个通道(即RGB三原色),因此图像应该是一个由高度、宽度和颜色组成的三维张量。故我们应将 X \boldsymbol{X} X 索引为 [ X ] i , j , k [\boldsymbol{X}]_{i,j,k} [X]i,j,k,由此卷积核相应的调整为 [ V ] a , b , c [\boldsymbol{V}]_{a,b,c} [V]a,b,c,再添加一个 d d d 以实现不同通道的输出,即:

[ H ] i , j , d = ∑ a = − Δ Δ ∑ b = − Δ Δ ∑ c [ V ] a , b , c , d [ X ] i + a , j + b , c [\boldsymbol{H}]_{i,j,d} = \sum_{a=-\Delta}^\Delta\sum_{b=-\Delta}^\Delta\sum_c[\boldsymbol{V}]_{a,b,c,d}[\boldsymbol{X}]_{i+a,j+b,c} [H]i,j,d=a=ΔΔb=ΔΔc[V]a,b,c,d[X]i+a,j+b,c

练习

(1)假设卷积层式(6.3),覆盖的局部区域 Δ = 0 \Delta=0 Δ=0。在这种情况下,证明卷积核为每组通道独立地实现一个全连接层。

Δ = 0 \Delta=0 Δ=0 则意味着卷积核大小为1,那感觉和全连接没区别的哇。


(2)为什么平移不变性可能也不是好主意呢?

太单一,也许不同区域需要的卷积核不一样。


(3)当从图像边界像素获取隐藏表示时,我们需要思考哪些问题?

应该考虑关于填充的事情。


(4)描述一个类似的音频卷积层的架构。

将音频信息转换为二维数据或更高维再进行卷积操作。


(5)卷积层也适合于文本数据吗?为什么?

我觉得可以,只要找到合适的方法数据化文本。因为卷积这种对于特征的提取对于自然语言也应该是适用的。


(6)证明在式(6.6)中, f ∗ g = g ∗ f f*g=g*f fg=gf

( f ∗ g ) ( x ) = ∫ f ( z ) g ( x − z ) d z = ∫ f ( x − t ) g ( t ) d ( x − t ) ( 令 t = x − z ) = ∫ g ( t ) f ( x − t ) d t = ( g ∗ f ) ( x ) \begin{align} (f*g)(\boldsymbol{x}) &= \int f(\boldsymbol{z})g(\boldsymbol{x-z})d\boldsymbol{z}\\ &= \int f(\boldsymbol{x-t})g(\boldsymbol{t})d\boldsymbol{(x-t)}\qquad(令 t=\boldsymbol{x-z})\\ &= \int g(\boldsymbol{t})f\boldsymbol{(x-t)}d\boldsymbol{t}\\ &= (g*f)(\boldsymbol{x}) \end{align} (fg)(x)=f(z)g(xz)dz=f(xt)g(t)d(xt)(t=xz)=g(t)f(xt)dt=(gf)(x)

更多推荐

modbus的协议

在介绍Modbus协议之前,我们要先了解下RS485协议,因为Modbus协议是在RS485这个硬件层协议上搭建的软件层协议。RS485特性半双工。用缆线两端的电压差值来表示传递信号。RS485的特点包括1.S485的电气特性:逻辑“1”以两线间的电压差为+(2~6)V表示;逻辑“0”以两线间的电压差为-(2~6)V表

ChatGPT Prompting开发实战(八)

一.什么是归纳总结式的prompt开发有时候需要对一段文本进行归纳总结,那么可以采取以下的方案:-按照给定单词、句子或者字符的数量限制来让模型裁剪文本,使内容更精炼-基于聚焦的主题进行总结-只根据需求抽取相关的文本信息,不需要整段文本内容除了上面列出的几种方式之外,还可能有额外的一些需求,譬如给出多段文本,要求模型同时

JUnit测试进阶(Private测试)

Private测试前言一、间接调用二、Java反射机制调用前言在单元测试中,由于私有方法(PrivateMethod)无法直接被调用,因此对私有方法进行测试成为一项难题。一个可行的方法是:在测试时将私有方法改变为公有方法(PublicMethod),在测试完成后再将其修改为私有方法。然而,该方法操作过程比较复杂,不利于

Redis面试题(五)

文章目录前言一、使用过Redis做异步队列么,你是怎么用的?有什么缺点?二、什么是缓存穿透?如何避免?什么是缓存雪崩?何如避免?总结前言使用过Redis做异步队列么,你是怎么用的?有什么缺点?什么是缓存穿透?如何避免?什么是缓存雪崩?何如避免?`一、使用过Redis做异步队列么,你是怎么用的?有什么缺点?一般使用lis

Windows开机密码破解

目前可行的方法(目前只能通过进PE的方式进行密码的修改)通过本文最后“本文参考网页”下载Rufus写盘工具和Hiren’sBootCDPE镜像启动写盘工具,选择U盘和镜像U盘插入电脑时确保电脑为关机状态启动电脑,快速敲击Delete键,进入Bios界面(不同的电脑是通过不同的按键进入BIOS,可以利用搜索引擎查看你的电

腾讯会议核心存储治理:Redis分库和异地多活

👉导读会控为整个会议最为核心的业务,由于海量请求的高性能要求,后台存储全部为Redis。在业务飞速发展期,各模块边界不够清晰,大家对存储的使用处于失控状态,随着PCU的不断上涨,逐步暴露出存储和架构的诸多问题,同时也对系统容灾能力有了更高的要求。会控业务历史包袱重,存储改造伤筋动骨,要做到平滑迁移需要考虑的细节较多。

常用注解梳理

@RestController注解:将一个类标识为一个RESTful风格的控制器,用于处理HTTP请求和响应。@RequestMapping注解:用于将一个HTTP请求映射到控制器的处理方法上,可以用于类级别和方法级别。@PostMapping注解:用于将HTTPPOST请求映射到控制器的处理方法上。@GetMappi

浅谈xss

XSS简介XSS,全称CrossSiteScripting,即跨站脚本攻击,是最普遍的Web应用安全漏洞。这类漏洞能够使得攻击者嵌入恶意脚本代码到正常用户会访问到的页面中,当正常用户访问该页面时,则可导致嵌入的恶意脚本代码的执行,从而达到恶意攻击用户的目的。需要强调的是,XSS不仅仅限于JavaScript,还包括fl

vue模板语法(下集)

事件处理器Vue模板语法中的事件处理器是指在Vue组件中绑定DOM事件,当事件发生时执行相应的方法或表达式。常见的事件包括点击事件@click、输入事件@input、鼠标移入事件@mouseover等等。事件监听可以使用v-on指令2.1事件修饰符.Vue通过由点(.)表示的指令后缀来调用修饰符,.stop.preve

华为OD机试 - 矩形相交的面积 - 逻辑分析(Java 2023 B卷 100分)

目录专栏导读一、题目描述二、输入描述三、输出描述1、输入:2、输出:3、说明四、解题思路五、Java算法源码六、效果展示1、输入2、输出3、说明华为OD机试2023B卷题库疯狂收录中,刷题点这里专栏导读本专栏收录于《华为OD机试(JAVA)真题(A卷+B卷)》。刷的越多,抽中的概率越大,每一题都有详细的答题思路、详细的

高并发压力测试,你真的会做吗?

一、Introduction对于小微企业网站在自主推出某些活动时,可能导致网站产生高并发访问的情况。针对这种情况采用临时租用云服务器是有性价比的应对措施,比如,使用弹性云。这种租用服务有的按照访问流量计费。为了计算出大概的预算,需要根据推算的访问量做并发压力测试。二、压力测试方法一般,使用apache自带的ab.exe

热文推荐