Quoc Le提出卷积网络专属正则化方法DropBlock

  • 时间:
  • 浏览:28
  • 来源:奶油资讯网

选自arXiv

机器之心编译

作者:Golnaz Ghiasi、Tsung-Yi Lin、Quoc V. Le

参加:路

近来,谷歌大脑团队在 arXiv 上发布论文,提出了一种卷积网络正则化办法 DropBlock,它是 dropout 的变体,但青出于蓝而胜于蓝。

深度神经网络在具有许多参数、运用许多正则化和噪声时作用很好,如权重衰减和 dropout [1]。虽然 dropout 的初次成功与卷积网络相关,但近期的卷积架构很少运用 dropout [3–10]。大部分情况下,dropout 首要用于卷积网络的全衔接层。

本论文以为 dropout 的首要缺点在于它随机丢掉特征。虽然这对全衔接层有用,但对特征具有空间相关的卷积层而言没那么有用。当特征相互相关时,即便运用 dropout,输入信息依然能传输到下一层,导致网络过拟合。这表明咱们需求 dropout 的更结构化方式来更好地正则化卷积网络。

本论文介绍了一种 dropout 的结构化方式 DropBlock,关于正则化卷积网络分外有用。在 DropBlock 中,同一模块中的特征会被一同丢掉,即特征图的相邻区域也被丢掉了。因为 DropBlock 丢掉了相关区域中的特征,该网络有必要从其他地方寻觅依据来拟合数据(见图 1)。

图 1:(a) 卷积神经网络的输入图画。(b) 和 (c) 中的绿色区域包括激活单元,其包括输入图画中的语义信息。随机丢去激活单元在移除语义信息方面并没有作用,因为邻近的激活单元包括高度相关的信息。而丢掉相邻区域能够移除特定语义信息(如头或脚),使剩下的单元学习能够分类输入图画的特征。

试验中,DropBlock 在许多模型和数据会集的功能大大优于 dropout。向 ResNet-50 架构添加 DropBlock 使其在 ImageNet 数据集上的图画分类准确率从 76.51% 提升到 78.13%。在 COCO 检测使命上,DropBlock 将 RetinaNet 的 AP 从 36.8% 提升到 38.4%。

论文:DropBlock: A regularization method for convolutional networks

论文链接:https://arxiv.org/pdf/1810.12890.pdf

摘要:深度神经网络在过参数化和运用许多噪声和正则化(如权重衰减和 dropout)进行练习时往往功能很好。dropout 广泛用于全衔接层的正则化,但它对卷积层的作用没那么好。原因或许在于卷积层中的激活单元是空间相关的,运用 dropout 后信息依然能够经过卷积网络传输。因而咱们需求 dropout 的一种结构化变体来对卷积网络进行正则化。本论文就介绍了这样一种变体 DropBlock,它会丢掉特征图相邻区域中的单元。此外,在练习过程中逐步添加丢掉单元的数量会带来更高的准确率,使模型对超参数挑选具有更强的鲁棒性。许多试验证明,DropBlock 在正则化卷积网络方面功能优于 dropout。在 ImageNet 分类使命上,具有 DropBlock 的 ResNet-50 架构达到了 78.13% 的准确率,比基线模型提高了 1.6%。在 COCO 检测使命上,DropBlock 将 RetinaNet 的 AP 从 36.8% 提升到 38.4%。

DropBlock 是相似 dropout 的简略办法。二者的首要差异在于 DropBlock 丢掉层特征图的相邻区域,而不是丢掉独自的随机单元。Algorithm 1 展现了 DropBlock 的伪代码。DropBlock 具有两个首要参数 block_size 和 γ。block_size 是要丢掉的 block 的巨细,γ 操控要丢掉的激活单元的数量。

咱们在不同特征通道上对同享 DropBlock mask 进行了试验,也在每个特征通道上对 DropBlock mask 进行了试验。Algorithm 1 对应后者,它的作用在试验中也更好一些。

图 2:DropBlock 中的掩码采样(mask sampling)。(a) 与 dropout 相似,咱们先在每个特征图上采样掩码 M。咱们仅从绿色框中采样掩码,该区域中的每个采样条目(sampled entry)都能够扩展到彻底包括在特征图中的掩码。(b) M 中每个 zero entry 都能够扩展为 block_size × block_size zero block。

与 dropout 相似,咱们不将 DropBlock 用于揣度。

设置 block_size 的值。在完成中,咱们为一切特征图设置常数 block_size,不管特征图的分辨率是多少。当 block_size = 1 时,DropBlock 相似 dropout,当 block_size 掩盖完好特征图的时分,DropBlock 相似 SpatialDropout。

设置 γ 的值。在实践中,咱们没有显性地设置 γ 的值。如前所述,γ 操控要丢掉的特征的数量。假定咱们想把每个激活单元的保存概率设置为 keep_prob,则在 dropout 中二进制掩码会被运用伯努利分布进行采样。可是,因为掩码中的每个 zero entry 将运用 block_size^2 进行扩展,得到的 block 将被彻底包括在特征图中,因而咱们在采样初始二进制掩码时需求据此调整 γ 的值。在咱们的完成中,γ 能够依照下列公式核算:

其间 keep_prob 是传统 dropout 中单元被保存的概率。有用种子区域的巨细是 (feat_size − block_size + 1)^2,其间 feat_size 是特征图的巨细。DropBlock 的微妙在于被丢掉的 block 会有一些堆叠,因而上述公式仅仅近似。试验中,咱们首要估量 keep_prob 的值(0.75 到 0.95 之间),包容后依据上述公式核算 γ 的值。

Scheduled DropBlock。咱们发现具有固定 keep_prob 的 DropBlock 在练习过程中体现欠好。开始 keep_prob 的值过小会影响模型的学习。而逐步下降 keep_prob 的值(从 1 下降到目标值)更具鲁棒性,改进了大多数 keep_prob 的值。试验中,咱们运用线性机制来下降 keep_prob 的值,其在许多超参数设置中都体现杰出。该线性机制相似于 ScheduledDropPath。

4 试验

表 1:ResNet-50 架构在 ImageNet 数据集上的验证准确率。关于 dropout、DropPath 和 SpatialDropout,咱们运用不同的 keep_prob 值进行练习,陈述的是最优成果。DropBlock 运用 block_size = 7 进行练习。上表显现的是 3 次运转的平均值。

图 3:x 轴为 keep_prob,ResNet-50 模型在 ImageNet 数据集上的验证准确率改变(y 轴)。一切办法丢掉的都是第 3、4 组的激活单元。

图 4:在 ImageNet 数据集上练习的 ResNet-50 比照,DropBlock 应用于 group 4 或 groups 3、4。

表 2:AmoebaNet-B 架构在 ImageNet 数据集上的 top-1 和 top-5 验证准确率。

本文为机器之心编译,转载请联络本大众号取得授权。

------------------------------------------------

猜你喜欢

女人陷入爱情会多可悲:恋人给她安排了两次不幸的婚姻

1我是以北晋郡主的身份,嫁至南梁和亲的,晚笙亲王之尊,却固执亲身担任和亲青鸟使,一路护卫。我想,他之所以如此,多少应该仍是有些愧意的罢,究竟,他负我,真实太深。许是上

2018-12-13

每年野马最吸睛的就是你,快来报名光猪兔吧

勇者,雪中光猪也。撰文/小叶修改/小叶周一上午11点,浩天信和杯·第四届野鸭湖冰雪马拉松正式开端报名。扫码下方二维码,即可一键报名。这场竞赛,是2019年北京首场马拉

2018-12-13

上马2小时30分!李芷萱拉爆男博士:用实力让世界低头

上海马拉松,李芷萱拉爆了周围的男陪跑。撰文/小叶修改/小叶2小时30分20秒!上周日的上海马拉松,李芷萱冲过结尾线,拿到了国内女子冠军。这一成果,是我国2018年度现

2018-12-13

白宫控诉:“他摸我们女性工作人员”

“我从来没见过一位美国总统这么对待一个记者”,CNN的主播惊叹说。这话针对的就是,美国总统特朗普和CNN记者吉姆·阿科斯塔(JimAcosta)这两天的比赛。7日,美

2018-12-13

一个资深时尚策划人的美妆之道

咱们好,我是谁不重要(横竖不是李雪琴)。本月的碰头形似提早了一些,入冬后这两天嘎嘎冷,把我冻的没有满满的正能量,也没有太多的问寒问暖。但仍是要提示咱们留意保暖,回绝日

2018-12-13