竞技宝app官方

竞技宝app官方光能和热能动态 无需额外数据,首次实现ImageNet 87.1% 精度,颜水成团队开源VOLO

发布日期:2021-07-10 12:29    点击次数:209

近十年来,计算机视觉识别义务不息由卷积神经网络 (CNN) 主导。尽管比来通走的视觉 Transformer 在基于 self-attention 的模型中表现出重大的潜力,但是在异国挑供额外数据的情况下,比如在 ImageNet 上的分类义务,它们的性能照样不如最新的 SOTA CNNs。现在,在无额外数据集时,ImageNet 上的最高性能照样是由 Google DeepMind 挑出的 NFNet (Normalizer-Free Network)所获得。

无需额外数据,首次实现ImageNet 87.1% 精度,颜水成团队开源VOLO

ImageNet 分类性能实时排走榜(无额外数据集),来源 https://paperswithcode.com/

无需额外数据,首次实现ImageNet 87.1% 精度,颜水成团队开源VOLO

Cityscapes validation 实时排走榜,来源 https://paperswithcode.com/

在一篇比来发外的论文中,来自新添坡 Sea 集团旗下、颜水成教授领导的 Sea AI Lab (SAIL) 团队挑出了一栽新的深度学习网络模型组织——Vision Outlooker (VOLO),用于高性能视觉识别义务。它是一个浅易且通用的组织,在不行使任何额外数据的情况下,实现了在 ImageNet 上图像分类义务 87.1% 的精度现在的;同时,实现了在分割数据集 CityScapes Validation 上 84.3% 的性能,创下 ImageNet-1K 分类义务和 CityScapes 分割义务的两项新纪录。

无需额外数据,首次实现ImageNet 87.1% 精度,颜水成团队开源VOLO

VOLO 模型与 SOTA CNN 模型(NFNet)和 Transformer 模型(CaiT)的 ImageNet top-1 实在率比较。在行使更少参数的情况下,VOLO-D5 优于 CaiT-M48 和 NFNet-F6,并首次在不行使额外训练数据时达到了 87% 以上的 top-1 实在率。

颜水成教授认为竞技宝app官方光能和热能动态,以 Transformer 为代外,「Graph Representation + Attentive Propagation」以其变通性和普适性已表现出成为各周围同一框架的潜能,VOLO 算法外清新在视觉周围 Attention 机制也能够超越 CNN, 佐证了各周围走向模型同一的可走性。

无需额外数据,首次实现ImageNet 87.1% 精度,颜水成团队开源VOLO 论文地址:https://arxiv.org/pdf/2106.13112.pdf GitHub 地址:https://github.com/sail-sg/volo 手段概述

这项做事旨在缩短性能差距,并表明在无额外数据的情况下,基于仔细力的模型优于 CNN。

详细来说,作者发现节制 self-attention 模型在图像分类中的性能的主要因素是在将邃密级特征编码到 token 外征中的效率矮下。

为晓畅决这个题目,作者挑出了一栽稀奇的 outlook attention,并挑出了一个浅易而通用的架构——Vision OutLOoker (VOLO)。

与凝神于不详全局倚赖建模的 self-attention 差别,outlook attention 旨在将更邃密的特征和上下文有效地编码为 token,这些 token 对识别性能至关主要,但在很大水平上被自仔细力所无视。

Outlooker

VOLO 框架分为两个阶段,或者说由两个大的 block 组成:

第一个阶段由众层 outlooker 组成,旨在用于生成邃密级别的数据外征; 第二个阶段安放一系列 transformer 层来聚相符全局新闻。在每个阶段的最先,行使 patch 嵌入模块将输入映射到响答大幼的数据外示。

第一个 stage 由众层 outlooker 组成,outlooker 是本文挑出的稀奇的 attention 层竞技宝app官方光能和热能动态,每一层 outlooker 由一层 outlook attention 层和 MLP 组成,如下所示为一层 outlooker 的实现手段。

无需额外数据,首次实现ImageNet 87.1% 精度,颜水成团队开源VOLO

其中,中央操行为 Outlook attention,如下图所示:

无需额外数据,首次实现ImageNet 87.1% 精度,颜水成团队开源VOLO

详细来说,outlook attention 的操作如下所示:

无需额外数据,首次实现ImageNet 87.1% 精度,颜水成团队开源VOLO

总体而言,outlook attention 具有如下益处:

较矮的复杂度:相对于清淡 self-attention 的时间复杂度是 O(H^2xW^2),而 outlook attention 只有 O(HW x k2 x k2)=O(HW x k4),而窗口大幼 k 清淡只有 3 或者 5,远幼于图片尺寸 H 和 W。所以可用于具有更高分辨率的特征图(例如,28x28 标记),这是挑高 ViT 的有效手段; 更好建模部门细节:适用于下游视觉行使,如语义分割; Key and Query free: outlook attention 中无 Key 和 Query,attention map 能够直接由线性生成,去失踪 MatMul(Query, Key),撙节计算量; 变通性:能够很容易地组成一个带有 self-attention 的同化网络。

作者也挑供了 Outlook attention 实现的假代码,如下图所示:

无需额外数据,首次实现ImageNet 87.1% 精度,颜水成团队开源VOLO

基于挑出的 Outlooker 和传统的 Transformer, 该做事挑出了 VOLO 架构,同时包含五个大幼变体,从幼到大挨次为 VOLO-D1 到 D5,架构暗示如下图所示:

无需额外数据,首次实现ImageNet 87.1% 精度,颜水成团队开源VOLO 实验

钻研者在 ImageNet 数据集上对 VOLO 进走了评估竞技宝app官方光能和热能动态,在训练阶段异国行使任何额外训练数据,并将带有 Token Labeling 的 LV-ViT-S 模型行为基线。他们在配有 8 块英伟达 V100 或 A100 GPU 的单个节点机上训练除 VOLO-D5 之外一切的 VOLO 模型,VOLO-D5 必要在双节点机上训练。

V0LO-D1 到 VOLO-D5 模型的竖立如下外 3 所示:

无需额外数据,首次实现ImageNet 87.1% 精度,颜水成团队开源VOLO 主要终局

下外 4 中,钻研者将 VOLO 模型与 SOTA 模型进走了比较,一切的终局都基于纯(pure)ImageNet-1k 数据集,异国行使额外训练数据。终局外明,VOLO 模型优于 CNN、Transformer 等以去 SOTA 模型。

详细来说,该做事在图像分类和分割中验证了所挑手段有效性,下图为 VOLO 在 ImageNet 上的实验终局,能够望出,仅凭 27M 参数,VOLO-D1 就能够实现 85.2% 的实在率,远超以去一切模型。同时 VOLO-D5 实现了 87.1% 的实在率,这也是现在在无额外数据集下 ImageNet 最好终局,比以去 SOTA 模型 NFNet-F6 有 0.5% 以上的升迁。

无需额外数据,首次实现ImageNet 87.1% 精度,颜水成团队开源VOLO Outlooker 的性能

钻研者展现了 Outlooker 在 VOLO 模型中的主要性,他们将比来的 SOTA 视觉 transformer 模型 LV-ViT-S 行为基线。LV-ViT-S 及 VOLO-D1 模型的实验竖立和响答终局如下外 5 所示:

无需额外数据,首次实现ImageNet 87.1% 精度,颜水成团队开源VOLO

钻研者还对 Outlooker 与部门自仔细力(local self-attention)和空间卷积进走了比较,终局如下外 6 所示。终局外明,在训练手段和架构相通的情况下,Outlooker 优于部门自仔细力和空间卷积。

无需额外数据,首次实现ImageNet 87.1% 精度,颜水成团队开源VOLO 融化实验

钻研者将 VOLO-D1 模型扩展至 4 个差别的模型,即 VOLO-D2 到 VOLO-D5,详细的规格如上外 2 所示,响答的终局如下外 7 所示。终局外明,当增补训练模型大幼和测试分辨率时,VOLO 模型都能够实现性能升迁。

无需额外数据,首次实现ImageNet 87.1% 精度,颜水成团队开源VOLO

钻研者还发现,VOLO 模型中 Outlooker 的数目对分类性能产生影响。下外 8 中,钻研者在展现了差别数目的 Outlooker 在 VOLO 模型中的影响。

终局外明,在不行使 Outlooker 时,具有 16 个 transformer 的基线模型取得了 83.3% 的实在率。增补 Outlooker 的数目能够升迁实在率,但行使 4 个 Outlooker 时即达到了性能饱和,之后增补再众的数目也无法带来任何性能添好。

无需额外数据,首次实现ImageNet 87.1% 精度,颜水成团队开源VOLO 下游语义分割义务上的性能

同时,该框架在下游义务上也取得了极大的升迁,比如语义分割义务上,VOLO-d4 在 CityScapes 上实现 84.3 mIoU,在 ADE20k 上实现了 54.3 mIoU。

无需额外数据,首次实现ImageNet 87.1% 精度,颜水成团队开源VOLO 无需额外数据,首次实现ImageNet 87.1% 精度,颜水成团队开源VOLO

总体来说,实验外明 VOLO 在 ImageNet-1K 分类上达到了 87.1% 的 top-1 实在率,在无额外数据集的情况下,首次在 ImageNet 上超过 87% 实在率的模型。

同时将该框架用于下游义务,比如语义分割 (Semantic Segmentation) 上,在 Cityscapes 和 ADE20k 上也实现了专门高的性能外现,VOLO-D5 模型在 Cityscapes 上实现 84.3% mIoU,现在位居 Cityscapes validation 首位。

做事总结

这个做事挑出了一个崭新的视觉模型,并取得了 SOTA 的效率。首次在无额外数据集下,让 attention 主导的模型超越了 CNN 主导的模型精度。在表清新视觉 attention 的主要性的同时,为钻研社区引入新的的模型框架和训练策略。

【编辑选举】竞技宝app官方光能和热能动态

华人博士发127页长文:自然说话处理中图神经网络从入门到精通 数据组织-计算机考研课程 武永亮先生主讲 微柔再发预告,黑示 Windows 11 触摸、视觉设计、音频都有升迁 大脑飞走?Hinton推特引炎议 神经网络是让幼鸟飞首来的「羽毛」? 微柔官宣!新版Office亮相视觉效率大幅更新