时间:2022-11-04 12:22:24
然后,为了进一步提高ViT的泛化能力,我们分别设计了结合对抗学习、信息论和自监督学习的三种泛化能力提升的ViT。通过研究这三种类型的泛化增强ViT,我们观察到了ViT模型针对梯度的敏感性,并设计了一个更平滑的学习策略,以实现稳定的训练过程。通过修改的训练方案,我们实现了相较于原始ViT在OOD数据下的泛化性能4%左右的提升。通过将这三种泛化增强的ViT与它们对应的CNN模型进行综合比较,得到以下结论:
从单个特征图构建多尺度特征图的策略与SSD的策略有关。然而,本文的场景涉及从深度、低分辨率的特征图进行上采样,而SSD利用了较浅的特征图。在分层主干中,上采样通常由横向连接辅助;在普通的ViT主干中,作者凭实验发现这不是必需的,简单的反卷积就足够了。作者认为这是因为ViT可以依赖位置嵌入来编码位置,并且还因为高维ViT补丁嵌入不一定会丢弃信息。
在本文的研究中,作者的目标不是开发新组件。相反,作者进行了足以克服上述挑战的最小调整。特别是,本文的检测器仅从普通ViT主干的最后一个特征图构建一个简单的特征金字塔(见上图)。这放弃了FPN设计并放弃了分层主干的要求。为了有效地从高分辨率图像中提取特征,本文的检测器使用简单的非重叠窗口注意力。少量的跨窗口块(例如4个)可能是全局注意力或卷积,用于传播信息。这些调整仅在微调期间进行,不会改变预训练。
在这项工作中,作者追求不同的方向:探索仅使用普通、非分层主干的目标检测器。如果这个方向成功,它将能够使用原始ViT主干进行目标检测;这将使预训练设计与微调需求脱钩,保持上游与下游任务的独立性,就像基于ConvNet的研究一样。这个方向也部分遵循了ViT在追求通用特征时“减少归纳偏置”的哲学。由于非局部自注意力计算可以学习平移等变特征,它们还可以从某些形式的监督或自监督预训练中学习尺度等变特征。
*摘要:在本文中,我们提出了转换图像和视觉变压器(VIT)模型的组合使用,该模型用秘密键转换。我们首次展示了经过普通图像训练的模型可以直接转换为根据VIT体系结构训练的模型,并且使用测试图像时,转换模型的性能与经过纯图像训练的模型相同用钥匙加密。此外,提出的方案不需要任何特殊准备的数据进行培训模型或网络修改,因此它还使我们可以轻松更新秘密密钥。在实验中,在CIFAR-10数据集中的图像分类任务中,根据性能降解和模型保护性能评估了提出方案的有效性。
ViTDet这个工作系统地探讨了如何将ViT更好地应用在下游检测任务,它不直接对改变原生ViT的预训练过程,而是在适应下游任务上做适当地改进,并实现了和层级ViT模型类似甚至更好的性能,而且也证明了MAE预训练对性能的提升所起到的巨大作用。
去年圣诞节,Lorena Bello在家里为社交媒体制作视频,宣传她设计的一对新耳环。"她来自西班牙Viana do Bolo平面和三维设计师。Bello女士在最近的一次视频采访中说:"有一次我妈妈在我身后,她看着我的手...
据财报网报道,六福珠宝将推出3款NFT数字藏品,包括六福珠宝全球代言人李易峰粉丝专属的“数字蜜蜂NFT”、520告白专属“1314克拉数字钻戒NFT”及婚嫁新人的“爱∞数字婚书NFT”。“数字蜜蜂NFT”将于5月4日限量...
根据《深圳证券交易所上市公司自律监管指引第3号——行业信息披露(2023年修订)》第四章第八节珠宝相关业务的要求,周大生珠宝股份有限公司现将2023年6月份公司新增自营门店概况披露如下:。免责声明:文章中操作建议仅代表第...
3月29日,A股盘面上看,三大指数多数下跌。据数据显示:截至收盘,上证指数收报3025.56点,涨幅0.49%;深证成指收报9322.22点,跌幅0.22%;创业板指收报1805.61点,跌幅0.07%。 今日(3月2...