极链科技受邀参加CVPR2019 加速计算机视觉核心技术发展

互联网
2019
06/21
14:12
分享
评论

2019年6月16日至6月20日,国际计算机视觉与模式识别会议(CVPR2019)在美国长滩召开,极链科技作为连续两年谷歌地标识别大赛冠军队伍,再次受邀参加。AI研究院顾寅铮作为冠军团队代表在当地时间16日上午的Retrieval Challenge Winner Presentations上台发表精彩演讲。

作为连续两年获得Google地标识别挑战赛的冠军,极链科技的参赛AI团队在会上分享,内容重点涵盖了他们本次比赛的难点与获胜方案。

本次比赛和去年存在相同的几个难点:

1.类别数量极不平均:平均每类20.35张样本,但不到20张的类别有15万类,差不多是总数的4分之3,其中将近1万9千类样本数目更是只有1张;

2.由于未经过任何人工清洗,训练集同一类别中存在很多图片没有任何共同点,或者同一地标的图片出现在不同类别内;

3.测试集内存在大量干扰图片。

本次比赛采用的方法大致如下(更详细的介绍应主办方要求将会以论文形式上传arXiv):

由于今年类别总数超过20万,我们直接放弃CNN分类网络的训练并选择以检索方法为中心思想,具体由以下两个模型及三个步骤组成。

模型1:Global Retrieval Model。在清理过的训练集(总共83万张,11万类)上训练的基于全局特征的检索模型,backbone选用ResNet-101, ResNeXt-101, SE-ResNet-101, SE-ResNeXt-101, SENet-154五种基础模型,pooling选用GeM, RMAC, MAC, SPoC四种,且每个global pooling后都接了1024维输出的全连接层,最终的特征由以上四个pooling输出(每个2048维)和四个全连接输出(每个1024维)拼接组成,共12288维。损失函数选择Contrastive+Triplet同时训练,训练后利用attenuated unsupervised whitening降维至2048。最终模型由以上这五个模型(对应五个基础网络)和开源的DIR模型加权拼接组成。

模型2:Local Retrieval Model。此模型采用谷歌最近开源的Detect-to-Retrieve(简称D2R)模型。(https://github.com/tensorflow/models/tree/master/research/delf)

步骤1:用模型1将所有11.8万测试集图片与413万训练集图片进行比对,每张测试图片保留与其最接近的五张训练图片的相似度,并选取总和最高的类别作为最终预测。此步骤在private/public榜单分数为0.25138/0.21534。

步骤2:和步骤1一样,不过这次保留top-20训练图片并用模型2进行二次比对,最终预测选用二次比对top-5总分(D2R)最高的类别。此步骤在private/public榜单分数为0.31870/0.26782。

步骤3:此步骤为整个流程中最关键的一步。由于比赛采取GAP机制评分,若干扰图片在ranked list中排名过高会直接影响最终成绩,对此我们采取以下re-ranking策略。从步骤2的rank-1测试图片开始,对所有排名靠后(直至rank-20000)的图片用模型2进行比对,若得分高于特定阈值(我们设定为23),则提高此图片的排名。对所有top-500的测试图片都进行此操作后对重新排序的list进行二次re-rank。此流程结束后private/public榜单分数为0.36787/0.31626。最后,将此策略用在步骤1的预测上(这次选取top-300,由于步骤1的分数相对较低),并将两个新的re-ranked lists的top图片以交叉形式排序,得分为最终夺冠分数0.37606/0.32101。

另外,我们也尝试了用模型1提取的特征训练MLP,并对其进行以上步骤3的操作。此结果最终在private榜单上的分数可以提高至0.37936,不过可惜由于其在public榜单得分0.32100,我们没有选取此次提交作为最终提交。

计算机视觉在当前人工智能领域的热度已无需赘言,近年来以计算机视觉为核心的技术发展方向型企业获得大量投资者垂青。作为计算机视觉领域级别最高的研究会议,CVPR2019代表了计算机视觉领域在2019年最新和最高的科技水平及未来技术发展的趋势。本次极链科技再次获得谷歌地标识别大赛冠军,并受邀作出演讲,即是对公司AI技术水平的认同,也是对当前AI识别技术发展趋势的肯定。未来,极链科技也将持续深耕计算机视觉领域,深化差异性战略,加速完成计算机视觉相关应用的产业落地。

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

相关推荐

1
3