Open Vocabulary Detection Contest - 开放世界目标检测竞赛 2023

hosted by 360 AI Institute

竞赛目的与意义

目标检测是计算机视觉中的核心任务之一，主要目的是让计算机可以自动识别图片中目标的类别，并标示出每个目标的位置。当前主流的目标检测方法主要针对闭集目标开发，即在整个任务前期需要对待检测目标进行类别定义，并进行人工数据标注，通过有监督模型训练使模型达到目标检测的目的。这一方式可以处理的待检测目标通常限定在几十类以内。但是当需要检测的目标类别增加到几千、万类时，上述方式在数据标注环节上已无法应对。与此同时，已训练模型也无法应对新的类别。当有新的类别出现时，需要手动进行标注并再次训练该模型，整体效率较低。

开放词集目标检测（Open Vocabulary Detection, OVD）提供了解决上述问题的新思路。借助于现有跨模态模型（CLIP[1]、ALIGN[2]、R2D2[3] 等）的泛化能力，OVD可以实现以下功能：

1）对已定义类别的few shot检测；

2）对未定义类别的zero-shot检测。

开放词集目标检测有望成为未来目标检测算法开发的新范式。

“detection2”

任务设置

参赛者将运用OVD相关的方法，对图像中的商品目标进行检测。对于一件商品，我们会给出它的图片以及bbox作为训练数据。

目标类别有两类：base类和novel类。类别均为中文商品词组。base类的目标提供少量已标注的训练样本，novel类的目标则没有训练样本。评测分别在base类的测试集和novel类的测试集上进行，评测指标为novel和base类的mAP@50，竞赛按照novel和base类别的整体mAP@50排序。

奖项设置和奖励方法

一等奖：1支参赛队伍，奖金3万元
二等奖：2支参赛队伍，奖金各1万元
三等奖：3支参赛队伍，奖金各5千元
决赛获胜队伍将在ICIG2023大会上进行方案分享演讲

主要时间节点

阶段	时间	说明
线上报名	4/12 ~ 7/30	报名注册
初赛	4/12 ~ 7/30	-
初赛评审和复赛入围结果公布	7/30 ~ 8/10	-
复赛	8/10 ~ 8/30	-
复赛评审和结果公布	8/30 ~ 9/10	-
颁奖	9/22 ~ 9/24	-

竞赛参与者要求

参赛者可以自由组队，每队不限人数
每位参赛者只能参加一只队伍
初赛和复赛期间，每个队伍单日限制提交2次结果

竞赛组织

开放世界目标检测竞赛由360人工智能研究院 “360ai” 联合中国图象图形学学会 “csig” 共同举办。

360人工智能研究院成立于2015年，我们聚焦于研发业界领先的计算机视觉、深度自然语言理解、语音语义交互、大规模深度学习、机器人运动等人工智能技术，并应用于智慧物联网（IOT）、智能安全大数据、互联网信息分发、企业数字化、智能汽车等多种场景。团队多次在国际大赛中取得优异成绩，承担过国家和北京市多个重点攻关项目，参与建设国家级重点大数据工程实验室，参与建设的安全大脑入选国家新一代人工智能开放创新平台。我们打造的算法和服务，已应用于多条业务线，支持千万级硬件设备，亿级用户，产生的数据量达千亿规模。团队多名成员毕业于新加坡国立、清华、北大等国内外知名高校，大多数小伙伴曾任职于微软、百度、阿里等业界知名公司。我们的价值观是“研究业界一流技术，创造产业落地价值”。

[1] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, et al. Learning transferable visual models from natural language supervision. In International Conference on Machine Learning, pages 8748–8763. PMLR, 2021.

[2] C. Jia, Y. Yang, Y. Xia, Y.-T. Chen, Z. Parekh, H. Pham, Q. V. Le, Y. Sung, Z. Li, and T. Duerig. Scaling up visual and vision-language representation learning with noisy text supervision. In International Conference on Machine Learning, 2021.

[3] Xie C, Cai H, Song J, et al. Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework[J]. arXiv preprint arXiv:2205.03860, 2022.

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search