业界动态
CVPR 2023 | 小红书提出OvarNet模型:开集预测的新SOTA,“万物识别”有了新玩法...
2024-10-31 21:42

fd1530d6300e16b6d649686277d3c92a.gif

CVPR 2023 | 小红书提出OvarNet模型:开集预测的新SOTA,“万物识别”有了新玩法...

在 CVPR 2023 上,小红书社区技术团队提出了一项全新任务—— Open-vocabulary Object Attribute Recognition(面向开放词汇的目标检测与属性识别)。该任务旨在采用单一模型对图像中任何类别目标同时进行定位、分类和属性预测,从而推动目标识别能力向更高的深度和广度发展。

本文提出了 OvarNet 这一全新模型,OvarNet 基于海量多模态数据预训练的视觉语言模型开发,利用可获得的目标检测和属性识别数据进行 prompt Learning(提示式学习)。同时,为了进一步获得高度可用的 Zero-shot 识别能力,我们从大规模图文数据中提取细粒度的类别和属性表示,进行弱监督学习。

此外,我们还采用知识蒸馏的方式简化模型计算复杂度,显著提升 OvarNet 的实用性和时效性。实验结果表明,OvarNet 在开集目标检测和属性识别任务上取得了新 SOTA,证明了识别语义类别和属性对于视觉场景理解的互补性。

b23df702059da6e2b0ab5a951bf19316.png

背景

理解视觉场景中的目标一直以来都是计算机视觉发展的主要驱动力,例如,目标检测任务的目的是在图像中定位出目标并为其分配预定义的语义标签,如“汽车”、“人”或“杯子”。尽管目标检测算法取得了巨大的成功,但是这种任务定义在很大程度上简化了我们对视觉世界的理解,因为一个视觉目标除了语义类别外,还可以从许多其他方面进行描述,例如,一辆公共汽车可以是“黄色”或“黑色”,一件衬衫可以是“条纹”或“无图案”。因此,学习属性可以补充类别级别的识别,从而获得更全面更细粒度的视觉感知。

已有大量的研究表明,理解目标的属性可以极大地促进目标识别和检测,甚至是对在训练集中极少出现或根本没有的视觉目标样例。然而,这些开创性工作中所考虑的问题和今天的标准相去甚远,例如,属性分类通常在以目标为中心的图像上进行训练和评估,而且属性的类别是固定的,有时甚至将目标的类别作为已知的先验。

在论文中,我们考虑在开放词汇场景下同时检测目标并分类属性的任务,即模型仅在一组可见的目标类别和属性上进行训练,但在测试时需要推广到未见过的目标类别和属性,如下图所示。完成这些任务我们观察到三个主要挑战

(1)首先,在现有的视觉语言模型中,例如 CLIP 和 ALIGN,从图文对中学习得到的表示往往偏向于目标类别,而不是属性,这导致在直接用于属性识别任务时存在特征不对齐的问题

(2)其次,没有理想的训练数据集同时包含三种类型(目标框、类别和属性)的标注。据我们所知,只有 COCO Attributes 数据集提供这样程度的标注,但它的词汇量相对有限 ( 196 个属性,29 个类别

(3)第三,在统一框架下训练这三项任务仍未被探索,具有一定到挑战性,即在开放词汇场景下同时定位(“在哪里”)和描述目标的语义类别和属性(“是什么”)。

3e9101474197dee915acedffb5e99196.png

为了解决上述问题,我们从一个简单的架构开始,称为 CLIP-Attr。该架构首先通过离线 RPN 从图像中提取目标候选框,然后通过比较属性词嵌入和候选目标的视觉嵌入之间的相似度来实现开放式词汇目标属性识别。为了更好地对齐属性词和候选目标之间的特征,我们在文本编码器端引入可学习的 prompt 向量,并在大量的图文对数据上微调原始 CLIP 模型。

为了进一步提高模型效率,我们提出了 OvarNet,这是一个统一的框架,可以在一次前向传播中进行检测和属性识别。OvarNet 是通过在目标检测和属性预测两个数据集上训练,并通过蒸馏 CLIP-Attr 模型的知识来提高在 novel/unseen 属性的性能。我们提出的 OvarNet 是第一个可扩展的管道,在开放词汇场景下可以同时定位目标,并同时推断视觉属性和目标类别。

实验结果表明,尽管只使用弱监督的图文对数据对 OvarNet 进行蒸馏,但它在 VAW、MSCOCO、LSA 和 OVAD 数据集上的表现优于先前的最新技术,展现了对新属性和类别的强大泛化能力。

73a27fbefa07bbf0d612c41cf5a4958e.png

方法

我们的方法主要分为 3 步:首先,利用目标检测数据和属性预测数据在开放词汇场景下训练一个简单的两阶段的方法;然后,通过利用大量的图文对数据进一步微调这个两阶段模型以提高在 novel/unseen 类别和属性上的性能;最后,为了保证泛化性和前传速度,我们基于知识蒸馏的范式设计了一个一阶段的算法。

2.1 两阶段算法

e2721e79b99142fd21d199f371f074e2.png

0bdd754d52912448f4fe9def71090da5.png

2.2 图文对数据微调

首先,我们对图文对数据进行预处理,从句子中解析出类别词、属性词、和名词短语;随后,我们使用预训练的 CLIP-Attr 对数据进行伪标签标注;最后为了避免噪声标签的影响,我们通过多实例 NCE 损失进行监督训练。

bf9796eb017e495a79046e584ee763e1.png

下图给出了利用海量图文对数据微调 CLIP-Attr 的网络结构图。

5323aad416ff30a9497f396dd7d5a518.png

2.3 单阶段蒸馏算法

尽管通过预先计算的提议框和上述的 CLIP-Attr 模型可以实现开放词汇目标属性预测,但其推理过程非常耗时,因为每一个裁剪后的区域都会输入到视觉编码器中。在这一部分,我们的目标是解决缓慢的推理速度,端到端地训练一个用于目标检测和属性预测的 Faster-RCNN 类型的模型,称为 OvarNet。图像会被依次经过视觉编码器、类别无关的区域提议网络和开放词汇属性分类网络。

a988645ea1d6408cbe2918b361e599c7.png

下图是其整体网络框架。为了提高模型处理未知类别和属性的能力,我们进一步加入了 CLIP-Attr 模型的额外知识进行蒸馏。

17032799fc4217e40fe3103c9b651cd8.png

5f5a7af205ad1cbab0346cede05b0e2a.png

实验

我们考虑的开放词汇目标属性识别包括两个子任务:开放词汇目标检测和对所有检测到的目标进行属性分类。所采用的数据集有 MS-COCO、VAW、LSA 和 OVAD。为了评估模型的性能,在指标评价上我们同时考虑 box-given 和 box-free 的设定,使用 mAP 进行评价。

3.1 COCO和VAW上的结

d08758df177e1bc9c40af0a9b69ec574.png

3.2 OVAD和LSA上的结果

9c244ea8ab3ec95bf0fe729c029e1b39.png

3.3 一些可视化结果

cf659a280be388bb9046aad27a0ba827.png

454a59544c34f1a21c29bfdd65f37ade.png

结语

本文探讨了开放词汇目标检测和属性识别问题,即同时定位目标并推断它们的语义类别和视觉属性。我们从一个简单的两阶段框架( CLIP-Attr )开始,使用预训练的 CLIP 对目标提议进行分类。为了更好地对齐以目标为中心的视觉特征与属性概念,我们在文本编码器侧使用可学习提示向量。在训练方面,我们采用联合训练策略来利用目标检测和属性预测数据集,并探索一种弱监督训练方案,利用外部图像-文本对增加识别新属性的鲁棒性。

最后,为了提高计算效率,我们将 CLIP-Attr 的知识蒸馏到一种 Faster-RCNN 类型的模型中(称为 OvarNet)。在 VAW、MS-COCO、LSA 和 OVAD 等四个不同的基准评估中,我们表明联合训练目标检测和属性预测有助于视觉场景理解,并大大优于现有方法独立处理两个任务的方法,展示了强大的泛化能力,可以处理新的属性和类别。

对内容的充分理解,是实现内容推荐和检索的有效工具。在小红书双列布局场景下,对笔记封面图篇的理解就显得格外重要。采用本文所示的开集目标属性识别能力,我们可以在更细粒度上对封面图进行结构化理解。比如除了可以检测到人物之外,还可以进一步标记人物衣着、姿态等属性,从而在进行推荐和检索时,实现更加智能和个性化的内容推荐。此外,在构建小红书的内容质量体系时,通过对图片的充分解析,我们能够更精确地描述一篇笔记的质量分级,进而实现内容基于质量的差异化分发。

论文地址

https://arxiv.org/abs/2301.09506

作者简介

陈科研

现博士就读于北京航空航天大学,曾在 Proceedings of the IEEE、TGRS、CVPR 等发表多篇论文。主要研究方向为遥感图像处理,多模态学习。

莱戈

小红书生态算法团队负责人。曾在 CVPR、ICCV、ECCV、TNNLS、TGRS 等会刊发表 10 余篇论文,曾获 YouTube-VOS 视频分割竞赛 Top-3 排名,曾获天池视觉分割大奖赛复赛第 1 名。主要研究方向:目标跟踪、视频分割、多模态分类/检索等。

汤神

小红书智能创作团队负责人。曾在 CVPR、ECCV、ICCV、TIFS、ACMMM 等会议与期刊发表近 20 篇论文。多次刷新 WiderFace 和 FDDB 国际榜单世界记录,ICCV Wider Challenge 人脸检测国际竞赛冠军,ICCV VOT 单目标跟踪冠军,CVPR UG2+ 亚军。

招聘

算法工程师-社区生态

1. 职责包括但不限于图文、视频等多模态内容的分类、检索、去重等工作,旨在优化平台内容生态、提升内容质量和分发效率,提高用户体验

2. 负责 CV 相关算法研发,包括但不限于:图像/视频分类、图像检测/分割、视频理解、人脸识别、OCR、自监督学习等

3. 负责 NLP 相关算法研发,包括但不限于:文本分析、语义分析、事件提取、分类、聚类、情感、问答、关系抽取、知识图谱等

4. 完成算法的快速实现以及大规模工业化部署,参与创新性算法的研究以及开发工作;提供系统解决方案,打造可复用的社区业务平台能力,提升社区核心服务稳定性; 有互联网内容生态相关技术从业经验者优先

任职要求

1. 计算机/电子信息/自动控制/软件工程/数学等相关专业,硕士及以上学历

2. 优秀的分析、解决问题能力,对新技术充满好奇,敢于挑战高难度,善于提出解决方案并快速验证

3. 熟练掌握 PyTorch/TensorFlow 等深度学习框架中的至少一种

4. 具备优秀的编程能力和经验,熟悉 Python、C/C++、Java 等编程语言,具有扎实的数据结构和算法功底

5.具备优秀的研究和创新能力,在 CVPR/ICCV/ECCV 与 ICML/ACL/EMNLP/KDD/AAAI 等计算机视觉&自然语言处理&机器学习领域国际顶会或顶刊上发表过论文或 workshop 获奖者优先; 在国际竞赛(如:ACM ICPC, Kaggle, KDD Cup 等)中获得过优异成绩者优先

REDtech@xiaohongshu.com

并抄送至:laige@xiaohongshu.com

NLP算法工程师-智能创作

基于高质量的小红书内容生态,研发实用领先的 NLP 智能创作技术,技术栈包括关键词提取、情感分析、上下文理解、命名实体识别、词性标注、句法分析、机器翻译、文本摘要、问答系统等,广泛支持智能内容创作需求,创造小红书独有的产品用户价值。

任职要求

1. 熟悉语言知识表示、多模态生成模型及 NLP 智能创作,在以下一个或多个领域有深入的研究及落地经验,包括但不限于:NLP 生成、文案创作、多轮对话、模型压缩等

2. 具有优秀的编程基础及动手能力、良好的工作习惯,丰富的业务落地实战经验,优秀的快速学习能力

3. 敢于应对实际挑战,有坚韧的品质、优秀的自驱能力,善于主动沟通表达和团队协作

4. 发表 ML/NLP 等顶会/期刊论文、取得权威竞赛 Top 名次、ACM 编程国际竞赛 Top 成绩者优先

REDtech@xiaohongshu.com
并抄送至:tangshen@xiaohongshu.com

更多阅读

94c91bc2d84521aa0a1e3727578645bd.png

60f7d09829ab3dbd158b814fb3a8c77c.png

95fe291cdfab8e17b2bed0497c66e3aa.png

225fc8c444fa24a7ace1cf7a7a02f450.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信,以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信pwbot02)快速投稿,备注:姓名-投稿

e8b670330a63911a9c1aec1b86b1b02d.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

    以上就是本篇文章【CVPR 2023 | 小红书提出OvarNet模型:开集预测的新SOTA,“万物识别”有了新玩法...】的全部内容了,欢迎阅览 ! 文章地址:http://syank.xrbh.cn/news/9575.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 迅博思语资讯移动站 http://kaire.xrbh.cn/ , 查看更多   
最新新闻
小红书卖什么东西比较火爆一点?
在小红书平台上,多种类型的产品因其独特的魅力和市场需求而备受追捧,形成了火爆的销售局面。以下是一些在小红书上卖得比较火爆
2024年Go最全数据分析工具 Top 8(1),阿里+头条+抖音+百度+蚂蚁+京东面经
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到
seo推广是什么意思呢_seo推广是什么意思呢怎么做
本文目录导读:SEO 推广的定义SEO 推广的重要性SEO 推广的方法SEO 推广的注意事项在当今数字化的时代,网站的存在对于企业、个人
上榜了!潍坊市博物馆冲上全国博物馆热搜榜!
近日,由中国文物交流中心指导,博物馆头条和文博头条统计发布的中博热搜榜发布2021年第四季度全国热搜博物馆百强榜单,百余家受
我靠抖音,两星期赚了8000块:你看不起的行业,未来十年很赚钱!
阿里巴巴创始人马云:“下一个暴利风口来了,将造就大批富翁,抓住就能致富!有没有发现,总有那么一群人,他们眼光毒辣,嗅觉敏
什么叫店铺动销率?如何查看?
我们在淘宝网店,最希望的就是本人的产品都能销售进来,这里面就触及到一个数字,就是店铺的动销率,那么什么是叫做店铺的动销率
java stream 防内存溢出 java poi内存溢出
1、idea报java.lang.OutOfMemoryError: Java heap space怎么解决?2、java.lang.OutOfMemoryError: GC overhead limit exceeded
抖音飞鸽如何邀请用户入会以及管理会员?
抖音小店客服如何识别会员身份信息,为会员提供更好的服务?当前咨询消费者还不是会员,如何邀请对方加入会员?针对已开通会员通
数据图表与分析图_堆积图表界的翘楚!河流图如何搞定“巨量”数据
继旭日图、漏斗图、饼图之后,我们又迎来一个 “象形”图表——河流图。虽然河流图是从堆积面积图演变而来,读图的
如何查询网站是否被索引擎收录?怎么提高网站的收录量?
搜索引擎收录是指程序通过辨别把网站内容进行收录,同时会对这些内容进行价值以及其他方面的辨别。我们想要知道网站有没有被搜索
本企业新闻
推荐企业新闻

点击拨打: