来源:晓飞的算法工程笔记 公众号,转载请注明出处
-
论文地址:
https://arxiv.org/abs/2409.05312
创新点
在开放世界中建立了一种新的持续视觉表征学习的实用设置。
提出了一种简单而强大的方法,动态提示与表征学习器(
DPaRL
,
Dynamic Prompt and Representation Learner
),该方法在有效更新区分性表征主干网络的同时动态生成提示。这一增强提高了在测试时对未见开放世界类别的泛化能力。
在所提议的实用设置中,
DPaRL
表现超越了最先进的持续学习方法,无论是无回放方法还是基于回放的方法。
内容概述
开放世界本质上是动态的,特点是不断演变的概念和分布。在这种动态开放世界环境中,持续学习(
CL
)带来了一个重大挑战,即如何有效地泛化到未见的测试时类。为了解决这一挑战,论文提出了一种新的、针对开放世界视觉表示学习的实际
CL
设置。在这一设置中,后续数据流系统性地引入与先前训练阶段中所见类不相交的新类,同时与未见的测试类保持区别。
为此,论文提出了动态提示和表示学习器(
DPaRL
),这是一种简单但有效的基于提示的持续学习(
PCL
)方法。
DPaRL
学习生成用于推理的动态提示,而不是依赖于之前
PCL
方法中的静态提示池。此外,
DPaRL
在每个训练阶段共同学习动态提示生成和区分性表示,而以前的
PCL
方法仅在整个过程中细化提示学习。
实验结果表明,方法的优越性,在公认的开放世界图像检索基准上,
DPaRL
在
Recall@1
性能上平均提高了
4.7%
,超越了最新的先进方法。
Dynamic Prompt and Representation Learner (DPaRL)
封闭世界与开发世界设置
视觉表示学习的两个基本设置是封闭世界和开放世界范式。在封闭世界设置中(如图 (a/b) 所示),持续训练和测试数据的类别是完全相同的。而开放世界设置(如图 (c/d) 所示)中,持续训练和测试类别完全不同,因此需要模型学习能对未见过的概念进行概括的表示。
基于提示的持续学习
基于提示的持续学习(
PCL
)方法使用预训练的视觉变换器(
ViT
)作为封闭世界图像分类的区分性主干,如图 (a) 所示。这些方法创建了一个包含多个提示
token
的提示池,在训练期间仅更新该池中的可学习参数。在推理时,学习到的提示池是静态的,
PCL
方法从该池中选择
tokens
,输入到多个
ViT
主干层进行预测。
论文的方法也采用了这种
PCL
范式,但在训练和测试类别不相交的开放世界设置中,现有的静态
PCL
提示池设计存在局限性,即测试类别内部和外部的距离分布之间的分离有限。
为此,论文引入一个动态提示生成(
DPG
)网络替代静态提示池,通过联合动态提示和表示学习范式,增强了区分性表示主干模型的能力,更有效地对开放世界概念进行概括。
…(后续内容省略)
未经允许不得转载:大白鲨游戏网 » 论文: Open-World Dynamic Prompt and Continual Visual Representation Learning