论文: Open-World Dynamic Prompt and Continual Visual Representation Learning


来源:晓飞的算法工程笔记 公众号,转载请注明出处


  • 论文地址:
    https://arxiv.org/abs/2409.05312

创新点

在开放世界中建立了一种新的持续视觉表征学习的实用设置。

提出了一种简单而强大的方法,动态提示与表征学习器(

DPaRL



Dynamic Prompt and Representation Learner

),该方法在有效更新区分性表征主干网络的同时动态生成提示。这一增强提高了在测试时对未见开放世界类别的泛化能力。

在所提议的实用设置中,

DPaRL

表现超越了最先进的持续学习方法,无论是无回放方法还是基于回放的方法。

内容概述


开放世界本质上是动态的,特点是不断演变的概念和分布。在这种动态开放世界环境中,持续学习(

CL

)带来了一个重大挑战,即如何有效地泛化到未见的测试时类。为了解决这一挑战,论文提出了一种新的、针对开放世界视觉表示学习的实际

CL

设置。在这一设置中,后续数据流系统性地引入与先前训练阶段中所见类不相交的新类,同时与未见的测试类保持区别。

为此,论文提出了动态提示和表示学习器(

DPaRL

),这是一种简单但有效的基于提示的持续学习(

PCL

)方法。

DPaRL

学习生成用于推理的动态提示,而不是依赖于之前

PCL

方法中的静态提示池。此外,

DPaRL

在每个训练阶段共同学习动态提示生成和区分性表示,而以前的

PCL

方法仅在整个过程中细化提示学习。

实验结果表明,方法的优越性,在公认的开放世界图像检索基准上,

DPaRL



Recall@1

性能上平均提高了

4.7%

,超越了最新的先进方法。

Dynamic Prompt and Representation Learner (DPaRL)


封闭世界与开发世界设置

视觉表示学习的两个基本设置是封闭世界和开放世界范式。在封闭世界设置中(如图 (a/b) 所示),持续训练和测试数据的类别是完全相同的。而开放世界设置(如图 (c/d) 所示)中,持续训练和测试类别完全不同,因此需要模型学习能对未见过的概念进行概括的表示。

基于提示的持续学习

基于提示的持续学习(

PCL

)方法使用预训练的视觉变换器(

ViT

)作为封闭世界图像分类的区分性主干,如图 (a) 所示。这些方法创建了一个包含多个提示

token

的提示池,在训练期间仅更新该池中的可学习参数。在推理时,学习到的提示池是静态的,

PCL

方法从该池中选择

tokens

,输入到多个

ViT

主干层进行预测。

论文的方法也采用了这种

PCL

范式,但在训练和测试类别不相交的开放世界设置中,现有的静态

PCL

提示池设计存在局限性,即测试类别内部和外部的距离分布之间的分离有限。

为此,论文引入一个动态提示生成(

DPG

)网络替代静态提示池,通过联合动态提示和表示学习范式,增强了区分性表示主干模型的能力,更有效地对开放世界概念进行概括。

…(后续内容省略)

未经允许不得转载:大白鲨游戏网 » 论文: Open-World Dynamic Prompt and Continual Visual Representation Learning