论文: Open-World Dynamic Prompt and Continual Visual Representation Learning

发布：更新时间：2024-11-01 10:06:00

来源：晓飞的算法工程笔记公众号，转载请注明出处

论文地址：
https://arxiv.org/abs/2409.05312

创新点

在开放世界中建立了一种新的持续视觉表征学习的实用设置。

提出了一种简单而强大的方法，动态提示与表征学习器（
DPaRL
，
Dynamic Prompt and Representation Learner
），该方法在有效更新区分性表征主干网络的同时动态生成提示。这一增强提高了在测试时对未见开放世界类别的泛化能力。

在所提议的实用设置中，
DPaRL
表现超越了最先进的持续学习方法，无论是无回放方法还是基于回放的方法。

内容概述

开放世界本质上是动态的，特点是不断演变的概念和分布。在这种动态开放世界环境中，持续学习（
CL
）带来了一个重大挑战，即如何有效地泛化到未见的测试时类。为了解决这一挑战，论文提出了一种新的、针对开放世界视觉表示学习的实际
CL
设置。在这一设置中，后续数据流系统性地引入与先前训练阶段中所见类不相交的新类，同时与未见的测试类保持区别。

为此，论文提出了动态提示和表示学习器（
DPaRL
），这是一种简单但有效的基于提示的持续学习（
PCL
）方法。
DPaRL
学习生成用于推理的动态提示，而不是依赖于之前
PCL
方法中的静态提示池。此外，
DPaRL
在每个训练阶段共同学习动态提示生成和区分性表示，而以前的
PCL
方法仅在整个过程中细化提示学习。

实验结果表明，方法的优越性，在公认的开放世界图像检索基准上，
DPaRL
在
Recall@1
性能上平均提高了
4.7%
，超越了最新的先进方法。

Dynamic Prompt and Representation Learner (DPaRL)

封闭世界与开发世界设置

视觉表示学习的两个基本设置是封闭世界和开放世界范式。在封闭世界设置中（如图 (a/b) 所示），持续训练和测试数据的类别是完全相同的。而开放世界设置（如图 (c/d) 所示）中，持续训练和测试类别完全不同，因此需要模型学习能对未见过的概念进行概括的表示。

基于提示的持续学习

基于提示的持续学习（
PCL
）方法使用预训练的视觉变换器（
ViT
）作为封闭世界图像分类的区分性主干，如图 (a) 所示。这些方法创建了一个包含多个提示
token
的提示池，在训练期间仅更新该池中的可学习参数。在推理时，学习到的提示池是静态的，
PCL
方法从该池中选择
tokens
，输入到多个
ViT
主干层进行预测。