在计算机视觉领域,想要解决视频文本检索的问题,往往采用构建多模态模型并完成预训练工作的常规解决方案。一般来讲,在构建模型之前,需要对文本内容、视频内容、文本与视频之间的内在关系等内容有充分的了解。
而预训练工作通常有两种方法可供选择。第一种方法叫“单流法”。也就是把文本和视频联结起来,以联合编码器的形式,完成模态之间的融合,然后再构建一个用来识别文本和视频是否匹配的分类器。这种方法可以实现文本与视频的关联建立,但由于所有文本和视频都必须在联结之后才能被送入模型,因此当进入下游检索环节时,效率非常低下。
第二种方法叫做“双流法”。即分别构建两个编码器,一个用于获取文本特征,另一个用于获取视频特征。这种方法虽然有助于完成下游检索,但却忽略了文本和视频之间的内在关系。
近日,香港大学联合腾讯 ARC Lab,推出了一款视频文本预训练新模型,可通过学习细粒度视频和提取文本特征,高效完成下游检索工作。目前,相关论文以《桥接视频文本检索与多项选择题》(Bridging Video-text Retrieval with Multiple Choice Questions)为主题,已被计算机视觉顶会 CVPR 2022 收录[1]。
图|相关论文(来源:CVPR)
该论文提出开发一个名为“BridgeFormer”的参数化模块,主要起到联结文本部分特征和视频内容的桥梁作用,然后设置一个名为“多项选择题”的借口任务,对 BridgeFormer 进行约束。
BridgeFormer 在预训练进行的工作过程中,主要以视频里的内容为参照,来回答从文本中挖出的选择题。而到了下游检索环节,为保证检索的高效进行,BridgeFormer 会被及时撤除。这种方法能够充分集成上述两种常用方法的优点。
这款新模型中包含了 TextFormer、VideoFormer 和 BridgeFormer 三个编码器。TextFormer 是文本编码器,主要负责提取对应的文本特征;VideoFormer 是视频编码器,主要负责从初始的视频中提取视频特征;BridgeFormer 是辅助编码器,主要负责从很多个选项中择出正确的选项。
图|模型结构(来源:CVPR)
应该如何使用该模型呢?通常,如果预先提供一条视频和对应的文字描述,描述中一定包含有名词、动词、形容词等能够组成语句的具体信息。而名词在视频中代指那些空间局部物体,动词在视频中代指相应的时序移动。若分别移除这些名词或动词,就能设计出对应的名词或动词问题。这些问题的答案即是被移除的词语。
比如,在下图中,如果移除(a)中标蓝的名词,即“一对年迈的夫妻”,那么就构成了“是谁在喝咖啡”这样一个名词问题。如果移除(d)中标蓝的名词,即“足球”,那么就构成了“他们在玩什么”这样一个名词问题。若要 BridgeFormer 回答这些名词问题,必须关注那些有特定物体的局部区域。
图|BridgeFormer 对名词问题的文本标记(来源:CVPR)
再比如,在下图中,如果移除(a)中标蓝的动词,即“切”,那么就构成了“手如何摆弄披萨”这样一个动词问题。如果移除(b)中标蓝的动词,即“喝”,那么就构成了“男人怎样使用热茶”这样一个动词问题。若要 BridgeFormer 回答这些动词问题,必须关注视频中的运动行为。
图|BridgeFormer 对动词问题的文本标记(来源:CVPR)
因为 TextFormer 可以提取到文本特征,VideoFormer 可以提取视频里的运动特征,所以 BridgeFormer 能够正确地感知到局部物体和运动行为,也能有效联结文本和视频之间的特征。
这项研究中的预训练工作主要有三个部分。第一是拉近视频与其对应的文本之间,有关特征信息的距离;第二是缩短 TextFormer 和 BridgeFormer 两者各自输出的名词特征的距离,训练 BridgeFormer 更好地回答名词问题;第三是缩短 VideoFormer 和 BridgeFormer 两者各自输出的动词特征的距离,训练 BridgeFormer 更好地回答动词问题。
为了提高预训练任务的准确性,此研究抛弃传统的模型约束预测法,使用了对比学习的方法。采用这种方法,既可以提高模型专注语义学习的能力,又有利于构造有意义的问题,还能增强 TextFormer 的语言理解能力。
在下游检索的评测过程中,该研究通过“zero-shot”和“fine-tune”两种评测方法,在 MSR-VTT、LSMDC、AHowTo100M、MSVD 和 DiDeMo 等五大跨模态视频检索数据集中完成了评测,并都取得了理想的结果。
-End-