问题动机
当前前沿的 tracker 大多基于 template matching 方法,但大多 tracker 在同一时间只使用目标的单张 template,其 updating 过程始终基于当前目标仍与原始 template 有较高相似度的假设,因而在目标发生较大形态变化时便会丢失目标,如图所示:
主要贡献
- 以 Multi-template module 为基础,使用长短期特征结合的方式进行跟踪,较好地解决了传统 single-template tracker 在 updating 过程中的漂移问题。
- 可以很容易地用于其他 tracker 而不需特别训练,在 accuracy 和 robustness 均有提升的情况下速度几乎没有降低。
解决思路
为了获得关于目标动态变化的较好表达,作者提出了一种基于 STM(short-term module) 和 LTM(long-term module) 构成的 multi-template 框架,如上图所示。其中,STM 和 LTM 分别用于描述模板的短期更新和目标在较长一段时间内的外观变化。
对每帧模板
Gram 矩阵对两两特征间进行卷积运算,用于表示其间相关性和不同特征分别在图像中出现的量,在图像风格迁移 (Justin Johnson etc., ECCV 2016) 中引入用于表示图像的整体风格。
其中
LTM 的目的是维护一个关于当前目标的最具多样性的模板的集合,因而从当前获取的特征中选取一定数量的最具多样性的特征,以最大化由特征向量
在实际跟踪过程中,出于应对短期变化的考虑,大部分情况下使用 STM 特征;当发生模板漂移时,选择使用 LTM 特征,同时重新初始化 STM 特征。
实验
可以看到应用 THOR 方法后,跟踪器的 robustness 提升显著,但在 VOT 和 OTB 数据集中 accuracy 的表现差异较大,OTB 的情况下有不错提升但 VOT 中没什么效果,推测是因为加入颜色特征后目标发生剧烈变化时与 origin template 差别太大导致 LTM 大部分情况下没起作用,大部分时候仍使用 STM 特征,而 OTB 的灰度特征因为只主要与目标的外形变化有关因而 LTM 特征可以顺利得以应用。此外,THOR 的这个情况和 CSR-DCF 的情况刚好相反,比较有意思。