【Tracking】详解MOSSE算法中的求导运算

在目标跟踪问题中，我们经常会遇到一些对公式的求导（特别是偏导）运算。由于公式中的变量大多数是向量，矩阵，还有些实数和复数的操作，因此针对他们的求导运算可能会和普通变量的操作有些不一样。下面将详细介绍一下经典的跟踪算法-MOSSE方法中的求导运算。

MOSSE跟踪算法的简单介绍

假设 $f$ 是输入的图像， $g$ 是对应的理想输出， MOSSE算法的目标就是找到一个合适的滤波器 $h$ ，使得其满足以下公式：

$h = \mathop {\min }\limits_h {\sum\limits_i {\left| {{f_i} \star h - {g_i}} \right|} ^2}$

其中 $\star$ 表示训练表示两者卷积的操作，接下来将其转化到频域可得：

$H = \mathop {\min }\limits_H {\sum\limits_i {\left| {{F_i} \odot {H^*} - {G_i}} \right|} ^2}$

注意这里的 $F$ ， $G$ 和 $H$ 都是频域中的变量， $F$ 是对原输入图像 $f$ 做2D的傅里叶变化而得到的，有 $F = {\rm{{\cal F}}}(f)$ 。 $\odot$ 表示对应元素相乘， $^*$ 表示共轭操作， $i$ 表示训练数据的个数，即这里有 $i$ 组训练数据 $\{ {f_i},{g_i}\}$ 。因为这里的操作都是以元素为单位进行的，不同位置的元素之间的运算都是独立的，所以上式可以写成：

${H_{wv}} = \mathop {\min }\limits_{{H_{wv}}} {\sum\limits_i {\left| {{F_{iwv}}{H_{wv}}^* - {G_{iwv}}} \right|} ^2}$

其中 $H_{wv}$ 表示矩阵 $H$ 中的第 $w$ 行第 $v$ 列的元素。一般的求解方法就是，求出上面式子对于变量 $H$ 的偏导，进而求出最优解。由于在上面的式子中包含 $H$ 的共轭部分，因此需要对 $H_{wv}$ 和 ${H_{wv}}^*$ 分别进行求导。

求偏导过程

对 ${H_{wv}}^*$ 求偏导： $0 = \frac{\partial }{{\partial {H_{wv}}^*}}{\sum\limits_i {\left| {{F_{iwv}}{H_{wv}}^* - {G_{iwv}}} \right|} ^2}$ ，将该式展开可得：

$0 = \frac{\partial }{{\partial {H_{wv}}^*}}{\sum\limits_i {({F_{iwv}}{H_{wv}}^* - {G_{iwv}})({F_{iwv}}{H_{wv}}^* - {G_{iwv}})} ^*}$

$0 = \frac{\partial }{{\partial {H_{wv}}^*}}{\sum\limits_i {[{({F_{iwv}}{H_{wv}}^*){{({F_{iwv}}{H_{wv}}^*)}^*}}-{({F_{iwv}}{H_{wv}}^*){G_{iwv}}^*}-{{G_{iwv}}({F_{iwv}}{H_{wv}}^*){^*}}+{{G_{iwv}}{G_{iwv}}^*}} ]}$

$0 = \frac{\partial }{{\partial {H_{wv}}^*}}\sum\limits_i {{F_{iwv}}{H_{wv}}^*{H_{wv}}{F_{iwv}}^* - {F_{iwv}}{H_{wv}}^*{G_{iwv}}^* - {G_{iwv}}{F_{iwv}}^*{H_{wv}} + {G_{iwv}}{G_{iwv}}^*}$

这里面的 $F_{iwv}$ , ${H_{wv}}^*$ 等变量均为单一的数，因此可以互换位置，如下所示：

$0 = \frac{\partial }{{\partial {H_{wv}}^*}}\sum\limits_i {{F_{iwv}}{F_{iwv}}^*{H_{wv}}{H_{wv}}^* - {F_{iwv}}{G_{iwv}}^*{H_{wv}}^* - {F_{iwv}}^*{G_{iwv}}{H_{wv}} + {G_{iwv}}{G_{iwv}}^*}$

$0 = \sum\limits_i {{F_{iwv}}{F_{iwv}}^*{H_{wv}} - {F_{iwv}}{G_{iwv}}^*}$

这样就可以计算 $H_{wv}$ 的值： ${H_{wv}}{\rm{ = }}\frac{{\sum\nolimits_i {{F_{iwv}}{G_{iwv}}^*} }}{{\sum\nolimits_i {{F_{iwv}}{F_{iwv}}^*} }}$ ，将其转化为矩阵形式如下： $H{\rm{ = }}\frac{{\sum\nolimits_i {{F_i} \odot {G_i}^*} }}{{\sum\nolimits_i {{F_i} \odot {F_i}^*} }}$

参数更新方式

${H_i}{\rm{ = }}\frac{{\sum\nolimits_i {{F_i} \odot {G_i}^*} }}{{\sum\nolimits_i {{F_i} \odot {F_i}^*} }}$ ，所以有 ${H_i}^{\rm{*}}{\rm{ = }}\frac{{\sum\nolimits_i {{G_i} \odot {F_i}^*} }}{{\sum\nolimits_i {{F_i} \odot {F_i}^*} }}$ ,令 ${A_i} = \sum\nolimits_i {{G_i} \odot {F_i}^*}$ ， ${B_i} = \sum\nolimits_i {{F_i} \odot {F_i}^*}$ ，有 ${H_i}^{\rm{*}}{\rm{ = }}\frac{{{A_i}}}{{{B_i}}}$

更新时有： ${A_i} = \eta {G_i} \odot {F_i}^* + \left( {1 - \eta } \right){A_{i - 1}}$ ， ${B_i} = \eta {F_i} \odot {F_i}^* + \left( {1 - \eta } \right){B_{i - 1}}$ ，即当前帧中的滤波器 ${H_i}^{\rm{*}}$ 与前一帧中的滤波器 ${H_{i{\rm{ - }}1}}^{\rm{*}}$ 的关系为：

${H_i}^{\rm{*}}{\rm{ = }}\frac{{\eta {G_i} \odot {F_i}^* + \left( {1 - \eta } \right){A_{i - 1}}}}{{\eta {F_i} \odot {F_i}^* + \left( {1 - \eta } \right){B_{i - 1}}}}{\rm{ = }}\frac{{\eta {A_i} + \left( {1 - \eta } \right){A_{i - 1}}}}{{\eta {B_i} + \left( {1 - \eta } \right){B_{i - 1}}}}$

参考文献资料

Visual object tracking using adaptive correlation filters[C]// CVPR, 2010:2544-2550.