论文阅读笔记：Phase-Shifting Coder: Predicting Accurate Orientation in Oriented Object Detection

1 背景
- 1.1 问题
- 1.2 解决方案
2 创新点
3 方法
4 模块
5 效果
- 5.1 和SOTA方法对比
- 5.2 消融实验

论文：https://arxiv.org/pdf/2211.06368v2.pdf
代码：https://github.com/open-mmlab/mmrotate

1 背景

1.1 问题

目前，围绕旋转目标检测的解决方案，最直观的方式是增加一个输出通道预测方向角度来修改水平检测器。这样的解决方案面临两个问题：

边界问题：边界不连续问题往往是由角周期性引起的。假设 $-\pi/2$ 等价于 $\pi/2$ 。面对相同的输入，网络输出有时期望为 $-\pi/2$ 有时期望为 $\pi/2$ 。这样的现状使得网络迷茫到底以何种方式回归。
类方形问题：类正方形问题通常发生在方型框不能唯一定义的情况。具体来说，一个正方形框旋转0°和旋转90°是相当的，但由于角度参数的不一致，导致他们之间的回归损失较高。这种模糊型也会严重混淆网络。

1.2 解决方案

通过对上述问题的重新思考，作者发现他们本质上可以统一为旋转对称问题（180°旋转下的边界和90°旋转下的类方向），这光学测量中绝对相位获取的周期性模糊问题十分相似。受此启发，我们提出了移动相移编码这一光学测量中广泛使用的技术来进行旋转目标检测中的角度预测。该技术具有同时解决不连续和类方形问题的潜力：

相移将测量的距离或视差编码为光学测量中的周期相位，旋转角度也可以编码到周期相位中。边界不连续性因此得到解决。
相移也存在周期性的模糊问题，类似于类正方形问题，存在多个解。例如双频相移技术通过混合不同频率的相位来解决周期性模糊问题，该过程也叫相位展开。

基于以上分析，作者认为可以修改相移技术使其适用于旋转目标检测。

2 创新点

首次利用相移编码器来应对深度学习领域中的角度回归问题。本文详细阐述了一种积分稳定的解决方案。最重要的是，代码编写良好，公开可用，并且具有可重复性的结果。
通过大量实验对所提方法的性能进行评估。实验结果是高质量的，所有列出的结果都在相同的环境下重新测试，以确保公平的比较(而不是抄自其他论文)。

3 方法

在这里插入图片描述

本文整体框架，即用相移编码器来代替传统的角度预测。

4 模块

4.1 相移编码PSC

集成到深度学习神经网络中的相移编码器的整体流程如图1所示，以“长边90°”的角度定义为例进行说明，符号可定义如下：

$\theta$ ：旋转角度，范围在 $[-\pi/2,\pi/2)$
$\phi$ ：主相位，范围在 $[-\pi,\pi)$
$N_{step}$ ：相移步数
$X$ ：编码数据， $X=\{x_n|n=1,2,…,N_{step}\}$

映射：sin 或 cos 的周期为 $2\pi$ ，而一个矩形框在旋转 $\pi$ 时与自身相同，因此需要一个映射来匹配他们，如下所示：
在这里插入图片描述

编码：将 $\phi$ 编码成 $X$ 的公式可以描述为：
在这里插入图片描述

其中 $n=1,2,…,N_{step}$ 。

为了简化后面的描述，令式2记为 $X=f_{enc}(\phi)$ 。

解码：从 $X$ 中解码 $\phi$ 的公式可以描述为：
在这里插入图片描述

公式中的arctan由arctan2函数实现。公式（3）也记为 $\phi=f_{dec}(x)$ 。

目的是将存在断点的分段函数转换到连续的余弦函数上，并将周期映射到[0, 2π]上，接触边界问题。多步相移是为了解决统一余弦值在周期内有多个解的问题。

4.2 双频相移编码PSCD

通过对边界问题和类方形问题的重新思考，作者认为这两个问题可以内在的统一起来，如果一个框旋转180°情况下与自身等价，则会出现边界问题，但如果他们在90°下旋转等价，则会出现类方形问题，这两种情况都是周期模糊问题，但周期不同。

因此，为了同时解决边界不连续和类方形问题，需要额外的相位来建立双频相移编码器。基本相移编码器与双频相移编码器区别如图2。
在这里插入图片描述

双频相移编码器中使用的额外符号可以定义如下：

$\phi_1$ ：第一个频率下的相位，范围在 $[-\pi,\pi)$
$\phi_2$ ：第二个频率下的相位，范围在 $[-2\pi,2\pi)$
$\phi$ ：最终的主相位，范围在 $[-\pi,\pi)$
$X_1$ ：第一个频率下的编码数据， $X_1=\{x_n|n=1,2,…,N_{step}\}$
$X_2$ ：第二个频率下的编码数据， $X_2=\{x_n|n=1,2,…,N_{step}\}$
$X$ ：最终的编码数据，长度为 $2×N_{step}$ ， $X=\{X_1,X_2\}$

映射：双频PSC中，训练过程中从角度 $\theta$ 映射出两个主相位：
在这里插入图片描述

输出的旋转角度在推理过程中从最终的主相位中映射得到：
在这里插入图片描述

编码：同式（2），将 $\phi_1$ 和 $\phi_2$ 编码为 $X_1$ 和 $X_2$ 的公式可以描述为：
在这里插入图片描述

解码：同式（3），从 $X_1$ 和 $X_2$ 解码 $\phi_1$ 和 $\phi_2$ 的公式可以描述为：
在这里插入图片描述

相位展开：网络在推理过程中输出两个主要相位： $\phi_1$ 作为绝对相位， $\phi_2$ 作为包裹相位，作者将它们混合以获得最终的相位，也成为相位展开。为此，首先计算 $\phi_1$ 和 $\phi_2$ 之间的内积为：
在这里插入图片描述

之后，根据 $\delta$ 对 $\phi_2$ 进行展开，使得两个相位可以自动混合成为最终的相位 $\phi$ ：
在这里插入图片描述

需要指出的是，上述公式是为了清晰而简化的版本，事实上，加上 $\pi$ 之后， $\phi$ 可能会超出 $[-\pi,\pi)$ 的范围。这种情况下， $\phi$ 需要减去 $2\pi$ ，否则降维超出角度的范围。

内积 $\delta$ 为负说明向量 $\phi_1,sin \phi_1)$ 和 $\frac{\phi_2}{2},sin \frac{\phi_2}{2})$ 相差90°以上，即对应的 $\theta$ 相差 45° 以上，可能存在类正方形问题，此时将 $\frac{\phi_2}{2}$ 加上 $\pi$ 得到 $\phi$ ，最后除以 2 得到 $\theta$ ，相当于对 $\theta$ 加上 $\frac{\pi}{2}$ 。

这里的 $\phi_1$ 相当于帮助 $\phi_2$ 确定包裹计数的绝对相位，但从公式来看，使用双频PSC时， $\phi_1$ 并没有参与到最终的 $\theta$ 计算，而是直接使用的 $\phi_2$ ，那 $\phi_1$ 要怎么训练？代码如下：
    def decode(self, angle_preds: Tensor, keepdim: bool = False) -> Tensor:
        self.coef_sin = self.coef_sin.to(angle_preds)
        self.coef_cos = self.coef_cos.to(angle_preds)

        phase_sin = torch.sum(
            angle_preds[:, 0:self.num_step] * self.coef_sin,
            dim=-1,
            keepdim=keepdim)
        phase_cos = torch.sum(
            angle_preds[:, 0:self.num_step] * self.coef_cos,
            dim=-1,
            keepdim=keepdim)
        phase_mod = phase_cos**2 + phase_sin**2
        phase = -torch.atan2(phase_sin, phase_cos)  # In range [-pi,pi)
        if self.dual_freq:
            phase_sin = torch.sum(
                angle_preds[:, self.num_step:(2 * self.num_step)] *
                self.coef_sin,
                dim=-1,
                keepdim=keepdim)
            phase_cos = torch.sum(
                angle_preds[:, self.num_step:(2 * self.num_step)] *
                self.coef_cos,
                dim=-1,
                keepdim=keepdim)
            phase_mod = phase_cos**2 + phase_sin**2
            phase2 = -torch.atan2(phase_sin, phase_cos) / 2

            # Phase unwarpping, dual freq mixing
            # Angle between phase and phase2 is obtuse angle
            idx = torch.cos(phase) * torch.cos(phase2) + torch.sin(
                phase) * torch.sin(phase2) < 0
            # Add pi to phase2 and keep it in range [-pi,pi)
            phase2[idx] = phase2[idx] % (2 * torch.pi) - torch.pi
            phase = phase2

        # Set the angle of isotropic objects to zero
        phase[phase_mod < self.thr_mod] *= 0
        angle_pred = phase / 2
        return angle_pred
从代码看使用 dual_freq 时，angle_preds[:, 0:self.num_step] 这部分确实没有得到训练（也有可能是提前训练好了）。感觉需要对这部分也进行监督。