文献阅读:GoPose 3D Human Pose Estimation Using WiFi

动机:为什么作者想要解决这个问题?

  • 先前基于Wi-Fi的3D人体姿态估计有以下缺陷:
    • 仅适用于在固定位置做姿态 [1]
    • 仅允许执行预定义的活动 [2]

贡献:作者在这篇论文中完成了什么工作(创新点)?

  • 挑战

    • 与USRP 或 FMCW RADAR 不同,从现成 Wi-Fi 设备导出的信道状态信息CSI数据不提供人体的任何空间信息(空间信息怎么理解?AoA、AoD之类的)
    • 如何使人体姿态估计系统独立于其运行的环境?
    • 如何对 2D AoA 频谱和人体3D骨骼之间的复杂关系进行建模
  • 解决方案

    • 从非线性间隔天线得到 2D AoA 频谱,并将发射机的空间分集和 Wi-Fi OFDM 子载波的频率分集结合起来,以提高 2D AoA 的空间分辨率,以区分从人体不同部位反射的信号
    • 从一个或多个用户执行活动时提取的频谱中减去静态环境的 2D AoA 频谱
    • 2D AoA 频谱作为输入,基于CNN和LSTM 推断人体3D姿态。CNN 提取空间特征,LSTM提取时间特征
  • 精度

    • GoPose 在各种场景下(包括跟踪黑暗条件的活动)和 NLoS 场景下实现了约4.5 cm的准确度(准确度是MPJPE??应该是的)

规划:他们如何完成工作?

  • 整体架构

    在这里插入图片描述
    WiFi Probing:采集数据,利用线性拟合法去噪
    Data Processing:首先将空间分集和频率分集(后面进行具体介绍)相结合,以提高二维 AoA 的分辨率,以区分从人体不同部位反射的信号;然后通过静态环境去除过滤掉从室内环境反射的静态信号;最后结合多个数据包的 2D AoA 频谱作为网络的输入
    3D Pose Constrction:CNN用于捕捉人体部位的空间特征,而LSTM用于估计运动的时间特征

  • 提高二维 AoA 的分辨率,空间分集和频率分集

    1D AoA估计不过多阐述,就是利用MUSIC算法

    2D AoA估计:
    利用接收器处的L形天线阵列来推导入射信号的方位角 φ \varphi φ和仰角 θ \theta θ,公式细节见论文3.3
    在这里插入图片描述
    虽然2D AoA可以提供人体在 2D 空间中的大致位置,但它无法区分从人体不同部位反射的信号,例如来自躯干的信号(即信号 k 2 k_2 k2 ) 或来自腿部(即信号 k 3 k_3 k3 )。这是因为商品 WiFi 的硬件限制导致 2D AoA 频谱的分辨率非常低。为了克服这种限制,我们进一步结合发射机的空间分集(2D AoA,AoD)和 WiFi OFDM 子载波的频率分集(ToF)来提高 2D AoA 频谱的分辨率

    三个发射天线中的空间分集会因偏离角 (AoD) 而引入相移,而 OFDM 子载波的频率分集会导致相对于飞行时间 (ToF) 的相移。因此,我们可以通过利用空间和频率分集来联合估计 2D AoA、AoD 和 ToF,从而显着提高 2D AoA 频谱的分辨率:
    a ′ ( φ , θ , τ ) = [ 1 , … , Ω τ V − 1 , Φ ( φ , θ ) , … , Ω τ V − 1 Φ ( φ , θ ) , … , Φ ( φ , θ ) R − 1 , … , Ω τ V − 1 Φ ( φ , θ ) R − 1 ] T a ( φ , θ , ω , τ ) = [ a ( φ , θ , τ ) , Γ ω a ( φ , θ , τ ) ′ , … , Γ ω S − 1 a ( φ , θ , τ ) ] T \begin{aligned} \mathbf{a}^{\prime}(\varphi, \theta, \tau)=& {\left[1, \ldots, \Omega_{\tau}^{V-1}, \Phi_{(\varphi, \theta)}, \ldots, \Omega_{\tau}^{V-1} \Phi_{(\varphi, \theta)}, \ldots, \Phi_{(\varphi, \theta)}^{R-1}, \ldots, \Omega_{\tau}^{V-1} \Phi_{(\varphi, \theta)}^{R-1}\right]^{T} } \\ & \mathbf{a}(\varphi, \theta, \omega, \tau)=\left[\mathbf{a}_{(\varphi, \theta, \tau)}, \Gamma_{\omega} \mathbf{a}_{(\varphi, \theta, \tau)}^{\prime}, \ldots, \Gamma_{\omega}^{S-1} \mathbf{a}_{(\varphi, \theta, \tau)}\right]^{T} \end{aligned} a(φ,θ,τ)=[1,,ΩτV1,Φ(φ,θ),,ΩτV1Φ(φ,θ),,Φ(φ,θ)R1,,ΩτV1Φ(φ,θ)R1]Ta(φ,θ,ω,τ)=[a(φ,θ,τ),Γωa(φ,θ,τ),,ΓωS1a(φ,θ,τ)]T P ( φ , θ , ω , τ ) Improve  = 1 a H ( φ , θ , ω , τ ) E N E N H a ( φ , θ , ω , τ ) P(\varphi, \theta, \omega, \tau)_{\text {Improve }}=\frac{1}{\mathbf{a}^{H}(\varphi, \theta, \omega, \tau) \mathbf{E}_{N} \mathbf{E}_{N}^{H} \mathbf{a}(\varphi, \theta, \omega, \tau)} P(φ,θ,ω,τ)Improve =aH(φ,θ,ω,τ)ENENHa(φ,θ,ω,τ)1
    方位角 φ \varphi φ、仰角 θ \theta θ、AoD ω \omega ω、ToF τ \tau τ

  • 静态环境移除

    由于 2D AoA 频谱提供了多径信号的空间信息,我们可以利用这些信息去除 LoS 信号和从静态环境反射的信号,以进行与环境无关的 3D 姿态估计。具体方法是,将人类活动的2D AoA频谱减去静态环境的 2D AoA 频谱。
    在这里插入图片描述

  • 结合多个数据包:

    从单个 WiFi 数据包导出的 2D AoA 频谱只能捕获一小部分身体运动,因此将一系列数据包(100个数据包)作为神经网络输入来估计人体姿势:
    在这里插入图片描述

  • 神经网络

    将方位角和仰角的范围设置为 [0, 180] 度,分辨率为 1 度,得到尺寸为 180×180的频谱。系统利用4 个接收器从不同角度捕捉用户的动作,将四个接收器的频谱连接起来,得到尺寸为 180 × 180 × 4 的张量。此外我们需要结合多个频谱来捕捉全身运动。因此,我们将每个接收器的 100 个数据包连接起来,形成一个 180 × 180 × 400 的矩阵作为输入
    神经网络,CNN用于捕捉人体部位的空间特征,而LSTM用于估计运动的时间特征
    在这里插入图片描述
    损失函数:
    L P = 1 T ∑ t = 1 T 1 N ∑ i = 1 N ∥ p ˉ t i − p t i ∥ 2 , L_{P}=\frac{1}{T} \sum_{t=1}^{T} \frac{1}{N} \sum_{i=1}^{N}\left\|\bar{p}_{t}^{i}-p_{t}^{i}\right\|_{2}, LP=T1t=1TN1i=1N pˉtipti 2, L H = 1 T ∑ t = 1 T 1 N ∑ i = 1 N ∥ p ˉ t i − p t i ∥ H , L_{H}=\frac{1}{T} \sum_{t=1}^{T} \frac{1}{N} \sum_{i=1}^{N}\left\|\bar{p}_{t}^{i}-p_{t}^{i}\right\|_{H}, LH=T1t=1TN1i=1N pˉtipti H, L = Q P ⋅ L P + Q H ⋅ L H , L=Q_{P} \cdot L_{P}+Q_{H} \cdot L_{H}, L=QPLP+QHLH,

理由:通过什么实验验证它们的工作结果

  • 实验配置

    一发四收,发射端3天线,接收端3天线(L形摆放)
    发包率1000Hz
    Kinect2.0记录ground truth(能记录绝对姿态吗??)
    10个人的数据

  • 实验场地

    客厅 (4 × 4)、餐厅 (3.6 × 3.6) 和卧室 (4 × 3.8)
    收发机默认距离2.5米
    在这里插入图片描述

  • 评估指标

    使用联合定位误差作为评估指标,定义为预测的关节位置和地面实况之间的欧几里得距离。请注意,评估14 个关键点/关节(到底对齐没对齐?)

  • 整体性能

    ① NLOS条件:证明系统可以将在 LoS 条件下训练的深度学习模型应用于 NLoS 场景,而无需重新训练
    ②环境变化的影响:使用在一个环境(例如客厅或餐厅)中收集的数据来训练系统,然后评估系统在不同环境(例如卧室)中运行时的性能
    ③收发机之间距离的影响
    ④发包率影响
    ⑤不同用户:7人训练,1人验证,2人测试
    ⑥多用户的影响:验证性实验收了2个人的数据,但是没什么用

自己的看法

  • 需要4个接收机,太多了
  • 这个算不算绝对姿态估计?应该还是基于根节点的

参考文献

[1] Towards 3D human pose construction using wifi
[2] Winect: 3D Human Pose Tracking for Free-form Activity Using Commodity WiFi

猜你喜欢

转载自blog.csdn.net/qq_42980908/article/details/125833105
今日推荐