动机:为什么作者想要解决这个问题?
- 先前基于Wi-Fi的3D人体姿态估计有以下缺陷:
- 仅适用于在固定位置做姿态 [1]
- 仅允许执行预定义的活动 [2]
贡献:作者在这篇论文中完成了什么工作(创新点)?
-
挑战
- 与USRP 或 FMCW RADAR 不同,从现成 Wi-Fi 设备导出的信道状态信息CSI数据不提供人体的任何空间信息(空间信息怎么理解?AoA、AoD之类的)
- 如何使人体姿态估计系统独立于其运行的环境?
- 如何对 2D AoA 频谱和人体3D骨骼之间的复杂关系进行建模
-
解决方案
- 从非线性间隔天线得到 2D AoA 频谱,并将发射机的空间分集和 Wi-Fi OFDM 子载波的频率分集结合起来,以提高 2D AoA 的空间分辨率,以区分从人体不同部位反射的信号
- 从一个或多个用户执行活动时提取的频谱中减去静态环境的 2D AoA 频谱
- 2D AoA 频谱作为输入,基于CNN和LSTM 推断人体3D姿态。CNN 提取空间特征,LSTM提取时间特征
-
精度
- GoPose 在各种场景下(包括跟踪黑暗条件的活动)和 NLoS 场景下实现了约4.5 cm的准确度(准确度是MPJPE??应该是的)
规划:他们如何完成工作?
-
整体架构
WiFi Probing:采集数据,利用线性拟合法去噪
Data Processing:首先将空间分集和频率分集(后面进行具体介绍)相结合,以提高二维 AoA 的分辨率,以区分从人体不同部位反射的信号;然后通过静态环境去除过滤掉从室内环境反射的静态信号;最后结合多个数据包的 2D AoA 频谱作为网络的输入
3D Pose Constrction:CNN用于捕捉人体部位的空间特征,而LSTM用于估计运动的时间特征 -
提高二维 AoA 的分辨率,空间分集和频率分集
1D AoA估计不过多阐述,就是利用MUSIC算法
2D AoA估计:
利用接收器处的L形天线阵列来推导入射信号的方位角 φ \varphi φ和仰角 θ \theta θ,公式细节见论文3.3
虽然2D AoA可以提供人体在 2D 空间中的大致位置,但它无法区分从人体不同部位反射的信号,例如来自躯干的信号(即信号 k 2 k_2 k2 ) 或来自腿部(即信号 k 3 k_3 k3 )。这是因为商品 WiFi 的硬件限制导致 2D AoA 频谱的分辨率非常低。为了克服这种限制,我们进一步结合发射机的空间分集(2D AoA,AoD)和 WiFi OFDM 子载波的频率分集(ToF)来提高 2D AoA 频谱的分辨率三个发射天线中的空间分集会因偏离角 (AoD) 而引入相移,而 OFDM 子载波的频率分集会导致相对于飞行时间 (ToF) 的相移。因此,我们可以通过利用空间和频率分集来联合估计 2D AoA、AoD 和 ToF,从而显着提高 2D AoA 频谱的分辨率:
a ′ ( φ , θ , τ ) = [ 1 , … , Ω τ V − 1 , Φ ( φ , θ ) , … , Ω τ V − 1 Φ ( φ , θ ) , … , Φ ( φ , θ ) R − 1 , … , Ω τ V − 1 Φ ( φ , θ ) R − 1 ] T a ( φ , θ , ω , τ ) = [ a ( φ , θ , τ ) , Γ ω a ( φ , θ , τ ) ′ , … , Γ ω S − 1 a ( φ , θ , τ ) ] T \begin{aligned} \mathbf{a}^{\prime}(\varphi, \theta, \tau)=& {\left[1, \ldots, \Omega_{\tau}^{V-1}, \Phi_{(\varphi, \theta)}, \ldots, \Omega_{\tau}^{V-1} \Phi_{(\varphi, \theta)}, \ldots, \Phi_{(\varphi, \theta)}^{R-1}, \ldots, \Omega_{\tau}^{V-1} \Phi_{(\varphi, \theta)}^{R-1}\right]^{T} } \\ & \mathbf{a}(\varphi, \theta, \omega, \tau)=\left[\mathbf{a}_{(\varphi, \theta, \tau)}, \Gamma_{\omega} \mathbf{a}_{(\varphi, \theta, \tau)}^{\prime}, \ldots, \Gamma_{\omega}^{S-1} \mathbf{a}_{(\varphi, \theta, \tau)}\right]^{T} \end{aligned} a′(φ,θ,τ)=[1,…,ΩτV−1,Φ(φ,θ),…,ΩτV−1Φ(φ,θ),…,Φ(φ,θ)R−1,…,ΩτV−1Φ(φ,θ)R−1]Ta(φ,θ,ω,τ)=[a(φ,θ,τ),Γωa(φ,θ,τ)′,…,ΓωS−1a(φ,θ,τ)]T P ( φ , θ , ω , τ ) Improve = 1 a H ( φ , θ , ω , τ ) E N E N H a ( φ , θ , ω , τ ) P(\varphi, \theta, \omega, \tau)_{\text {Improve }}=\frac{1}{\mathbf{a}^{H}(\varphi, \theta, \omega, \tau) \mathbf{E}_{N} \mathbf{E}_{N}^{H} \mathbf{a}(\varphi, \theta, \omega, \tau)} P(φ,θ,ω,τ)Improve =aH(φ,θ,ω,τ)ENENHa(φ,θ,ω,τ)1
方位角 φ \varphi φ、仰角 θ \theta θ、AoD ω \omega ω、ToF τ \tau τ -
静态环境移除
由于 2D AoA 频谱提供了多径信号的空间信息,我们可以利用这些信息去除 LoS 信号和从静态环境反射的信号,以进行与环境无关的 3D 姿态估计。具体方法是,将人类活动的2D AoA频谱减去静态环境的 2D AoA 频谱。
-
结合多个数据包:
从单个 WiFi 数据包导出的 2D AoA 频谱只能捕获一小部分身体运动,因此将一系列数据包(100个数据包)作为神经网络输入来估计人体姿势:
-
神经网络
将方位角和仰角的范围设置为 [0, 180] 度,分辨率为 1 度,得到尺寸为 180×180的频谱。系统利用4 个接收器从不同角度捕捉用户的动作,将四个接收器的频谱连接起来,得到尺寸为 180 × 180 × 4 的张量。此外我们需要结合多个频谱来捕捉全身运动。因此,我们将每个接收器的 100 个数据包连接起来,形成一个 180 × 180 × 400 的矩阵作为输入
神经网络,CNN用于捕捉人体部位的空间特征,而LSTM用于估计运动的时间特征
损失函数:
L P = 1 T ∑ t = 1 T 1 N ∑ i = 1 N ∥ p ˉ t i − p t i ∥ 2 , L_{P}=\frac{1}{T} \sum_{t=1}^{T} \frac{1}{N} \sum_{i=1}^{N}\left\|\bar{p}_{t}^{i}-p_{t}^{i}\right\|_{2}, LP=T1t=1∑TN1i=1∑N∥ ∥pˉti−pti∥ ∥2, L H = 1 T ∑ t = 1 T 1 N ∑ i = 1 N ∥ p ˉ t i − p t i ∥ H , L_{H}=\frac{1}{T} \sum_{t=1}^{T} \frac{1}{N} \sum_{i=1}^{N}\left\|\bar{p}_{t}^{i}-p_{t}^{i}\right\|_{H}, LH=T1t=1∑TN1i=1∑N∥ ∥pˉti−pti∥ ∥H, L = Q P ⋅ L P + Q H ⋅ L H , L=Q_{P} \cdot L_{P}+Q_{H} \cdot L_{H}, L=QP⋅LP+QH⋅LH,
理由:通过什么实验验证它们的工作结果
-
实验配置
一发四收,发射端3天线,接收端3天线(L形摆放)
发包率1000Hz
Kinect2.0记录ground truth(能记录绝对姿态吗??)
10个人的数据 -
实验场地
客厅 (4 × 4)、餐厅 (3.6 × 3.6) 和卧室 (4 × 3.8)
收发机默认距离2.5米
-
评估指标
使用联合定位误差作为评估指标,定义为预测的关节位置和地面实况之间的欧几里得距离。请注意,评估14 个关键点/关节(到底对齐没对齐?)
-
整体性能
① NLOS条件:证明系统可以将在 LoS 条件下训练的深度学习模型应用于 NLoS 场景,而无需重新训练
②环境变化的影响:使用在一个环境(例如客厅或餐厅)中收集的数据来训练系统,然后评估系统在不同环境(例如卧室)中运行时的性能
③收发机之间距离的影响
④发包率影响
⑤不同用户:7人训练,1人验证,2人测试
⑥多用户的影响:验证性实验收了2个人的数据,但是没什么用
自己的看法
- 需要4个接收机,太多了
- 这个算不算绝对姿态估计?应该还是基于根节点的
参考文献
[1] Towards 3D human pose construction using wifi
[2] Winect: 3D Human Pose Tracking for Free-form Activity Using Commodity WiFi