关于FFTW3和NE10在树莓派2上执行FFT和IFFT的耗时比较

关于FFTW3和NE10在树莓派2上执行FFT和IFFT的耗时比较


硬件配置:Cortex-A8 四核 900MHz ARM
FFTW3 (2d r2r 512x512点 测试1000次)       (Exynos4412 Cortex-A9 四核 1.5GHz)
    FFT 时间:50.921s    50.328s    50.652s     21.939142s   24.838905s   25.043833s   25.115393s  24.624407s
    IFFT时间:51.286s    50.627s    50.823s     28.196007s   28.060387s   28.343035s   28.370632s 27.838223s
       (1d r2r 512x512点 测试1000次)
    FFT 时间:70.391s    72.134s     71.178s
    IFFT时间:96.774s    105.113s    104.367s      
       (2d c2c 512x512点 测试1000次)
   FFT 时间:241.491s  235.613s  236.373s
   IFFT时间:241.776s  240.890s  240.828s
NE10   (1d r2c 512x512点 测试1000次)
    FFT 时间:76.786s    77.233s    76.813s
    IFFT时间:76.982s    75.543s    75.516s
           (1d c2c 512x512点 测试100次)
    FFT 时间:15.873099 s  15.831748 s  15.850939 s  15.848197 s  15.833346 s
    IFFT时间:15.977381 s  15.940668 s  15.965374 s  15.964364 s  15.942450 s
           (1d c2c 256x256点 测试100次)
    FFT 时间:2.780933 s  2.765150 s  2.777724 s  2.765805 s  2.766922 s
    IFFT时间:2.805025 s  2.792639 s  2.802393 s  2.791195 s  2.793669 s
           (1d c2c 128x128点 测试100次)
    FFT 时间:0.362582 s  0.345205 s  0.374735 s  0.358193 s  0.346353 s
    IFFT时间:0.367153 s  0.349636 s  0.376530 s  0.365579 s  0.354221 s
           (1d c2c 64x64点 测试100次)
    FFT 时间:0.060379 s  0.059997 s  0.060477 s  0.060808 s  0.059932 s
    IFFT时间:0.061655 s  0.061425 s  0.061832 s  0.062145 s  0.061299 s
硬件配置 i5
FFTW3 (2d c2c 512x512 测试1000次)
    FFT 时间:9.916s   10.621s     7.268s    10.309s      7.989s
    IFFT时间:6.993s   10.358s   10.839s    10.531s    10.471s



宋捷RL算法openmp优化加速比
512x512非盲去卷积时间(三通道,内迭代4次(含2个FFT,2个IFFT),外迭代20次):
未加速:5.532s    5.462s    5.494s   5.492s   5.425s
加速:    2.460s    2.355s    2.584s   2.551s   2.762s
平均加速比:2.162

猜你喜欢

转载自blog.csdn.net/hw5226349/article/details/48661007