密集矩阵分解的基准

该基准测试是在配备英特尔酷睿i7 @ 2,6 GHz的笔记本电脑上运行的,并且在启用了AVX和FMA指令集的情况下进行了编译,但没有多线程。 它使用单精度浮点数。 对于double,您可以通过将时间乘以因子2来获得良好的估计。

方形矩阵是对称的,对于过约束矩阵,报告的时序包括基于Cholesky和LU计算前四个求解器的对称协方差矩阵$ A ^ TA $的成本,用*符号表示(右上角) 角落的一部分)。 时间以毫秒为单位,因子与LLT分解有关,LLT分解是最快但也最不通用且最稳健的。

总结

  • LLT始终是最快的求解器。
  • 对于很大程度上过度约束的问题,Cholesky / LU分解的成本主要由对称协方差矩阵的计算决定。
  • 对于大问题规模,只有实现缓存友好阻塞策略的分解才能很好地扩展。 这些包括LLT,PartialPivLU,HouseholderQR和BDCSVD。 这解释了为什么对于4k x 4k矩阵,HouseholderQR比LDLT更快。 将来,LDLT和ColPivHouseholderQR也将实施阻止策略。
  • CompleteOrthogonalDecomposition基于ColPivHouseholderQR,因此可以达到相同的性能水平。

猜你喜欢

转载自blog.csdn.net/LYKymy/article/details/83018865
今日推荐