是时候搞定矩阵微分了!

前言与感谢

  • 以前就对矩阵求导有心理阴影,到底要不要转置,哪个矩阵放在前面,哪个矩阵放在后面,链式法则怎么搞,由产生此类一系列让人头大的问题。其中,最令人智熄的是经常网上的一些算法公式推导根本是错误的,因为矩阵维数根本不匹配,故这些无良的发布者可能根本就没有手推过,天天搞复制黏贴大法,很多时候都是大量重复错误的内容。最近读了一些材料,感觉心中有了一些数,因此想通过本文总结,一次性梳理清楚。是时候搞定矩阵微分了!
  • 在此,必须感谢为这个问题写下详细分析文章的人,尤其是参考资料[2,3,8]中的作者,他们是很用心的站在初学者的角度来考虑这些问题。的确如某位博主所言,我也认为矩阵微分是属于三不管区域,无论是数分、高代还是优化课程,前两者的老师觉得此问题不属于知识主线,不必教,后一类课程的老师觉得这本质上还属于线性代数+微积分的内容,应该在基础课程内搞定,因此造就了如此局面,书到用时方恨少啊!

符号规定与求导布局

  • 符号规定
    • $x$:标量
    • $y$:标量
    • $\mathbf{x}$:$m$维列向量
    • $\mathbf{y}$:$n$维列向量
    • $\mathbf{X}$:大小为$m×n$的矩阵
  • 求导布局$(Layout)$

参考材料:

  1. 张贤达. 矩阵分析与应用, 2004
  2. 长躯鬼侠. 矩阵求导术(上), (https://zhuanlan.zhihu.com/p/24709748)
  3. 刘建平. 机器学习中的矩阵向量求导, (https://www.cnblogs.com/pinard/)
  4. Kaare Brandt Petersen, Michael Syskind Pedersen. "The Matrix Cookbook", 2008
  5. Thomas P. Minka. "Old and New Matrix Algebra Useful for Statistics", 2000
  6. Searle Shayle R. "Matrix Algebra Useful for Statistics", 1982
  7. Jan R. Magnus, Heinz Neudecker. "Matrix Differential Calculus with Applications in Statistics and Econometrics", 2007
  8. "Matrix Vector Derivatives for Machine Learning", (作者邮箱:[email protected])

猜你喜欢

转载自www.cnblogs.com/gyhhaha/p/11782212.html
今日推荐