机器学习中的优化问题

凸优化问题

以逻辑回归为例,\(Y={1, -1}\),假设模型参数为\(\theta\),则逻辑回归问题的优化目标为

\[\begin{aligned} \mathop{\min}_{\theta}L(\theta) = \sum \limits_{i=1}^n \log (1 + \exp(-y_i \theta^T x_i)) \end{aligned}\]

可以通过计算目标函数的二阶Hessian矩阵(黑塞矩阵)来验证凸性。令

\[L_i(\theta) = \log (1 + \exp(-y_i \theta^T x_i))\]

对该函数求二阶导,有

\[\nabla L_i(\theta) = \frac{\exp(y_i \theta^T x_i)}{(1 + \exp(y \theta^T x_i))^2} x_i x_i ^2\]

该矩阵满足半正定性质\(\nabla^2L_i(\theta) \geq 0\),因此\(\nabla^2L(\theta) = \sum \limits_{i=1}^{n}L_i(\theta) \geq = 0\),因此该函数为凸函数

对于凸优化问题,所有的局部最小值都是全局最小值

非凸优化问题

  • PCA问题是非凸优化问题
  • 可以借助SVD直接得到主成分分析的全局极小值

  • 凸函数定义:函数\(L\)是凸函数当且仅当对于定义域内的任意两点\(x,y\)和任意实数\(\lambda \in [0, 1]\)总有

    \[L(\lambda x + (1-\lambda)y) \leq \lambda L(x) + (1-\lambda)L(y)\]

举例

  • 凸优化模型:逻辑回归、SVM、线性回归等线性模型
  • 非凸优化模型:PCA、低秩模型(如矩阵分解)、深度神经网络

猜你喜欢

转载自www.cnblogs.com/weilonghu/p/11922464.html