最优化方法-最速下降法

最速下降法基本介绍
在解决无约束问题时,经常用到的一类算法是最速下降法,在求解机器学习
算法的模型参数,即无约束优化问题时,梯度下降是最常采用的方法之一,在求
解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化
的损失函数和模型参数值。反过来,如果我们需要求解损失函数的最大值,这时
就需要用梯度上升法来迭代了。
讨论问题模型  minf(x)
步长的确定

算法步骤

 

求解例题
使用最速下降法求函数的最小值
程序代码(python)
import numpy as np
from sympy import *
import math
import matplotlib.pyplot as plt
import mpl_toolkits.axisartist as axisartist
x1, x2, t = symbols('x1, x2, t')
def func():
return pow(x1, 2) + 2 * pow(x2, 2) - 2 * x1 * x2 - 2 * x2
def grad(data):
f = func()
grad_vec = [diff(f, x1), diff(f, x2)]
grad = []
for item in grad_vec:
grad.append(item.subs(x1, data[0]).subs(x2, data[1]))
return grad
def grad_len(grad):
vec_len = math.sqrt(pow(grad[0], 2) + pow(grad[1], 2))
return vec_len
3
def zhudian(f):
t_diff = diff(f)
t_min = solve(t_diff)
return t_min
def main(X0, theta):
f = func()
grad_vec = grad(X0)
grad_length = grad_len(grad_vec)
k = 0
data_x = [0]
data_y = [0]
while grad_length > theta:
k += 1
p = -np.array(grad_vec)
X = np.array(X0) + t*p
t_func = f.subs(x1, X[0]).subs(x2, X[1])
t_min = zhudian(t_func)
X0 = np.array(X0) + t_min*p
grad_vec = grad(X0)
grad_length = grad_len(grad_vec)
print('grad_length', grad_length)
print('坐标', float(X0[0]), float(X0[1]))
data_x.append(X0[0])
data_y.append(X0[1])
print(k)
fig = plt.figure()
ax = axisartist.Subplot(fig, 111)
fig.add_axes(ax)
ax.axis["bottom"].set_axisline_style("-|>", size=1.5)
ax.axis["left"].set_axisline_style("->", size=1.5)
ax.axis["top"].set_visible(False)
ax.axis["right"].set_visible(False)
plt.title(r'$Gradient \ method - steepest \ descent \ method$')
plt.plot(data_x, data_y,color='r',label=r'$f(x_1,x_2)=x_1^2+2 \cdot
4
x_2^2-2 \cdot x_1 \cdot x_2-2 \cdot x_2$')
plt.legend()
plt.scatter(1, 1, marker=(3, 1), c=2, s=100)
plt.grid()
plt.xlabel(r'$x_1$', fontsize=20)
plt.ylabel(r'$x_2$', fontsize=20)
plt.show()
if __name__ == '__main__':
main([0, 0], 0.001)

 运行结果

grad_length 1.0
坐标 0.0 0.5
grad_length 1.0
坐标 0.5 0.5
grad_length 0.5
坐标 0.5 0.75
grad_length 0.5
坐标 0.75 0.75
grad_length 0.25
坐标 0.75 0.875
grad_length 0.25
坐标 0.875 0.875
grad_length 0.125
坐标 0.875 0.9375
grad_length 0.125
坐标 0.9375 0.9375
grad_length 0.0625
坐标 0.9375 0.96875
grad_length 0.0625
坐标 0.96875 0.96875
grad_length 0.03125
坐标 0.96875 0.984375
grad_length 0.03125
坐标 0.984375 0.984375
5 grad_length 0.015625
坐标 0.984375 0.9921875
grad_length 0.015625
坐标 0.9921875 0.9921875
grad_length 0.0078125
坐标 0.9921875 0.99609375
grad_length 0.0078125
坐标 0.99609375 0.99609375
grad_length 0.00390625
坐标 0.99609375 0.998046875
grad_length 0.00390625
坐标 0.998046875 0.998046875
grad_length 0.001953125
坐标 0.998046875 0.9990234375
grad_length 0.001953125
坐标 0.9990234375 0.9990234375
grad_length 0.0009765625
坐标 0.9990234375 0.99951171875
经过结果分析,每次迭代的结果坐标趋向于精确解 (1,1), 可以证明程序无误。
对运行结果绘制过程图

猜你喜欢

转载自blog.csdn.net/m0_54570435/article/details/130661616