5.1
需要注意的是,神经网络中必须要有非线性的激活函数,无论是在隐层,还是输出层,或者全部都是。如果用$f(x)=\omega ^{T}x$做激活函数,无论多少层神经网络都退化成了线性回归。
5.2
两者都是希望将连续值映射到{0,1}上,但由于阶跃函数不光滑,不连续的性质,所以才选择了sigmoid作为映射函数。不同之处在于激活函数不一定要使用sigmoid,只要是非线性的可导函数都可以使用。
5.3
5.4
如果学习率太低,每次下降的很慢,使得迭代次数非常多。 如果学习率太高,在后面迭代时会出现震荡现在,在最小值附近来回波动。
5.5
5.6
5.7
5.8
5.9
5.10