1.逻辑回归
逻辑回归是一种常用于分类问题的机器学习算法,尤其适用于二分类问题。它的基本思想是通过将线性回归模型的输出映射到一个概率范围内,来进行分类。具体来说,逻辑回归通过使用逻辑函数(也称为Sigmoid函数)将连续的输出转换为0到1之间的概率值,然后根据这个概率值进行分类决策。
g ( z ) g(z) g(z) 的函数如下:
这里举个例子,比如肿瘤的大小x是特征,是否恶性的y为0或1。其中回归函数f的含义就是肿瘤的概率。
2.决策边界
决策边界是在二分类问题中用于区分两个类别的分界线。在逻辑回归中,决策边界可以理解为当输入特征满足一定条件时,模型对样本进行分类的分界线。在二维特征空间中,决策边界通常是一条直线;在更高维的情况下,决策边界可以是一个超平面。
之所以以这种方式区分,是因为分界点其实是 g ( z ) g(z) g(z) 是否为0。
有时,它也可能是一个曲线:圆,实际情况会更复杂。
回忆一下高数的各种函数,你会有一些启发:
星形线
摆线
3.逻辑回归的代价函数
逻辑回归的代价函数通常使用对数损失函数(log loss)来衡量模型的性能。对数损失函数用于衡量模型对每个样本的预测与真实标签之间的差异。
梯度下降
和线性回归的对比
4.过度拟合overfitting
过度拟合(Overfitting)是指机器学习模型在训练集上表现良好,但在未见过的数据上表现不佳的现象。这种情况发生时,模型可能过分地记住了训练集中的噪声和特定样本的特征,而忽略了一般性和泛化性。
过度拟合通常是由于模型过于复杂或数据量不足引起的。
线性回归的过度拟合:
逻辑回归的过度拟合:
以下是一些可能导致过度拟合的原因以及如何应对的方法:
-
模型复杂度过高:当模型具有过多的参数或自由度时,容易出现过度拟合的情况。这种情况下,模型可能会尝试适应训练集中的每个细节,导致泛化能力下降。
解决方法:降低模型的复杂度,可以通过特征选择、正则化(如L1正则化、L2正则化)等方法来减少模型的参数数量或限制参数的取值范围,以防止过度拟合。 -
训练集和测试集分布不一致:当训练集和测试集的分布不同或存在数据采样偏差时,模型可能会过度拟合训练集的特定样本分布。
解决方法:确保训练集和测试集是从同一分布中独立采样得到的,或者使用交叉验证等方法来评估模型的泛化性能。 -
数据量不足:当训练数据量较少时,模型可能无法捕捉到数据的真实分布,容易产生过度拟合。
解决方法:增加训练数据量,可以通过数据增强、合成数据等方法来扩充训练集,以提高模型的泛化能力。 -
特征选择不当:选择了过多的特征或不相关的特征可能导致过度拟合。
解决方法:进行特征选择,保留与目标相关性高的特征,可以通过特征重要性评估、相关性分析等方法来进行特征选择。