代码天地

机器学习之集成学习--随机森林（Random Forest）

1. 概述RF = 决策树 + Bagging + 随机属性选择2. 算法流程样本的随机：从样本集中用bagging的方式，随机选择n个样本。特征的随机：从所有属性d中随机选择k个属性（k<d），然后从k个属性中选择最佳分割属性作为节点建立CART决策树。重复以上两个步骤m次，建立m课CART决策树。这m课CART决策树形成随机森林，通过投票表决结果，决定数据属于哪一类。3. 代码实现注：数据集在文章末尾from sklearn import treefrom skl

分类: 其他发布时间: 03-03 09:31 阅读次数: 0

机器学习之集成学习--AdaBoost

1. 概述       AdaBoost是英文“Adaptive Boosting”（自适应增强）的缩写，它的自适应在于：前一个基本分类器被错误分类的样本的权值会增大，而正确分类的样本的权值会减小，并再次用来训练下一个基本分类器。同时在每一轮迭代中，加入一个新的弱分类器，直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数才确定最终的强分类器。将学习器的重点放在“容易”出错的样本上。可以提升学习器的性能。2. 示例&

分类: 其他发布时间: 03-03 09:30 阅读次数: 0

机器学习之集成学习--Stacking

1. 概述       Stacking 就是当用初始训练数据学习出若干个基学习器后，将这几个学习器的预测结果作为新的训练集，来学习一个新的学习器。Stacking 的基础层通常包括不同的学习算法，因此stacking ensemble往往是异构的。2. 算法流程1）过程1-3是训练出来个体学习器，也就是初级学习器。过程5-9是使用训练出来的个体学习器来得预测的结果，这个预测的结果当做次级学习器的训练集。2）过程5-9是使用

分类: 其他发布时间: 03-03 09:30 阅读次数: 0

AI面试题①--特征归一化

1. 概述特征归一化是将所有特征都统一到一个大致相同的数值区间内，通常为[0，1]。特征归一化主要是用来解决数据的量纲不同的问题。2. 常用的特征归一化方法1）Min-Max Scaling（归一化/区间缩放法）       对原始数据进行线性变换，使结果映射到[0,1]的范围，实现对数据的等比例缩放。代码如下：from sklearn.preprocessing import MinMaxScalerx1 = Min

分类: 其他发布时间: 03-03 09:30 阅读次数: 0

AI面试题②--One-hot的作用，为什么不直接使用数字作为表示

       One-hot主要用来编码类别特征，即采用哑变量（dummy variables）对类别进行编码。它的作用是避免因将类别用数字作为表示而给函数带来抖动。直接使用数字会将人工误差而导致的假设引入到类别特征中，比如类别之间的大小关系，以及差异关系等等。...

分类: 其他发布时间: 03-03 09:30 阅读次数: 0

AI面试题③--过拟合和欠拟合

1. 在模型评估过程中，过拟合和欠拟合具体指什么现象       过拟合是指模型对于训练数据拟合呈过当的情况，反映到评估指标上，就是模型在训练集上的表现好，但是在测试集和新数据上的表现较差。欠拟合指的是模型在训练和预测时表现都不好。用模型在数据上的偏差和方差指标来表示就是：欠拟合时候，偏差比较大；而过拟合时，偏差较小但方差较大。2. 降低过拟合和欠拟合的方法2.1. 降低过拟合的方法1）特征 – 减少不必要的特征 &n

分类: 其他发布时间: 03-03 09:29 阅读次数: 0

AI面试题④--什么是数据不平衡，如何解决

1. 什么是数据不平衡       数据不平衡主要指的是在有监督机器学习任务中，样本标签值的分布不均匀。这将使得模型更倾向于将结果预测为样本标签分布较多的值，从而使得少数样本的预测性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。2. 解决方法重新采样训练集1）欠采样：通过减少丰富类的大小来平衡数据集。2）过采样：增加稀有样本，通过使用重复，自举或合成少数类等方法。设计使用不平衡数据集的模型1）在

分类: 其他发布时间: 03-03 09:29 阅读次数: 0

AI面试题⑤--逻辑回归和线性回归的区别

       逻辑回归和线性回归之间既有区别又有联系。逻辑回归和线性回归最大的不同点是逻辑回归解决的是分类而线性回归解决的是回归问题。逻辑回归又可以认为是广义线性回归的一种特殊形式，其特殊之处在于其目标（label/target）的取值服从二元分布。       所谓逻辑回归是一种特殊的广义线性回归，我们可以通过狭义线性回归到逻辑回归的转化来理解。狭义线性回归的表达式

分类: 其他发布时间: 03-03 09:29 阅读次数: 0

AI面试题⑥--分类问题常用的性能度量指标（评价指标）

分类问题常用的性能度量指标有精确率、召回率、F1、TPR、FPR。分类问题度量指标的基础是混淆矩阵：上表中：TP表示正样本被预测为正样本（真正例，True Positive）FN表示正样本被预测为负样本（假负例，False Negative）TN表示负样本被预测为负样本（真负例，True Negative）FP表示负样本被预测为正样本（假正例，False Positive）● 准确率：所有预测正确的样本（正样本预测为正，负样本预测为负）与所有样本的比值：● 精确率（查准率）： .

分类: 其他发布时间: 03-03 09:29 阅读次数: 0

AI面试题⑦--回归问题常用的性能度量指标（评价指标）

1. 均方误差（MSE）       MSE（Mean Square Error）：是反映估计值与被估计值之间差异程度的一种度量。公式如下：2. 均方根误差（RMSE）       RMSE（Root Mean Square Error）：观测值与真值偏差的平方和与观测次数n比值的平方根，用来衡量观测值同真值之间的偏差。公式如下：3. 和方误差（SSE）

分类: 其他发布时间: 03-03 09:28 阅读次数: 0

目标检测之两阶段算法--R-CNN详解

RCNN

分类: 其他发布时间: 03-03 09:28 阅读次数: 0

目标检测之IoU（交并比）详解及代码实现

1. IOU概述       IoU的全称为交并比（Intersection over Union），是目标检测中使用的一个概念，IoU计算的是“预测的边框”和“真实的边框”的交叠率-，即它们的交集和并集的比值。最理想情况是完全重叠，即比值为1。2. IoU计算       IoU等于“预测的边框”和“真实的边框”之间交集和并集的比值。IoU计算如下图，B1为真实

分类: 其他发布时间: 03-03 09:28 阅读次数: 0

目标检测之NMS和soft-NMS详解及代码实现

1. NMS1.1. NMS概述       非极大值抑制（Non-Maximum Suppression， NMS），顾名思义就是抑制不是极大值的元素，用于目标检测中，就是提取置信度高的目标检测框，而抑制置信度低的误检框。一般来说，用在当解析模型输出到目标框时，目标框会非常多，具体数量由anchor数量决定，其中有很多重复的框定位到同一个目标，NMS用来去除这些重复的框，获得真正的目标框1.2. NMS流程 &nbsp

分类: 其他发布时间: 03-03 09:28 阅读次数: 0

AI面试题⑧--逻辑回归如何处理多标签分类问题

       如果y不是在[0,1]取值，而是在K个类别中取值，那么这时，问题就变为一个多分类问题。有两种方式可以处理该类问题：当K个类别不是互斥的时候，即每次对样本进行分类时，不需要考虑它是不是还可能是别的类别。那么我们可以为每个类别建立一个逻辑回归模型。用它来判断样本是否属于当前按类别。（即多标签值：指一个样本实例可以出现两个以上的标签值）当K个类别互斥的时候，即当y=i的时候意味着y不能取其他的值，这种情况下Softmax更合

分类: 其他发布时间: 03-03 09:27 阅读次数: 0

AI面试题⑨--Kmeams算法流程以及Kmeans++介绍

1. Kmeans算法流程随机初始化K个中心点；计算所有样本分别到K个中心点的距离；比较每个样本到K个中心点的距离（这里的距离也可以使用欧氏距离），并将样本分类到距离最近的中心点所在的类别中；对K个类别组成的样本点，重新计算中心点（计算方法是计算子集中所有元素各个维度的算术平均数）；重复2~4，直到中心点不再变化。2. Kmeans++       Kmeans++的算法思想是使得初始化的聚类中心点之间的距离尽可能的

分类: 其他发布时间: 03-03 09:27 阅读次数: 0

AI面试题⑩--为什么必须在神经网络中引入非线性

       如果神经网络中没有引入非线性层，那么神经网络就变成了了线性层的堆叠。而多层线性网络的堆叠本质上还是一个线性层，我们以两层线性网络的堆叠为例：       我们用f(x)表示第一层线性网络，g(x)表示第二层线性网络，则两层网络的堆叠表示为：我们令：那么原来的表达式就变为：      

分类: 其他发布时间: 03-03 09:27 阅读次数: 0

AI面试题11--随机森林算法的原理、随机性、优缺点

1. 随机森林算法原理       随机森林算法是Bagging集成框架下的一种算法，它同时对训练数据和特征采用随机抽样的方法来构建更加多样化的模型。随机森林具体的算法步骤如下：1, 假设有N个样本，则有放回的随机选择N个样本（每次随机选择一个样本，然后将该样本放回并继续选择）。采用选择好的N个样本用来训练一个决策树，作为决策树根节点处的样本。2. 假设每个样本有M个属性，在决策树做节点分裂时，随机从这M个属性中选取m个属性，满足

分类: 其他发布时间: 03-03 09:27 阅读次数: 0

AI面试题12--GBDT原理、如何用于分类、常用损失函数

1. 简述GBDT原理2. GBDT如何用于分类3. GBDT常用损失函数

分类: 其他发布时间: 03-03 09:26 阅读次数: 0

目标检测之两阶段算法--Fast R-CNN详解

论文题目：《Fast R-CNN》论文地址：Fast R-CNN1. 概述       之所以提出Fast R-CNN，主要是因为R-CNN存在以下几个问题：1、训练分多步。通过上一篇博文我们知道R-CNN的训练先要fine tuning一个预训练的网络，然后针对每个类别都训练一个SVM分类器，最后还要用regressors对bounding-box进行回归，另外region proposal也要单独用selective searc

分类: 其他发布时间: 03-03 09:26 阅读次数: 0

人脸识别之FaceNet详解

论文题目：《FaceNet: A Unified Embedding for Face Recognition and Clustering》论文地址：FaceNet1、概述       FaceNet（A Unified Embedding for Face Recognition and Clustering）直接把输入图像变成欧式空间中的特征向量，两个特征向量间的欧式距离就可以用来衡量两者之间的相似度。可以用在人脸验证、识别和

分类: 其他发布时间: 03-03 09:26 阅读次数: 0