机器学习笔记 - 机器学习基础面试题一

1. 机器学习有哪些不同类型？

监督学习：模型根据过去或标记的数据做出预测或决策。例如，股票市场价格的预测。

无监督学习：没有标记数据。模型可以识别输入数据中的模式、异常和关系。例如，将电子邮件分类为垃圾邮件和非垃圾邮件。

强化学习：模型可以根据之前的动作获得的奖励进行学习。

2、解释 KNN 和 k.means 聚类的区别？

K-Nearest Neighbors是一种有监督的机器学习算法，我们需要将标记数据提供给模型，然后模型根据点与最近点的距离对点进行分类。
而另一方面，K-Means聚类是一种无监督的机器学习算法，因此我们需要为模型提供未标记的数据，并且该算法根据不同点之间距离的平均值将点分类为聚类。

3、分类和回归有什么区别？

当您的目标是分类时使用分类，而当您的目标变量是连续的时使用回归。分类和回归都属于监督机器学习算法的范畴。

分类用于产生离散的结果，分类用于将数据分类为一些特定的类别。例如将电子邮件分类为垃圾邮件和非垃圾邮件类别。
鉴于，我们在处理连续数据时使用回归分析，例如预测某个时间点的股票价格。

4、如何确保您的模型不会过拟合？

正则化。

保持模型的设计简单。尝试通过考虑更少的变量和参数来减少模型中的噪声。

K-folds 交叉验证等交叉验证技术帮助我们控制过拟合。

诸如LASSO之类的正则化技术通过惩罚某些可能导致过拟合的参数来帮助避免过拟合。

5、“训练集”和“测试集”是什么意思？

        我们将给定的数据集分成两个不同的部分，即“训练集”和“测试集”。
        “训练集”是用于训练模型的数据集部分。
        “测试集”是用于测试训练模型的数据集部分。

6、列出 Navie Bayes 的主要优势？

与逻辑回归等其他模型相比，朴素贝叶斯分类器的收敛速度非常快。因此，在朴素贝叶斯分类器的情况下，我们需要更少的训练数据。

7、解释集成学习。

在集成学习中，许多基础模型（如分类器和回归器）被生成并组合在一起，以便提供更好的结果。当我们构建准确且独立的组件分类器时使用它。有顺序集成方法和并行集成方法。

示例：具有 100 棵树的随机森林可以提供比仅使用一棵决策树更好的结果。

8、解释机器学习中的降维。

降维是减少特征矩阵大小的过程。我们尝试减少列数，以便通过组合列或删除额外变量来获得更好的特征集。

9、当您的模型遭受低偏差和高方差时，您应该怎么做？

当模型的预测值非常接近实际值时，这种情况称为低偏差。在这种情况下，我们可以使用随机森林回归器之类的bagging算法。

10、解释随机森林和梯度提升算法之间的区别。

随机森林使用bagging技术，而 GBM 使用 boosting 技术。
随机森林主要尝试减少方差，GBM 减少模型的偏差和方差。

11. 如何处理数据集中丢失或损坏的数据？

处理丢失或损坏数据的最简单方法之一是删除这些行或列或将它们完全替换为其他值。

Pandas 中有两种有用的方法：

IsNull() 和 dropna() 将有助于找到缺少数据的列/行并删除它们
Fillna() 将用占位符值替换错误的值

12、如何根据训练集数据大小选择分类器？

当训练集较小时，具有正确偏差和低方差的模型似乎效果更好，因为它们不太可能过拟合。

例如，当训练集很大时，朴素贝叶斯效果最好。具有低偏差和高方差的模型往往表现更好，因为它们可以很好地处理复杂的关系。

13、解释机器学习算法的混淆矩阵。

混淆矩阵（或误差矩阵）是用于衡量算法性能的特定表格。它主要用于监督学习；在无监督学习中，它被称为匹配矩阵。

14、什么是假阳性和假阴性，它们的重要性如何？

误报是那些错误地归类为真但为假的情况。

假阴性是那些被错误归类为假但为真的情况。

在术语“假阳性”中，“阳性”一词是指混淆矩阵中预测值的“是”行。完整项表示系统已将其预测为正，但实际值为负。

15、在机器学习中建立模型的三个阶段是什么？

        创建模型：为模型选择合适的算法，根据需求进行训练
        模型测试：通过测试数据检查模型的准确性
        应用模型：在测试后进行所需的更改并将最终模型用于实时项目

16、什么是深度学习？

深度学习是机器学习的一个子集，涉及使用人工神经网络像人类一样思考和学习的系统。术语“深度”来自于您可以拥有多层神经网络这一事实。

机器学习和深度学习之间的主要区别之一是特征工程是在机器学习中手动完成的。在深度学习的情况下，由神经网络组成的模型会自动确定使用哪些特征（以及不使用哪些特征）

17、机器学习和深度学习有什么区别？

机器学习	深度学习
使机器能够根据过去的数据自行做出决定它只需要少量数据进行训练在低端系统上运行良好，因此您不需要大型机器大多数特征需要提前识别并手动编码问题分为两部分，单独解决，然后合并	使机器能够在人工神经网络的帮助下做出决策它需要大量的训练数据需要高端机器，因为它需要大量的计算能力机器从提供的数据中学习特征问题以端到端的方式解决

18、监督机器学习在现代企业中有哪些应用？

        垃圾邮件检测：在这里，我们使用由分类为垃圾邮件或非垃圾邮件的电子邮件组成的历史数据来训练模型。此标记信息作为输入提供给模型。
        医疗诊断：通过提供有关疾病的图像，可以训练模型来检测一个人是否患有该疾病。
        情绪分析：这是指使用算法挖掘文档并确定它们的情绪是积极的、中立的还是消极的过程。
        欺诈识别：通过训练模型来识别可疑模式，我们可以检测到可能的欺诈实例。

19、什么是半监督机器学习？

监督学习使用完全标记的数据，而无监督学习不使用训练数据。

在半监督学习的情况下，训练数据包含少量标记数据和大量未标记数据。

20、什么是无监督机器学习技术？

无监督学习中使用了两种技术：聚类和关联。

聚类

聚类问题涉及将数据划分为子集。这些子集（也称为集群）包含彼此相似的数据。与分类或回归不同，不同的集群揭示了有关对象的不同细节。

关联

在关联问题中，我们识别不同变量或项目之间的关联模式。

21、朴素贝叶斯分类器中的“朴素”是什么？

分类器被称为“朴素”，因为它做出的假设可能会或可能不会被证明是正确的。

该算法假定在给定类变量的情况下，一个类的一个特征的存在与任何其他特征的存在（特征的绝对独立性）无关。

例如，如果水果是红色且形状为圆形，则无论其他特征如何，它都可以被认为是樱桃。这个假设可能正确也可能不正确（因为苹果也符合描述）。

22、解释系统如何使用强化学习下棋。

强化学习有一个环境和一个代理。代理执行一些操作以实现特定目标。每次代理执行一项将其带向目标的任务时，它都会得到奖励。而且，每当它采取违背该目标或相反方向的步骤时，就会受到惩罚。

早些时候，国际象棋程序必须在对众多因素进行大量研究后确定最佳走法。建造一台设计用于玩此类游戏的机器需要指定许多规则。

通过强化学习，我们不必处理这个问题，因为学习代理通过玩游戏来学习。它将采取行动（决定），检查是否是正确的行动（反馈），并将结果保存在内存中以供下一步（学习）使用。系统做出的每一个正确决定都会得到奖励，错误的决定会受到惩罚。

23、怎么为分类问题选择哪种机器学习算法？

虽然没有为分类问题选择算法的固定规则，但您可以遵循以下准则：

如果准确性是一个问题，请测试不同的算法并交叉验证它们
如果训练数据集很小，请使用具有低方差和高偏差的模型
如果训练数据集很大，请使用具有高方差和小偏差的模型

24、亚马逊如何推荐其他要购买的东西？推荐引擎如何工作？

一旦用户从亚马逊购买了东西，亚马逊就会存储购买数据以供将来参考并找到最有可能被购买的产品，这可能是因为关联算法可以识别给定数据集中的模式。

25、如何设计垃圾邮件过滤器？

构建垃圾邮件过滤器涉及以下过程：

电子邮件垃圾邮件过滤器将收到数千封电子邮件
这些电子邮件中的每一个都已经有一个标签：“垃圾邮件”或“非垃圾邮件”。
然后，受监督的机器学习算法将根据诸如彩票、免费优惠、没钱、全额退款等垃圾邮件词来确定将哪种类型的电子邮件标记为垃圾邮件。
下一次电子邮件即将到达您的收件箱时，垃圾邮件过滤器将使用统计分析和决策树和SVM等算法来确定电子邮件是垃圾邮件的可能性
如果可能性很高，它会将其标记为垃圾邮件，并且电子邮件不会进入您的收件箱
根据每个模型的准确率，我们将在测试所有模型后使用准确率最高的算法

26、什么是随机森林？

“随机森林”是一种有监督的机器学习算法，通常用于分类问题。它通过在训练阶段构建多个决策树来运行。随机森林选择大多数树的决策作为最终决策。

27、给定一个数据集，你如何决定使用哪一个机器学习算法？

没有适用于所有情况的主算法。选择算法取决于以下问题：

你有多少数据，是连续的还是分类的？
问题是否与分类、关联、聚类或回归有关？
预定义变量（标记）、未标记或混合？
目标是什么？

基于以上问题，可以使用以下算法：

28、什么是机器学习模型中的偏差和方差？

偏差：当预测值远离实际值时，机器学习模型中就会出现偏差。低偏差表示预测值非常接近实际值的模型。

欠拟合：高偏差会导致算法错过特征和目标输出之间的相关关系。

方差：方差是指目标模型在使用不同的训练数据进行训练时将发生的变化量。对于一个好的模型，方差应该最小化。

过拟合：高方差会导致算法对训练数据中的随机噪声而不是预期输出进行建模。

29、偏差和方差之间的权衡是什么？

偏差-方差分解本质上是通过添加偏差、方差和由于基础数据集中的噪声导致的一些不可约误差来分解来自任何算法的学习误差。

必然地，如果您使模型更复杂并添加更多变量，您将失去偏差但获得方差。为了获得最佳减少的误差量，您必须权衡偏差和方差。既不需要高偏差也不需要高方差。

高偏差和低方差算法训练一致但平均不准确的模型。

高方差和低偏差算法训练准确但不一致的模型。

30、定义精确度和召回率。

精度是您可以正确召回的几个事件与您召回的事件总数（正确和错误召回的混合）的比率。

精度 =（真阳性）/（真阳性 + 假阳性）

一次召回是您可以召回的事件数与总事件数之比。

召回 =（真阳性）/（真阳性 + 假阴性）

31、什么是决策树分类？

决策树将分类（或回归）模型构建为树结构，在开发决策树时将数据集分解为越来越小的子集，实际上是以具有分支和节点的树状方式。决策树可以处理分类数据和数值数据。

32、什么是决策树中的修剪，它是如何完成的？

修剪是机器学习中的一种技术，可以减小决策树的大小。它降低了最终分类器的复杂性，从而通过减少过度拟合来提高预测精度。

自上而下。它将遍历节点并从根开始修剪子树
自下而上。它将从叶节点开始

33、简要解释逻辑回归。

逻辑回归是一种分类算法，用于预测给定自变量集的二元结果。

逻辑回归的输出为 0 或 1，阈值通常为 0.5。任何高于 0.5 的值都被认为是 1，任何低于 0.5 的点都被认为是 0。

34、什么是主成分分析？

主成分分析或 PCA 是一种用于分析定量数据的多元统计技术。PCA 的目标是将高维数据降维为低维，去除噪声，并从大量数据中提取特征和属性等关键信息。

35、你对F1分数的理解是什么？

F1 分数是一个结合了 Precision 和 Recall 的指标。它也是准确率和召回率的加权平均值。

F1分数可以使用以下公式计算：

F1 = 2 * (P * R) / (P + R)

当 Precision 和 Recall 得分均为 1 时，F1 得分为 1。

机器学习笔记 - IOU、准确率、召回率、F分数_bashendixie5的博客-CSDN博客一、什么是交并比？1、交并比(IOU)概述交并比（Intersection over Union）是一种评估指标，用于衡量目标检测器在特定数据集上的准确性。任何提供预测边界框作为输出的算法都可以使用 IoU 进行评估。只要有测试集手工标记的边界框和我们模型预测的边界框。就可以计算交并比。R1：真实的边界框矩形的范围；R2：预测出来的矩形的范围；Rol：R1和R2重合的范围。如下图所示 IOU值体现了单个对象...https://blog.csdn.net/bashendixie5/article/details/123738525

36、您对 I 型与 II 型错误的理解是什么？

I 类错误：当原假设为真并且我们拒绝它时，会发生 I 类错误。

II 型错误：当原假设为假并且我们接受它时，就会发生 II 型错误。

37、解释相关性和协方差？

相关性：相关性告诉我们两个随机变量之间的相关性有多强。它采用 -1 到 +1 之间的值。

计算相关性的公式：

协方差：协方差衡量两个变量如何相互关联，以及一个变量如何随着另一个变量的变化而变化。协方差告诉我们两个随机变量之间线性关系的方向。它可以取 - ∞ 和 + ∞ 之间的任何值。

计算协方差的公式：

38、SVM 中的支持向量是什么？

支持向量是离超平面最近的数据点。它影响超平面的位置和方向。移除支持向量将改变超平面的位置。支持向量帮助我们建立我们的支持向量机模型。

39、什么是交叉验证？

机器学习中的交叉验证是一种统计重采样技术，它使用数据集的不同部分在不同的迭代中训练和测试机器学习算法。交叉验证的目的是测试模型预测一组未用于训练模型的新数据的能力。交叉验证避免了数据的过度拟合。

K-Fold Cross Validation 是最流行的重采样技术，它将整个数据集划分为 K 个大小相等的集合。

40、在决策树算法中拆分树的方法有哪些？

方差：当目标变量是连续的时，使用方差拆分决策树的节点。

信息增益：当目标变量是分类变量时，首选使用信息增益拆分决策树的节点。

Gini Impurity：当目标变量是分类变量时，遵循使用 Gini Impurity 拆分决策树的节点。

41、在开始线性回归之前你需要做哪些假设？

线性回归模型主要有 5 个假设：

多元正态性
无自相关
同方差性
线性关系
没有或很少有多重共线性

42、Lasso 回归和 Ridge 回归有什么区别？

Lasso（也称为 L1）和 Ridge（也称为 L2）回归是两种流行的正则化技术，用于避免数据过度拟合。这些方法用于惩罚系数以找到最佳解决方案并降低复杂性。Lasso 回归通过惩罚系数绝对值的总和来工作。在岭回归或 L2 回归中，惩罚函数由系数的平方和确定。

优化目标：

加上L1正则项（lasso回归）：

加上L2正则项（岭回归）：

43、在处理数据集时如何选择重要变量？

        在确定重要变量之前识别并丢弃相关变量
        可以根据线性回归中的“p”值选择变量
        向前、向后和逐步选择
        套索回归（Lasso Regression）
        随机森林和绘图变量图
        可以根据可用特征集的信息增益来选择顶级特征。

44、One-hot 编码和标签编码

One-hot 编码是将分类变量表示为二进制向量。标签编码是将标签/单词转换为数字形式。使用 one-hot 编码增加了数据集的维度。标签编码不影响数据集的维度。

45、处理异常值的方法？

与其他类似数据点相距甚远的数据点称为异常值。它们可能由于实验误差或测量变异性而发生。它们是有问题的，可能会误导训练过程，最终导致训练时间延长、模型不准确和结果不佳。

        处理异常值的三种方法是：
        单变量方法——在单个变量上寻找具有极值的数据点。
        多变量方法——在所有变量上寻找不寻常的组合。
        Minkowski 误差——减少潜在异常值在训练过程中的贡献。

46、正则化和归一化有什么区别？

归一化用来调整数据;

正则化用来调整预测功能。

47、归一化和标准化的差异？

归一化一般是将数据映射到指定的范围，用于去除不同维度数据的量纲以及量纲单位。常见的映射范围有 [0, 1] 和 [-1, 1] ，最常见的归一化方法就是 Min-Max 归一化：

标准化是指重新缩放数据以具有0的平均值和1的标准偏差（单位方差）。

48、列出最流行的分布曲线

最流行的分布曲线如下 - 伯努利分布、均匀分布、二项分布、正态分布、泊松分布和指数分布。这些分布曲线用于各种场景。

伯努利分布可用于检查一支球队是否会赢得冠军，新生儿是男是女，您是否通过考试等。

均匀分布是具有恒定概率的概率分布。掷一个骰子就是一个例子，因为它有固定数量的结果。

二项分布是只有两种可能结果的概率，前缀“bi”表示两次或两次。抛硬币就是一个例子。结果将是正面或反面。

正态分布描述了变量的值是如何分布的。它通常是一个对称分布，其中大部分观测值聚集在中心峰周围。远离平均值的值在两个方向上均等地减小。一个例子是教室里学生的身高。

当您知道某些事件发生的频率时，泊松分布有助于预测某些事件发生的概率。商家可以使用它来预测特定日期的客户数量，并允许他们根据需求调整供应。

指数分布与特定事件发生之前的时间量有关。例如，汽车电池可以使用多长时间，以月为单位。

49、如何检查数据集或特征的正态性？

        Shapiro-Wilk W Test
        Anderson-Darling Test
        Martinez-Iglewicz Test
        Kolmogorov-Smirnov Test
        D’Agostino Skewness Test

50、惰性学习器

K-NN 是一种惰性学习器，因为它不会从训练数据中学习任何机器学习值或变量，而是在每次要分类时动态计算距离，要记住整个训练数据集。