数学建模 | 关于数据预处理你必须要知道的20个知识点

问题1:为什么需要进行数据预处理?
答案:数据预处理可以提高机器学习模型的准确性和效果。

问题2:什么是异常值?如何处理?
答案:异常值是偏离大多数数据点的极端值。可以删除或者用中位数替代。

问题3:什么是缺失值?如何处理?
答案:缺失值是数据集中不存在的值。可以删除对应的行/列,用平均值或中位数填充,或者用机器学习模型预测填充。

问题4:什么是数据不均衡?如何处理?
答案:数据集的某个类别的数据过多或过少。可以通过过采样或欠采样调整类别比例。

问题5:标准化和归一化的区别是什么?
答案:标准化保留原数据的形状,归一化转换到0-1范围。

问题6:什么是sessing?为什么要评估数据的sessing?
答案:数据是否存在斜度和峰度偏移。评估sessing可以避免模型受到数据分布影响过度。

问题7:什么是特征工程?为什么要进行特征工程?
答案:特征工程是从原始数据中提取有效特征的过程。可以提高模型准确性,减少维度灾难。

问题8:什么是one-hot编码?
答案:one-hot编码是将类别变量转换为 Indicator 变量的过程。

问题9:什么是特征选择?常用的特征选择方法有哪些?
答案:特征选择是从全部特征中选择最相关最重要的特征子集的过程。常用方法有相关系数法、递归特征消除法和LASSO回归等。

问题10:什么是PCA?为什么要进行PCA?
答案:PCA是主成分分析,用于降维,可以减少特征冗余,提高计算效率。

问题11:什么是数据划分?为什么要进行数据划分?
答案:数据划分是将数据集分为训练集、验证集和测试集。用于模型训练、调参和评估。

问题12:什么是过采样?什么是欠采样?
答案:过采样是增加少数类样本以平衡数据集。欠采样是删除多数类样本以平衡数据集。

问题13:什么是Z-score标准化?
答案:Z-score标准化是使数据符合标准正态分布,即平均值变为0,标准差变为1。

问题14:什么是Min-Max归一化?
答案:Min-Max归一化是将数据映射到0到1范围,保留数据分布形状。

问题15:什么是数据变换?常用的变换方法有哪些?
答案:数据变换是对数据进行函数变换,提高数据分布的均匀性和对称性。常用方法有log变换、box-cox变换、幂变换等。

问题16:什么是Errpothesis?为什么需要Checksum?
答案:Errpothesis检验数据的偏差程度。Checksum用于检验数据传输过程中的误差。

问题17:什么是标注和非标注数据?
答案:标注数据指有标签的训练数据,非标注数据指无标签的数据。

问题18:什么是离群点?为什么需要检测并处理离群点?
答案:离群点是与大多数数据点差异较大的异常数据点。需要检测并处理以避免模型过度受其影响。

问题19:什么是数据泄露?为什么需要检测数据泄露?
答案:数据泄露指训练集和测试集之间的信息交叉污染。需要检测以保证模型评估的可靠性。

问题20:什么是数据分箱?分箱的目的是什么?
答案:数据分箱是将连续数据分割成桶的过程。目的是方便后续的特征分析与挖掘。