算法工程师面试300题

请简要介绍下SVM。
请简要介绍下Tensorflow的计算图。
请问GBDT和XGBoost的区别是什么？
在k-means或kNN，我们是用欧氏距离来计算最近的邻居之间的距离。为什么不用曼哈顿距离？
百度2015校招机器学习笔试题。
简单说说特征工程。
关于LR。
overfitting怎么解决？
LR和SVM的联系与区别？
LR与线性回归的区别与联系？
为什么XGBoost要用泰勒展开，优势在哪里？
XGBoost如何寻找最优特征？是又放回还是无放回的呢？
谈谈判别式模型和生成式模型？
L1和L2的区别。
L1和L2正则先验分别服从什么分布？
CNN最成功的应用是在CV，那为什么NLP和Speech的很多问题也可以用CNN解出来？为什么AlphaGo里也用了CNN？这几个不相关的问题的相似性在哪里？CNN通过什么手段抓住了这个共性？
说一下Adaboost，权值更新公式。当弱分类器是Gm时，每个样本的的权重是w1，w2…，请写出最终的决策公式。
LSTM结构推导，为什么比RNN好？
经常在网上搜索东西的朋友知道，当你不小心输入一个不存在的单词时，搜索引擎会提示你是不是要输入某一个正确的单词，比如当你在Google中输入“Julw”时，系统会猜测你的意图：是不是要搜索“July”，如下图所示：
为什么朴素贝叶斯如此“朴素”？
机器学习中，为何要经常对数据做归一化？
谈谈深度学习中的归一化问题。
.请简要说说一个完整机器学习项目的流程。
new 和 malloc的区别？
hash 冲突及解决办法？
如何解决梯度消失和梯度膨胀？
下列哪个不属于CRF模型对于HMM和MEMM模型的优势（）
简单说下有监督学习和无监督学习的区别？
了解正则化么？
协方差和相关性有什么区别？
线性分类器与非线性分类器的区别以及优劣。
数据的逻辑存储结构（如数组，队列，树等）对于软件开发具有十分重要的影响，试对你所了解的各种存储结构从运行速度、存储效率和适用场合等方面进行简要地分析。
什么是分布式数据库？
简单说说贝叶斯定理。
#include <filename.h> 和#include“filename.h”有什么区别？
.某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？
将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？
下面哪种不属于数据预处理的方法？
什么是KDD？
当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？
建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？
以下哪种方法不属于特征选择的标准方法？
请用python编写函数find_string，从文本中搜索并打印内容，要求支持通配符星号和问号。
说下红黑树的五个性质。
简单说下sigmoid激活函数。
什么是卷积?
什么是CNN的池化pool层?
简述下什么是生成对抗网络。
学梵高作画的原理是啥？
现在有 a 到 z 26 个元素，编写程序打印 a 到 z 中任取 3 个元素的组合（比如打印 a b c ，d y z等）。
哪些机器学习算法不需要做归一化处理？
说说梯度下降法。
梯度下降法找到的一定是下降最快的方向么？
牛顿法和梯度下降法有什么不同？
什么是拟牛顿法（Quasi-Newton Methods）？
请说说随机梯度下降法的问题和挑战？
说说共轭梯度法？
对所有优化问题来说, 有没有可能找到比現在已知算法更好的算法?
什么最小二乘法？
看你T恤上印着：人生苦短，我用Python，你可否说说Python到底是什么样的语言？你可以比较其他技术或者语言来回答你的问题。
Python是如何进行内存管理的？
请写出一段Python代码实现删除一个list里面的重复元素。
编程用sort进行排序，然后从最后一个元素开始判断。
Python里面如何生成随机数？
说说常见的损失函数。
简单介绍下Logistics回归。
看你是搞视觉的，熟悉哪些CV框架，顺带聊聊CV最近五年的发展史如何？
深度学习在视觉领域有何前沿进展？
HashMap与HashTable区别？
86 CHOOSE

87. 你有哪些Deep Learning（RNN，CNN）调参的经验？

88. 简单说说RNN的原理。

89. 什么是RNN？

90. RNN是怎么从单层网络一步一步构造的的?

101. 深度学习（CNN RNN Attention）解决大规模文本分类问题。

102. 如何解决RNN梯度爆炸和弥散的问题的？

103. 如何提高深度学习的性能？

104. RNN、LSTM、GRU区别？

105. 当机器学习性能遭遇瓶颈时，你会如何优化的？

106. 做过什么样的机器学习项目？比如如何从零构建一个推荐系统？

107. 什么样的资料集不适合用深度学习?

108. 广义线性模型是怎被应用在深度学习中?

109. 准备机器学习面试应该了解哪些理论知识？

110. 标准化与归一化的区别?

111. 随机森林如何处理缺失值。

112. 随机森林如何评估特征重要性。

113. 优化Kmeans。

114. KMeans初始类簇中心点的选取。

115. 解释对偶的概念。

116. 如何进行特征选择？

117. 数据预处理。

118. 简单说说特征工程。

119. 你知道有哪些数据处理和特征工程的处理？

120. 请对比下Sigmoid、Tanh、ReLu这三个激活函数？

121. Sigmoid、Tanh、ReLu这三个激活函数有什么缺点或不足，有没改进的激活函数？

122. 怎么理解决策树、xgboost能处理缺失值？而有的模型(svm)对缺失值比较敏感？

123. 为什么引入非线性激励函数？

124. 请问人工神经网络中为什么ReLu要好过于Tanh和Sigmoid function?

125. 为什么LSTM模型中既存在Sigmoid又存在Tanh两种激活函数？

126. 衡量分类器的好坏。

127. 机器学习和统计里面的auc的物理意义是什么？

128. 观察增益gain, alpha和gamma越大，增益越小？

129. 什么造成梯度消失问题? 推导一下。

130. 什么是梯度消失和梯度爆炸？

131. 推导下反向传播Backpropagation。

132. SVD和PCA。

133. 数据不平衡问题。

135. .简述神经网络的发展。

136. 深度学习常用方法。

137.-171

172. 增加卷积核的大小对于改进卷积神经网络的效果是必要的吗？

173. 请简述神经网络的发展史。

174. 说说spark的性能调优。

175. 机器学习中，有哪些特征选择的工程方法？

176. 常见的分类算法有哪些？

177. 常见的监督学习算法有哪些？

178. -214

215. 试推导样本空间中任意点x到超平面（w,b）的距离公式。

216. 从网上下载或自己编程实现一个卷积神经网络，并在手写字符识别数据MNIST上进行试验测试。

217. 神经网络中激活函数的真正意义？一个激活函数需要具有哪些必要的属性？还有哪些属是好的属性但不必要的？

218. 梯度下降法的神经网络容易收敛到局部最优，为什么应用广泛？

219. EM算法、HMM、CRF。

220. CNN常用的几个模型。

221. 带核的SVM为什么能分类非线性问题？

222. 常用核函数及核函数的条件。

223. Boosting和Bagging。

224. 逻辑回归相关问题。

225. 用贝叶斯机率说明Dropout的原理。

226. 为什么很多做人脸的Paper会最后加入一个Local Connected Conv？

227. 什么事共线性, 跟过拟合有什么关联?

228. 为什么网络够深(Neurons 足够多)的时候，总是可以避开较差Local Optima？

229. 机器学习中的正负样本。

230. 机器学习中，有哪些特征选择的工程方法？

231. -284 CHOOSE

285. 特征向量的归一化方法有哪些？

286. 优化算法及其优缺点？

287. RF与GBDT之间的区别与联系？

288.-301 CHOOSE

302. 什么是梯度爆炸？

303. 梯度爆炸会引发什么问题？

305. 如何修复梯度爆炸问题？

306. LSTM神经网络输入输出究竟是怎样的？

307. -315 CHOOSE

316. 什么是偏差与方差？

317. 解决Bias和Variance问题的方法是什么？

318. 采用 EM 算法求解的模型有哪些，为什么不用牛顿法或梯度下降法？

319. XGBoost怎么给特征评分？

320. 什么是OOB？随机森林中OOB是如何计算的，它有什么优缺点？

请简要介绍下SVM。
请简要介绍下Tensorflow的计算图。
请问GBDT和XGBoost的区别是什么？
在k-means或kNN，我们是用欧氏距离来计算最近的邻居之间的距离。为什么不用曼哈顿距离？
百度2015校招机器学习笔试题。
简单说说特征工程。
关于LR。
overfitting怎么解决？
LR和SVM的联系与区别？
LR与线性回归的区别与联系？
为什么XGBoost要用泰勒展开，优势在哪里？
XGBoost如何寻找最优特征？是又放回还是无放回的呢？
谈谈判别式模型和生成式模型？
L1和L2的区别。
L1和L2正则先验分别服从什么分布？
CNN最成功的应用是在CV，那为什么NLP和Speech的很多问题也可以用CNN解出来？为什么AlphaGo里也用了CNN？这几个不相关的问题的相似性在哪里？CNN通过什么手段抓住了这个共性？
说一下Adaboost，权值更新公式。当弱分类器是Gm时，每个样本的的权重是w1，w2…，请写出最终的决策公式。
LSTM结构推导，为什么比RNN好？
经常在网上搜索东西的朋友知道，当你不小心输入一个不存在的单词时，搜索引擎会提示你是不是要输入某一个正确的单词，比如当你在Google中输入“Julw”时，系统会猜测你的意图：是不是要搜索“July”，如下图所示：
为什么朴素贝叶斯如此“朴素”？
机器学习中，为何要经常对数据做归一化？
谈谈深度学习中的归一化问题。
.请简要说说一个完整机器学习项目的流程。
new 和 malloc的区别？
hash 冲突及解决办法？
如何解决梯度消失和梯度膨胀？
下列哪个不属于CRF模型对于HMM和MEMM模型的优势（）
简单说下有监督学习和无监督学习的区别？
了解正则化么？
协方差和相关性有什么区别？
线性分类器与非线性分类器的区别以及优劣。
数据的逻辑存储结构（如数组，队列，树等）对于软件开发具有十分重要的影响，试对你所了解的各种存储结构从运行速度、存储效率和适用场合等方面进行简要地分析。
什么是分布式数据库？
简单说说贝叶斯定理。
#include <filename.h> 和#include“filename.h”有什么区别？
.某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？
将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？
下面哪种不属于数据预处理的方法？
什么是KDD？
当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？
建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？
以下哪种方法不属于特征选择的标准方法？
请用python编写函数find_string，从文本中搜索并打印内容，要求支持通配符星号和问号。
说下红黑树的五个性质。
简单说下sigmoid激活函数。
什么是卷积?
什么是CNN的池化pool层?
简述下什么是生成对抗网络。
学梵高作画的原理是啥？
现在有 a 到 z 26 个元素，编写程序打印 a 到 z 中任取 3 个元素的组合（比如打印 a b c ，d y z等）。
哪些机器学习算法不需要做归一化处理？
说说梯度下降法。
梯度下降法找到的一定是下降最快的方向么？
牛顿法和梯度下降法有什么不同？
什么是拟牛顿法（Quasi-Newton Methods）？
请说说随机梯度下降法的问题和挑战？
说说共轭梯度法？
对所有优化问题来说, 有没有可能找到比現在已知算法更好的算法?
什么最小二乘法？
看你T恤上印着：人生苦短，我用Python，你可否说说Python到底是什么样的语言？你可以比较其他技术或者语言来回答你的问题。
Python是如何进行内存管理的？
请写出一段Python代码实现删除一个list里面的重复元素。
编程用sort进行排序，然后从最后一个元素开始判断。
Python里面如何生成随机数？
说说常见的损失函数。
简单介绍下Logistics回归。
看你是搞视觉的，熟悉哪些CV框架，顺带聊聊CV最近五年的发展史如何？
深度学习在视觉领域有何前沿进展？
HashMap与HashTable区别？
86 CHOOSE