版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011322987/article/details/86099306
1 什么是p问题,np问题,np完全问题,np难问题
(https://zhidao.baidu.com/question/2267363653752475308.html)
P问题:就是在多项式时间内可以算出答案的问题,也就是说可以在一个比较短的时间内可以算出答案的问题。
NP问题:就是可以(多项式时间内)短时间内验证一个答案正确性的问题。
NP完全问题:第一个条件,可以这么说,就是你如果能解决A问题,则通过A问题可以解决B问题,那么A问题比B问题复杂,当所有的问题都可以通过A问题的解决而解决的话,那么A问题就可以称为NP完全问题,第二个条件,就是A问题属于NP问题。
NP难问题:这个就是NP完全问题中满足第一个条件并且不满足第二个条件的问题。
模型选择
选择泛化误差最小的模型。需使用测试集来测试模型对新样本的判别能力,以测试集上的测试误差,来近似泛化误差。
- 留出法(hold-out)
大约2/3~4/5的样本用于训练,剩余的用于测试。 - 交叉验证法(cross validation)
如 k折交叉验证。k=5,10,20
特别地当k = m(样本数)时,称为留一法。 - 自助采样法(bootstrapping)/可重复采样/可放回采样
放回抽样,0.368 用于测试,这样的测试结果称为“包外估计”。
适用:数据集较小
模型调参
训练集,测试集,验证集比例怎么确定? 8:1:1
调参有啥工具和经验技巧?
自动调参:O2Osklearn工具(配置复杂)
手动调参:grid search(网格搜索,暴力)、随机搜素、启发式搜索等
查准率P,查全率R,F1
…
综合P-R值的F1度量:
平衡点BEP:即P=R时的取值。谁大谁优秀!!
ROC 与 AUC
AUC(Area Under ROC Curve):ROC曲线下的面积。面积越大越好。