机器学习,初探索

lable

character,用classifier来判别,分类

做Confidence(信心分数)来判别准确率有多高

系统流程

一个好的系统不一定正确率高,因为阈值是人为调的,所以有可能正确率高,但识别错误的个数也多。

异常侦测无法用普通的方法判断

 

不同的任务,在机器学习过程中给的分数不同,例如:给一个人检测癌症,那么就让“有癌症但没检测出来有癌症”扣100cost,然后让“没癌症但检查出来有癌症”扣1cost,因为前者情况发生很严重。典型measure——Area under ROC curve

problem①:

判断是猫还是狗,情况Ⅰ:是猫,情况Ⅱ:是狗,情况Ⅲ:没有猫和狗的特征&&不是猫也不是狗

        情况Ⅳ:有很强很深的猫的特征但不是猫,情况Ⅴ:有很强很深的狗的特征但不是狗。

solvetion:加入异常的data,在学习的过程中不只是做分类,而且要给正常的data高的confidence,

用generative models 生成anormal data

可以将coinfidence换成几率,从而来判断

 极大似然法求参数

 

求找出捣乱分子的概率的函数的参数,用极大似然估计

一个常用的“找出捣乱分子的概率的函数”就是正态分布(高斯分布)

图中的D是x的维度(我猜想也就是秩)  covariance matrix——协方差矩阵

这里有两个维度,每个维度是一个判别条件,高斯分布的好处就在于可以随意加维度,这样一来就可以增加判断条件,使学习更好

方法二:使用Auto-encoder:

用训练出来的方法来还原需要检测的data,根据还原的data与原data的相似程度,判断data是否normal

其他方法:

concluding remark:

猜你喜欢

转载自www.cnblogs.com/duzetao/p/12192519.html