无监督学习应用在反欺诈中

传统对于欺诈行为的几种处理方式：

黑名单、信誉库和设备指纹，这种方法的缺点是覆盖率和准确率有限，而且虚拟机等可逃避设备指纹监测；
规则系统，这种方法需要深入了解欺诈模式，但不能够有效应对不断变化的欺诈手段；
有监督的机器学习，这种方法的缺点是需要大量人工标注数据，只能检测同种特征行为的欺诈。

上述的这些做法都只发现了欺诈行为的冰山一角，而从一个群体行为来看，才有可能发现数据内部的真实特性。

最终的目标和处理方式，都指向了无监督的大数据欺诈检测。

监督学习的优势及意义：

1、大多数据是未经过人为标记的；

2、可以对数据中的复杂信息进行分离；

3、可以分析事物间的内在联系，包过因果关系和相关性；

4、可以自动发现描述数据的显著性，实现特征自学习；

5、可以为有监督学习提供预训练；

6、可以随时随地学习新环境下的新知识，实现对各种场景及环境变化的灵活自适应；

无监督学习特征提取是整个算法必不可少的部分。

特征的提取就是对特征的选择，主要有：特征拆解和特征组合两大类。

1、特征拆解同样也十分容易理解，就是对特征进行拆分观察。例如号码或者ip地址的前缀拿出来对比，把前缀相同或者类似的人聚合在一起分析。

2.特征的组合是指多个字段在一起才是有含义的。例如字段X是经度，字段Y是纬度，那么，当XY在一起的时候才能确定这个人的特征，单看X或Y都不具备可研究性。巧妙利用特征组合可以发现很多欺诈手法的共性，识别机器人伪装。例如，比较设备型号+设备分辨率，发现某一批用户的两个信息不符（iPad的分辨率却与iPhone 7相同），则可断定这是采用模拟器伪装的设备。

图中，无监督学习利用上文中提到的特征提取技术，对原始数据处理后产生特征池（特征工程），包含用户行为、资料、设备信息等数据，对用户进行关联及聚类。图中的聚类，是利用特征，聚类出异常。通过自学习，选择特征权重wi和关联函数Fi，得到关联概率p（x，y），从而得到各个散点之间的内联程度，也就是我们所说的“相似度”。这一过程用到图分析等各种聚类算法，将此算法应用于反欺诈可谓是如鱼得水，运用自如。但是同样，没有完美的算法，只有合适的数据及合适的算法类别，

无监督学习应用在反欺诈中

猜你喜欢