无监督学习应用在反欺诈中

传统对于欺诈行为的几种处理方式:

  1. 黑名单、信誉库和设备指纹,这种方法的缺点是覆盖率和准确率有限,而且虚拟机等可逃避设备指纹监测;
  2. 规则系统,这种方法需要深入了解欺诈模式,但不能够有效应对不断变化的欺诈手段;
  3. 有监督的机器学习,这种方法的缺点是需要大量人工标注数据,只能检测同种特征行为的欺诈。

上述的这些做法都只发现了欺诈行为的冰山一角,而从一个群体行为来看,才有可能发现数据内部的真实特性。

最终的目标和处理方式,都指向了无监督的大数据欺诈检测。

监督学习的优势及意义: 

1、大多数据是未经过人为标记的;

2、可以对数据中的复杂信息进行分离;

3、可以分析事物间的内在联系,包过因果关系和相关性;

4、可以自动发现描述数据的显著性,实现特征自学习;

5、可以为有监督学习提供预训练;

6、可以随时随地学习新环境下的新知识,实现对各种场景及环境变化的灵活自适应;

无监督学习特征提取是整个算法必不可少的部分。

特征的提取就是对特征的选择,主要有:特征拆解和特征组合两大类。

1、特征拆解同样也十分容易理解,就是对特征进行拆分观察。例如号码或者ip地址的前缀拿出来对比,把前缀相同或者类似的人聚合在一起分析。

2.特征的组合是指多个字段在一起才是有含义的。例如字段X是经度,字段Y是纬度,那么,当XY在一起的时候才能确定这个人的特征,单看X或Y都不具备可研究性。巧妙利用特征组合可以发现很多欺诈手法的共性,识别机器人伪装。例如,比较设备型号+设备分辨率,发现某一批用户的两个信息不符(iPad的分辨率却与iPhone 7相同),则可断定这是采用模拟器伪装的设备。

图中,无监督学习利用上文中提到的特征提取技术,对原始数据处理后产生特征池(特征工程),包含用户行为、资料、设备信息等数据,对用户进行关联及聚类。图中的聚类,是利用特征,聚类出异常。通过自学习,选择特征权重wi和关联函数Fi,得到关联概率p(x,y),从而得到各个散点之间的内联程度,也就是我们所说的“相似度”。这一过程用到图分析等各种聚类算法,将此算法应用于反欺诈可谓是如鱼得水,运用自如。但是同样,没有完美的算法,只有合适的数据及合适的算法类别,

猜你喜欢

转载自blog.csdn.net/u013750302/article/details/121513975