【数据应用案例】基于用户画像的腾讯大数据防刷架构

案例来源：@颜国平

1. 羊毛党角色

1）软件制作团伙：开发黑产工具，如注册自动机、刷单自动机等

2）短信代接平台：实现短信的自动接发

3）账号出售团伙：养各类账号，通过转卖账号获利

4）刷单团伙：到各平台刷单，获取优惠，然后通过第三方平台出售优惠套现

2. 对抗刷单的三个主要环节

1）注册环节：识别虚假注册的账号

2）登录环节：提高虚假账号的登录门槛，如验证码、语音验证码等

3）活动环节：

a. 验证码等降低刷单效率

b. 大幅度降低异常账号的优惠力度

3. 风险学习引擎：对账号进行风险评估

1）采用黑/白双分类风险判定机制，减少对正常用户的误伤

a. 黑分类器判断异常的概率，白分类器判断属于正常的概率

b. 如某个IP是恶意IP，但是如果这是大网关IP，上面可能会有一些正常用户

2）矩阵式逻辑框架

a. 如果只用一个模型建立分类器，那么在面对不同的黑产时，可能出现某个逻辑误伤大，另一个逻辑不够有效等

b. 针对不同账号类型建立不同的分类器，然后用AdaBoost方法集成。这样可以提高实际运行时的灵活性，比如某个平台虚假账号集中在邮箱部分，策略上可以加大对邮箱账号的打击力度。同时拆成多个子问题可以不同考虑不同账号类型之间的正负数据平衡性问题

c. 单个账号类型中中，采用多个弱分类器bagging的方法集成

4. 腾讯用户画像——IP画像举例

1）画像维度：

a. 网络属性：代理IP、VPN IP、网关IP、服务器IP

b. 地域属性：国外IP、IP归属地、高危地区

c. 业务属性：登录腾讯业务、登录的腾讯用户量

d. 恶意属性：DDOS IP、肉鸡IP、腾讯业务作弊IP

2）举例：识别代理IP：

a. 反向探测技术：扫描IP是不是开通了80,8080等代理服务器经常开通的端口，显然一个普通的用户IP不太可能开通如上的端口。

b. HTTP头部的X_Forwarded_For：开通了HTTP代理的IP可以通过此法来识别是不是代理IP；如果带有XFF信息，该IP是代理IP无疑。

c. Keep-alive报文：如果带有Proxy-Connection的Keep-alive报文，该IP毫无疑问是代理IP。

d. 查看IP上端口：如果一个IP有的端口大于10000，那么该IP大多也存在问题，普通的家庭IP开这么大的端口几乎是不可能的。

通过业务建模，识别恶意IP，然后通过上述方法判断是否是代理IP

5. 实际使用

1）对于白用户：正常访问、下单、抢券

2）对于轻度恶意用户：验证码

3）对于重度恶意用户：语音验证码、人工核实、后台取消订单等

6. 接入过程