광고 트래픽 사기 방지 위험 관리에 모델 적용

작성자: Vivo 인터넷 보안 팀 - Duan Yunxin


상업적 광고 트래픽이 실현되고 미디어 측과 광고주 측의 사기 현상이 심각하여 각 당사자의 이익을 손상시킵니다.전략 및 알고리즘 모델을 기반으로 비즈니스 위험 제어는 모든 당사자의 이익을 효과적으로 보장할 수 있습니다. 알고리즘 모델 전략으로 달성할 수 없는 복잡한 문제를 효과적으로 식별할 수 있습니다.이 기사에서는 부정 행위 모델에 대해 먼저 광고에서 부정 행위 방지를 소개한 다음 위험 제어 시스템에서 일반적으로 사용되는 알고리즘 모델과 응용 사례를 소개합니다. 실제 전투 과정에서 특정 위험 제어 알고리즘 모델.


1. 광고 사기 방지 소개


 1.1 광고 트래픽 사기 방지의 정의


광고트래픽사기는 매체가 각종 부정행위를 통해 광고주의 이익을 취하는 것을 말합니다.


사기성 트래픽은 주로 다음에서 발생합니다.

  • 에뮬레이터 또는 장치의 광고 트래픽이 변조되었습니다.

  • 실제 장비이지만 트래픽은 그룹 제어로 제어됩니다.

  • 실제 사람과 실제 기계가 있지만 무효 트래픽을 유도하는 등.


1.2 일반적인 부정 행위


  • 기계 동작:   IP 반복 스와이프, 다른 IP 반복 스와이핑, 트래픽 하이재킹, 다른 imei 반복 스와이프 등

  • 인위적 행위: 클릭을 유도하는 머티리얼 인터랙션 요소, 클릭을 유도하는 미디어 렌더링 카피, 갑작스러운 팝업 및 허위 터치 등


1.3 일반적인 부정행위 유형


광고 게재 프로세스의 순서를 따르십시오.

  • 디스플레이 부정 행위: 미디어는 동시에 동일한 광고 슬롯에 여러 디스플레이 광고를 노출하고 여러 광고를 표시한 광고주에게 비용을 청구합니다.

  • 부정 클릭: 스크립트 또는 컴퓨터 프로그램을 통해 실제 사용자를 시뮬레이션하거나 사용자를 고용하고 클릭하도록 장려하고 쓸모 없는 광고 클릭을 대량 생성하고 광고주의 CPC 광고 예산을 얻습니다.

  • 설치 치팅: 테스트 머신 또는 시뮬레이터를 통한 다운로드 시뮬레이션, 수동 또는 기술적 수단을 통한 장치 정보 수정, SDK를 통한 가상 정보 전송, 다운로드 시뮬레이션 등


2. 광고 트래픽 부정행위 방지 알고리즘 시스템


2.1 비즈니스 리스크 관리 알고리즘 모델의 적용 배경


지능형 위험 통제는 대량의 행동 데이터를 사용하여 위험을 식별하고 인식하는 모델을 구축하며 규칙 및 전략과 비교하여 식별의 정확성, 적용 범위 및 안정성을 크게 향상시킵니다.

일반적인 감독되지 않은 알고리즘:

  • 밀도 클러스터링(DBSCAN)

  • 고립의 숲

  • K-평균 알고리즘


일반적인 지도 알고리즘:

  • 로지스틱 회귀

  • 랜덤 포레스트 


2.2 广告流量模型算法体系


 

体系分四层:

  • 平台层:主要是依托spark-ml/tensorflow/torch算法框架基础上,引用开源以及自定义开发的算法应用于业务风控建模中。


  • 数据层:搭建vaid/ip/媒体/广告位等多粒度下,请求、曝光、点击、下载、激活等多转化流程的画像和特征体系,服务于算法建模。


  • 业务模型层:基于行为数据特征和画像数据,搭建点击反作弊审计模型、请求点击风险预估模型、媒体行为相似团伙模型以及媒体粒度异常感知等模型。


  • 接入层:模型数据的应用,离线点击反作弊模型审计结果与策略识别审计结果汇总,同步业务下游处罚;媒体异常感知模型主要作为候选名单同步点检平台和自动化巡检进行。


三、算法模型应用案例


3.1 素材交互诱导感知


背景:广告素材中添加虚拟的X关闭按钮,导致用户关闭广告时点击的虚假的X按钮,导致无效的点击流量,同时影响用户体验;左图是投放的原始素材,右侧是用户点击的坐标绘制热力图,虚拟X导致用户关闭广告时产生无效的点击流量。



模型识别感知:


1、密度聚类(DBSCAN):


先定义几个概念

  • 邻域:对于任意给定样本x和距离ε,x的ε邻域是指到x距离不超过ε的样本的集合;

  • 核心对象:若样本x的ε邻域内至少包含minPts个样本,则x是一个核心对象;

  • 密度直达:若样本b在a的ε邻域内,且a是核心对象,则称样本b由样本x密度直达;

  • 密度可达:对于样本a,b,如果存在样例p1,p2,...,pn,其中,p1=a,pn=b,且序列中每一个样本都与它的前一个样本密度直达,则称样本a与b密度可达;

  • 密度相连:对于样本a和b,若存在样本k使得a与k密度可达,且k与b密度可达,则a与b密度相连;

  • 所定义的簇概念为:由密度可达关系导出的最大密度相连的样本集合,即为最终聚类的一个簇。



2、应用算法对诱导误触广告感知:


①首先按照分辨率和广告位,对点击数据进行分组,筛选过滤掉量级较小的群组; 


②对每个群组,使用密度聚类算法进行聚类,设置邻域密度阈值为10,半径ε=5,进行聚类训练;


③对每个群组,密度聚类后,过滤掉簇面积较小的簇,具体训练代码如下: 



④效果监控和打击,针对挖掘的簇,关联点击后向指标,针对异常转化指标广告位,进行复检,并对复检有问题广告位进行处置。


3.2 点击反作弊模型


3.2.1 背景


针对广告的点击环节建立作弊点击识别模型,提升反作弊审计覆盖能力,发现高纬度隐藏的作弊行为、有效补充点击场景的策略反作弊审计。


3.2.2 建设流程



(1)特征建设


基于token粒度,计算事件发生前,设备、ip、媒体、广告位的等粒度特征。


频率特征:在过去1分钟,5分钟,30分钟、1小时、1天,7天等时间窗口的曝光,点击、安装行为特征、即对应的均值、方差、离散度等特征;


基本属性特征:媒体类型,广告类型,设备合法性、ip类型,网络类型,设备价值等级等。


   

 2、模型训练和效果


① 样本选择:

  • 样本均衡处理:线上作弊样本和非作弊样本非均衡,采用对非作弊样本下采样方式,使得作弊和非作弊样本量达到均衡(1:1) 

  • 鲁棒性样本选取:线上非作弊样本量级大,且群体行为多样性且分布不均等,为了小样本训练上线后覆盖所有行为模式,

  • 使用K-means算法:针对线上非作弊样本进行分群,然后对每个群体按照占比再下采样,获得训练的非作弊样本。


② 特征预处理:

  • 统计每个特征缺失率,去掉缺失率大于50%的特征;

  • 特征贡献度筛选,计算每个特征对预测标签Y的区分度,过滤掉贡献度低于0.001的特征;

  • 特征稳定性筛选,在模型上线前,选取最大和最小时间段的样本,计算两个时间段每个特征的PSI值,过滤掉PSI值(Population Stability Index)大于0.2的特征,保留稳定性较好的特征。


③ 模型训练:

采用随机森林算法,对点击广告作弊行为进行分类,随机森林有较多优势,比如:

(1)能处理很高维度的数据并且不用做特征选择;

(2)对泛化误差(Generalization Error)使用的是无偏估计,模型泛化能力强;

(3)训练速度快,容易做成并行化方法(训练时树与树之间是相互独立的); 

(4)抗过拟合能力比较强;

超参数搜索优化,使用ParamGridBuilder,配置max_depth(树最大深度),numTrees(树的个数)等超参数的进行搜索优化最优超参数。



④ 模型稳定性监控:

模型上线后,如果特征随着时间迁移,推理时间的特征与训练时间的特征分布存在变动差异,需要对模型稳定性监控并迭代更新;


首先对当前版本训练样本进行存档,计算推理时间的数据和训练时间数据的对应每个特征的PSI值,计算的PSI值(Population Stability Index)每天可视化监控告警。


⑤ 模型可解释性监控: 

模型上线后,为了更直观的定位命中模型风险的原因,对推理数据进行可解释性监控;即对每条数据,计算其对预测标签的影响程度;


采用Shapley值(Shapley Additive explanation)解释特征如何影响模型的输出,计算shap值输出到可视化平台,日常运营分析使用。


3.3 点击序列异常检测


3.3.1 背景


通过用户小时点击量序列,挖掘恶意行为对应的设备,挖掘检测远离占绝大多数正常行为外的异常模式用户群体、比如只有凌晨0~6点有低频的其他时间没点击行为的异常群体、或者每小时均衡点击的行为等异常模式用户等。


3.3.2 建设流程


(1)特征建设

以设备作为用户,统计过去1/7/30天,每小时的点击量,形成1*24小时、7*24小时、30*24小时点击量序列,构建的特征具备时间尺度上特征完备性和每个特征数据连续条件,适用于异常检测算法。


(2)模型选择

孤立森林离群点检测算法,算法基于两个理论假设,即异常数据占总样本量的比例很小,异常点的特征值与正常点的差异很大。


检测分布稀疏且离密度高的群体较远的点,比如下图可以直观的看到,相对更异常Xo的只需要4次切割就从整体中被分离出来,即被‘孤立’了,而更加正常的Xi点经过了11次分割才从整体中分离出来。


(3)模型训练


使用IsolationForest算法,为了更好覆盖,针对多种粒度流量进行异常检测训练。


①全平台流量,训练异常感知模型,设置异常样本比例contamination=0.05;

②每类媒体类型的流量,训练异常感知模型,设置异常样本比例contamination=0.1;

③每种广告位类型流量,训练异常感知模型,设置异常样本比例contamination=0.1。



(4)感知监控

  • 异常得分定义:如果异常得分接近 1,那么一定是异常点,如果异常得分远小于 0.5,一定不是异常点;


  • 异常筛选:筛选异常得分大于0.7的用户作为高风险人群,介于0.5~0.7的人群作为中风险人群,对高中风险人群,同步审计平台人工二次审计;


  • 案例分析:  


案例① 

2022年XX月XX号, 7*24小时点击量异常检测, 可疑恶意用户A ,过去7天大部分时间,每小时均衡产生较多点击记录远超正常用户。

 (备注:features中每个点代表用户一个小时的点击量)  


案例②

2022年XX月XX号,1*24小时点击量序列异常检测,可疑恶意用户B, 基本只在凌晨产生点击,其他白天基本无点击行为。


四、总结


在流量反作弊领域,随着对抗手段的升级,算法模型能更好发现和挖掘黑产的隐藏的作弊模式;在广告流量反作弊领域,我们使用有监督和无监督等算法模型,从作弊流量识别,异常流量感知方面做了探索挖掘应用,有效提升识别能力,挖掘发现较复杂的异常行为模式。未来算法模型在机器流量识别上更多探索实践应用。



END

猜你喜欢


本文分享自微信公众号 - vivo互联网技术(vivoVMIC)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

{{o.name}}
{{m.name}}

추천

출처my.oschina.net/vivotech/blog/7924894