부정 행위 방지 활동 장면에서 그래프 알고리즘 적용에 대해 이야기하기

저자 | 안티

가이드

부정 행위 방지 및 부정 행위 블랙 제품 간의 대결이 점점 더 치열해지고 부정 행위 방법이 날마다 변화함에 따라 우리는 새로운 부정 행위 문제를 해결하기 위해 끊임없이 새로운 방법을 시도하고 있습니다. 본 논문은 주로 이벤트 시나리오에서 커뮤니티 형태의 부정행위 문제를 해결하기 위한 그래프 알고리즘의 적용을 소개한다. 그래프 모델은 그래프의 토폴로지 구조와 학습을 위한 노드의 특성을 동시에 통합할 수 있을 뿐만 아니라 준지도 모델로서 레이블이 지정되지 않은 데이터를 더 잘 활용하고 리콜 효과를 향상시킬 수 있습니다. 기사에서 언급한 GCN 그래프 모델과 SCGCN(다중 그래프 연결 모델) 모두 치팅 리콜에서 좋은 결과를 얻었습니다.

원문은 4102단어, 예상 열람시간은 11분이다.

01 소개

운영 활동은 기업이 사용자 성장 및 유지를 보장하는 중요한 수단이며 기업의 핵심 경쟁력 중 하나이기도 합니다. 주요 형태는 신규유저 유치 및 활성화 촉진으로, 신규유저 확보는 기존유저들로부터 신규유저들을 유인하여 유저 자원 풀을 늘려 신규유저들을 획득하는 것이고, 활성화 촉진은 DAU를 높이고 업무를 수행함으로써 유저의 충성도를 높이는 것입니다. 예를 들어, 특정 운영 활동 중 하나인 APP에서 작업을 수행하고 빨간 봉투를 받는 활동에 주로 참여합니다. 자체 제품 특성을 결합하여 운영 활동을 수행함으로써 기업은 사용자 유지 및 전환율을 개선하여 기업 수입과 영향력을 높일 수 있습니다. Baidu APP에서는 "친구를 초대하여 빨간 봉투 받기", "작업을 수행하여 빨간 봉투 받기" 등과 같은 다양한 활동이 Baidu APP에 있습니다. 다만, 부정행위를 통해 부정한 이익을 얻으려는 부정행위자(인터넷 해커 등)가 다수 발생하게 되어 이벤트의 마케팅 효과에 영향을 미치게 됩니다. 이때 부정 행위 방지 시스템은 회사의 운영 활동을 에스코트하기 위해 사용자 초상화, 사용자 행동 및 장치 정보와 같은 다차원 정보를 통해 블랙 제품을 식별해야 합니다. 최근 몇 년 동안 부정 행위 방지와 암흑 산업 간의 지속적인 공격 및 방어 대결로 암흑 산업의 부정 행위 방법도 대규모 컴퓨터 기반 부정 행위에서 크라우드 소싱 부정 행위로 반복적으로 업그레이드되었으며 소규모 실제 부정행위를 방지하는 개인 부정행위 부정행위 및 부정행위 식별의 난이도도 높아지고 있기 때문에 블랙 제품을 식별하고 차단하기 위한 새로운 방법을 지속적으로 반복해야 합니다.

02 난이도

운영 활동에서 신규 이민자 유치 활동을 예로 들어보십시오. 새로운 유형을 당기는 활동에서 초대가 발생하면 사용자 간의 관계가 자동으로 설정됩니다. "). 예를 들어, Pic.3은 "신규 초대" 작업을 통해 생성된 사용자 관계도입니다. 우리는 상위 캐릭터를 하위 캐릭터의 "마스터", 하위 캐릭터를 "견습생"이라고 부릅니다. 상위 캐릭터. 그림에서 마스터는 여러 견습생을 모집할 수 있으며 동시에 그에 상응하는 보상을 받습니다.보통 견습생이 많을수록 더 많은 보상을 받습니다. 

△Pic.1 프렌즈 초대 활동, Pic.2 국경일 활동

 △Pic.3 초대 이벤트 캐릭터 관계 설명

현재 새로운 시나리오를 끌어오는 부정 행위 방지 모델링은 다음 두 가지 문제에 직면해 있습니다.

1. 사용자간 연락처 설명 능력 부족 : 현재 활동 부정행위 방지 사업의 적용 모델로는 트리 모델, DNN, 머신러닝 모델이 있다. 사용자를 노드로 간주하면 이러한 모델의 학습 및 훈련은 노드 자체의 특성에 더 많은 관심을 기울이지만 노드 간의 관계 특성을 학습하는 능력이 부족함을 알 수 있습니다. 최근 여러 치트 공격에서 '커뮤니티'는 대규모 공격을 기본 단위로 하는 치트 형식으로 행동 및 장비 정보 공유가 뚜렷하고 치트 정보 사이에 강한 상관 관계가 있음이 밝혀졌습니다. . 이 "연관" 기능을 학습하려면 더 나은 모델이 필요합니다.

2. 샘플 순도가 낮으면 회수가 제한됨 : 일반적으로 검은색 샘플은 수동 샘플링 평가 및 고객 불만 피드백 강화를 통해 얻고 흰색 샘플은 일정 비율의 무작위 샘플링으로 얻습니다. 그러나 이 방법으로는 해결하기 쉽지 않은 문제가 있습니다. 즉, 이러한 흰색 샘플이 알 수 없는 치팅 데이터와 혼합될 수 있으며, 이는 흰색 샘플의 순도를 감소시키고 감독 모델의 훈련 효과에 영향을 미칠 수 있습니다.

아래에서는 위의 두 가지 문제를 효과적으로 해결할 수 있는 그래프 모델 알고리즘을 소개합니다.

03 그래프 알고리즘 적용

위에서 제기한 두 가지 비즈니스 문제를 해결하기 위해 비즈니스 모델링을 위해 그래프 신경망 모델을 선택합니다. 그래프 모델의 장점은 그래프의 토폴로지 구조와 학습할 노드의 특성을 동시에 통합할 수 있다는 점이며, 노드 사이에 설정된 에지 관계를 통해 정보를 연결할 수 있을 뿐만 아니라 모델의 학습 능력을 보완할 수 있습니다. 그래프 모델은 에지 관계를 통해 리콜을 확장할 뿐만 아니라 반지도 모델로서 그래프 모델은 레이블이 지정되지 않은 데이터를 더 잘 활용하고 리콜 효과를 향상시킬 수 있습니다.

3.1 그래픽 모델 소개

현재 일반적으로 사용되는 그래프 신경망 모델은 두 가지 범주로 나눌 수 있습니다: 하나는 임의 보행 모델과 같은 그래프 보행 방법을 기반으로 하고 다른 하나는 GCN, GAT 및 GraphSAGE와 같은 그래프 컨벌루션 방법을 기반으로 합니다. 네트워크 모델. 전체 그래프의 관점에서 볼 때 GCN은 원래 그래프 구조와 신경망 사이의 장벽을 허물지만 전체 그래프를 기반으로 하는 엄청난 양의 계산으로 인해 대규모 장면 응용 프로그램에서 병목 현상이 발생하지만 GraphSAGE는 관점에서 볼 때 로컬 그래프는 이 문제를 어느 정도 해결할 수 있습니다. 일반적으로 사용되는 또 다른 그래프 모델인 GAT는 어텐션 메커니즘을 추가했습니다. 모델 매개변수가 많을수록 학습 능력이 향상될 뿐만 아니라 시간 및 공간 복잡성이 증가하여 모델 교육에 더 많은 샘플 정보와 컴퓨팅 리소스가 필요합니다. 실제 비즈니스 시나리오에서는 샘플 크기를 제어할 수 있으므로 학습을 위해 GCN 그래프 알고리즘을 직접 선택합니다.다음은 GCN의 원리를 간략하게 소개합니다.

GCN은 다층 그래프 컨볼루션 신경망으로, 각 컨볼루션 레이어는 1차 이웃 정보만 처리하며, 여러 개의 컨볼루션 레이어를 쌓음으로써 다차 이웃에서 정보 전송이 가능합니다.

각 컨볼루션 레이어의 전파 규칙은 다음과 같습니다[1].

\(H^{(l+1)}=σ(\tilde{D}^{-{\frac 1 2}}\tilde{A}\tilde{D}^{-{\frac 1 2}}H ^{(l)}W^{(l)})\)

~에

  • \(\tilde{A}=A+I_{N} \)는 무향 그래프 \(G\) 에 자체 연결(즉, 각 꼭지점과 자체에 가장자리를 더한 것)을 더한 인접 행렬입니다. \(I_{ N} \) 는 항등 행렬입니다.
  • \(\tilde{D}\) 는 \(\tilde{A} \) 의 차수 행렬 , 즉 \(\tilde{D}{ii}=\sum_j\tilde{A}{ij}\)입니다 .
  • \(H^{(l)}\) 는 \(I\) 레이어 의 활성화 단위 행렬 , \( H^0=X\)
  • \(W^{(l)}\)는 각 레이어의 매개변수 행렬입니다.

인접행렬 \(A\) 는 노드의 이웃 정보를 전송하고 항등행렬 \(I_{N}\)은 노드 자신의 정보 전송을 나타냅니다. 노드 자체의 특성과 다른 노드와의 관련 정보, 자신과 이웃 노드의 정보를 집계하여 훈련 및 학습합니다.

△그림4 GCN 계통도

△그림5 예시

연구 핫스팟 중 하나인 그래프 신경망 분야는 최근 몇 년 동안 다양한 산업 시나리오에서 널리 사용되어 좋은 결과를 얻었습니다.

3.2 그래프 알고리즘 적용

3.2.1 새로운 풀 활동의 부정 행위 시나리오를 기반으로 한 GCN 리콜 모델

새로운 이벤트 장면 모델링 가져오기

새로운 이벤트 장면은 이벤트의 주요 치팅 장면 중 하나입니다. "마스터 및 견습생 초대 시나리오"를 예로 들면, 마스터 사용자가 성공적으로 견습 사용자를 새로운 사용자로 초대하면 마스터 사용자와 견습 사용자 모두 해당 보상을 받게 됩니다. Black industry는 마스터가 혜택을 얻기 위해 신입생을 초대하는 행동을 완료하도록 돕기 위해 가짜 견습생 계정 배치를 사용할 것입니다. 데이터의 통계 분석을 통해 이러한 허위 견습생 사용자가 IP를 공유하고 모델이 중복되었음을 발견했습니다. 이를 바탕으로 "Master User"를 그래프의 기본 노드로 사용하고 각각 "city + model"과 "IP+ model"을 Edge 관계로 사용하여 그래프 모델을 구성해 봅니다.

그림 자르기

IP 모델을 공유하는 모든 마스터가 부정 신호를 가지고 있는 것은 아니기 때문에 기능 향상 효과를 달성하기 위해 가중치가 임계값 T보다 큰 에지만 유지됩니다.

모델 효과

△표 1 모델효과 비교

실험 결과는 GCN 알고리즘이 부정 행위 샘플의 회수율을 42.97% 증가시키는 상당한 효과가 있음을 보여줍니다.

3.2.2 다중 영상 융합 방법의 응용 탐색

위의 실험에서 다른 구성 방법이 다른 부정 행위 그룹을 기억한다는 것을 알 수 있습니다. 이 그룹 간의 차이점에 대한 정보를 함께 융합하면 더 많은 회상을 얻을 수 있습니까? 따라서 다른 그래프 정보를 동일한 모델에 통합하여 부정 행위 샘플의 회수율을 향상시키는 효과적인 방법을 찾으십시오. 다중 이미지 융합의 아이디어에 따라 각각 실험을 수행하기 위해 다음 세 가지 방법을 제안합니다.

융합 방식

Edge_union은 "트레이닝과 학습을 위해 이미지 A와 이미지 B를 같은 이미지에 혼합"하는 아이디어로 두 이미지를 병합하고, 이러한 방식으로 이미지 A와 이미지 B에 포함된 정보가 융합됩니다.

△그림6 edge_union 모델

△그림7 edge_union 합성 방법

scgcn-split 포함 기능 상속

두 이미지를 융합한다는 아이디어는 "훈련된 이미지 A의 임베딩 표현을 훈련과 학습을 위한 이미지 B의 입력 특징으로 삼는 것"이며, 이러한 방식으로 이미지 A와 이미지 B에 포함된 정보는 함께 융합.

△그림8 scgcn-split 모델

scgcn 직렬 그래프 병합 교육

scgcn-split 방식을 기반으로 그래프 A와 그래프 B를 직렬로 연결하여 교육과 학습을 동시에 수행합니다.

△그림9 scgcn 모델

모델 효과

다음은 동일한 데이터 세트에 대한 여러 방법의 성능 비교 결과입니다.

△표 2 모델효과 비교

새 리콜 크기의 관점에서 scgcn 방법이 가장 좋고 가장 많은 부정 샘플을 리콜하며 edge_union 방법은 성능이 좋지 않으며 리콜 크기는 GCN 단일 이미지만큼 좋지 않습니다. 그 이유를 간단히 분석해 보자. edge_union 방식은 서로 다른 형태의 edge를 동일한 그래프 구조로 병합하는 방식으로, 이 과정에서 edge의 종류와 중요도를 구분하지 않는데, 이는 그래프의 edge를 균질화하여 일부 edge 정보를 잃어버리는 것과 같다. 실험에서 결과적으로 리콜의 일부가 손실되었습니다. 동시에 edge_union 모델은 semi-supervised learning 시나리오와 불충분한 샘플 순수성으로 제한되며, 노드 간 edge 연결을 추가하는 동안 잘못된 정보를 전송할 위험도 있습니다. 위의 실험 외에도 임베딩 레이어에서 concat/max-pool/avg-pool과 같은 이미지 융합 방법이 시도되었는데, 이러한 방법 모두 리콜 손실이 있어 "병렬" 이미지 융합 방법으로는 더 많은 정보를 배우려는 모델은 반대로 정보의 상실 상호 배제 효과로 인해 기억될 것입니다. 오히려 "직렬" 그래프 융합 방식이 더 효과적인 것으로 보인다. scgcn-split 및 scgcn 모두 단일 이미지 모델보다 더 많은 리콜을 가지고 있으며, 특히 다중 이미지 매개변수를 동시에 교육하는 scgcn 모델은 다중 이미지 정보를 함께 진정으로 통합할 수 있으며 단일 이미지보다 더 많은 리콜을 수행합니다. 모델 리콜 조합 많은 샘플.

04 요약 및 전망

기존 모델과 비교하여 그래프 모델은 노드 정보를 얻을 수 있을 뿐만 아니라 노드 간의 관계 정보도 캡처할 수 있습니다. 노드 사이에 형성된 에지 관계를 통해 정보가 서로 연결되고 더 많은 정보가 학습되어 리콜이 확장됩니다. 새로운 프로모션 활동의 부정행위 방지 사범 활동 장면에서 그래프 알고리즘을 적용하여 새로 회수된 부정행위 샘플이 원래 부정행위 샘플을 기준으로 50% 증가하고 회수율이 크게 향상되었습니다. .

앞으로 다음과 같은 방향으로 추가 탐사가 진행될 예정입니다.

1. 전작에서 그래프 모델의 학습에 에지 관계가 중요한 역할을 하고 있음을 알 수 있으며, 에지 가중치는 추후에 처리하여 학습하고, 노드 정보도 보완할 예정이며, 데이터 정보를 추가하여 및 효과적인 기능, 모델이 향상됩니다.호출 능력.

2. 부정 행위 방법의 지속적인 업그레이드로 부정 행위의 형태는 점차 기계 조작에서 인간 조작으로 전환되고 부정 행위의 규모가 줄어들어 부정 행위 기능이 희박해지고 식별의 어려움이 증가합니다. 앞으로 어텐션 메커니즘을 도입한 GAT[2] 모델, 다층 네트워크를 쌓을 수 있는 Deepgcn[3] 모델 등 더 많은 그래프 알고리즘을 시도하여 부정 행위 감지 감도를 향상시킬 것입니다.

--끝--

참조 :

[1]Kipf, Thomas N., Max Welling. "그래프 컨벌루션 네트워크를 사용한 준감독 분류." arXiv 프리프린트 arXiv:1609.02907 (2016).

[2] Veličković, Petar, et al. "주의 네트워크 그래프." arXiv 프리프린트 arXiv:1710.10903 (2017).

Li, Guohao, et al. "Deepgcns: gcns가 cnns만큼 깊이 들어갈 수 있나요?" 컴퓨터 비전에 관한 IEEE/CVF 국제 회의 간행물. 2019.

권장 읽기 :

서버리스: 개인화된 서비스 초상화를 기반으로 한 유연한 확장 사례

이미지 애니메이션 적용에서의 액션 분해 방법

성능 플랫폼 데이터 가속화 로드

편집 AIGC 영상 제작 공정 배치 실습

비디오 이해에 대해 이야기하는 Baidu 엔지니어

Baidu 엔지니어가 Module Federation을 이해하도록 안내합니다.

{{o.이름}}
{{이름}}

추천

출처my.oschina.net/u/4939618/blog/8586998