클릭률 (CTR)은 추정 - 넓은 & 깊은 분석 모델의 추천 시스템 (글을 읽어)

구글의 논문 중 하나의 십육년에 대해 알아 보려면 FM 및 FNN / PNN 종이를 읽은 후, 기사 기존의 LR 및 DNN 조합은 또한 피팅 능력 LR을 유지하지만,하는 넓은 & 깊은 모델 (병렬 구조)를 구성 DNN은 쉽게 반복 모델을 할 수있는, 일반화 능력을 가지고 있으며, 별도의 교육 모델을 필요로하지 않습니다, 다음 줄의보기.

더 나은 독서 경험, 클릭하십시오 여기 .

原文 : 추천인 시스템 용 와이드 & 깊은 학습

주소 : [https://arxiv.org/pdf/1606.07792.pdf](https://arxiv.org/pdf/1606.07792.pdf)

 

1, 문제의 근원
 
1.1 배경
이 문서는 물론, 또한 예측 클릭률 (CTR)에 적용 할 추천 시스템 애플리케이션에 표시됩니다. * 암기가 (시간 메모리로 번역되는) : 처음 두 용어는 용지 전체에 걸쳐 도입 된 상관 이력 데이터의 항목 또는 기능 사이에서 발견되었다. 전사의 관련성을 거의 또는 전혀 기록 데이터에 존재하는 특징의 신규 한 조합을 발견 * 일반화 (당분간은 일반화로 번역되는).
설명하기 위해 예를 들어주기 위해 : 진화에서 인간의인지 적 학습 과정을, 인간의 두뇌는 일반화 (매일 일 (참새가 날 수 비둘기가 날 수)과 일반화가 메모리에서 (기억) 할 수있는, 매우 복잡 ) 전에 본 적이 뭔가에이 지식은 (날개 달린 생물) 비행 할 수있다. 그러나 일반화 규칙은 때때로 특히 정확하고, 때로는 잘못된 (동물 날개를 비행 할 수있다) 없습니다. 당신이 일반화의 규칙 (일반 규칙) 개정 (암기)을 기억할 필요가 이번에는 예외를 (펭귄은 날개가 있지만 날지 못해)라고합니다. 이것은 암기하고 이유 또는 의미의 일반화.
 
1.2 기존 모델의 문제
  • LR 간단한 선형 모델 및 모델은 빠른 해석이 아주 좋은 피팅 능력을 가지고 있지만, LR 모델은 선형 모델, 제한된 기술, 일반화 능력을 달성하기 위해, 특히, 크로스 특성을 필요 엔지니어링 특성을 할 필요가 약한입니다 좋은 효과가 있지만, 산업 현장에서 기능의 수는 수천 수백, 수천의 수백에 도달 할 수 많은 다음 기능은 반드시 더 나은 결과를 달성하기 위해 수행하기 위해 노력하고있을 것입니다.
  • DNN 모델은 좋은 일반화와 함께, 자동으로 DNN 기능을 교차 수있는 기능 사이의 상호 작용, 특히 상위 기능의 상호 작용을 배울 수 있습니다 배우고, 당신은 매우 좋은 결과를 얻을 수 있습니다, 너무 복잡한 엔지니어링 기능을 수행 할 필요가 없습니다 용량. 또한 DNN는 매립층을 증가시킴으로써, 효과적으로 스파 스 데이터 특성의 문제를 해결할 수 있고, 폭발 방지 기능. 일반화의 추천 시스템은 매우 중요하며, 권장 항목의 다양성을 증가시킬 수 있지만, DNN은 LR 데이터가 사진에 맞는 비해 약한 것입니다.
  • 요약하면 :
  1. 선형 모델은 학습 집합에 존재하지 않는 기능의 조합을 배울 수있다;
  2. FM 또는 DNN 당신은 학습 집합에 존재하지 않는 기능의 조합을 배울 수 있지만, 그러나 그것은 내장 벡터 학습을 통해 과도한 일반화 될 것입니다.
넓은 & 깊은 LR 적합성 및 일반화 능력을 강화하고 DNN가 결합하는 상태에서 추천 시스템의 적합성 및 일반화를 개선하기 위해, LR 및 DNN이 결합 될 수있다, 넓은 부분은 LR이 깊은 부분은 DNN은, 두 출력의 결합 된 결과.
 
2, 모델 정보
 
: 간단히 다시 두 용어 달성 : 암기 대규모 입력 성기를 먼저 처리 : 선형 모델 + 간 기능. 암기 가져 및 메모리 용량은 매우 효율적이고 해석이다. 그러나 일반화 (일반화)보다 수동 기능의 작동을 필요로한다.
일반화 : 반면에, DNN은 거의 엔지니어링을 갖추고 있습니다. 깊은 숨겨진 기능을 배울 수있는 결합 밀도 삽입의 저위도 통해. 그러나, 단점은 오버 일반화 (overgeneralization) 비트이다. 다음과 같이 권장 시스템 : 사용자에게 추천을주고, 특히 사용자 항목 매트릭스는 상대적으로 드문 드문 높은 순위 (상위 매트릭스) 때문에 관련 항목이다 아니다
둘 사이의 차이 : 암기는 더 보수적 인 경향이 항목의 사용자 행동하기 전에 권장했다. 대조적으로, 더 일반화 추천 시스템 (다이버 시티)의 다양성을 증가시키는 경향이있다.
 
넓고 깊은 2.1,
 
딥 및 와이드 : 와이드 딥 및 두 부분으로 구성 선형 모델 + DNN 부. 위의 암기와 일반화의 균형을 장점을 결합합니다. 그 이유는 통합 암기와 generalizatio와 추천 시스템을 제공의 장점. 폭 넓은 전용 깊은 전용 모델에 비해 상당히 개선 및 깊이로 본원에 기술 된 실험에서. 그림은 전체 구성 모델입니다 :

 

 
알 수있는 바와 같이, 특별한 와이드 신경망, 그 입력 및 출력에 직접 연결 일반화 된 선형 모델의 범주에 속하는 것이다. 깊은 깊이 신경망 지칭이 잘 이해된다. 암기에 대한 넓은 선형 모형, 일반화에 대한 깊은 신경망. 왼쪽 오른쪽은 깊은 전용, 중간 와이드 & 깊이, 넓은 전용입니다.
 
2.2, 제품 간 변환
 
와이드 논문은 기능의 조합을 생성하는 변환 언급이 계속 여기에 매우 중요합니다. 다음과 같이 정의된다 :

 

여기서 k는 기능 k 번째 조합을 나타낸다. 전 i 번째 차원 형상의 입력 X를 나타낸다. C_ki는 i 번째 측정 기능이 기능 k 번째 조합에 참여하도록 구성된 여부를 나타낸다. X는 치수 (D)의 입력을 나타낸다. 기능 구조의 조합에 참여할 차원 어떤 기능 결국, 이것은 인공 설정 (프로젝트 인간의 특성을 필요로한다는 것을 의미한다), 일반 식에 반영되지이다.
사실, 이전과 우리가 하나의 뜨거운 이야기 한 후 특성의 조합과 같은 복잡한 공식입니다 : 성에서 그냥 입력 샘플 X 기능 = 여성과 특성 언어 = EN있는 1, 기능 및 새로운 조합 (성 = 단지 1 여성, 언어 = EN). 그래서 긴 값은 두 기능을 곱한다. (예를 들면 제품 간 변환 특성을 특징 이진 조합에 대한 정보, 및 비 - 선형 모델 수 증가)
 
2.3, 와이드 구성 요소
 
와이드 부 위에서 언급 한 바와 같이 실제로 일반화 선형 모델이다. 사용 기능은 다음과 같습니다 : * 원시 입력 : 원래의 기능을
  • 외적 변화 : 피처들의 상술 조합
설명하기 위해 같은 예제를 사용하여 쿼리를 (당신이 음식을 먹고 싶은) 모델은 다음 / 구입이 권장 소비, 당신에게 음식을 제공하기 위해 반환 모델나요. 즉,이 사실 시스템을 배울 것을 권장하는 조건부 확률 : P (소비 | 쿼리 항목). 와이드 파트 암기는 몇 가지 예외가있을 수 있습니다. 아주 가까이보기의 문자 관점에서,하지만 완전히 다른 사실 뭔가, 다음은 와이드이 조합을 기억할 수있는 좋은 아니지만 예를 들어, AND (쿼리 = "치킨", 항목 = "치킨 볶음밥")를 들어,이다 특별한 경우, 당신은 다시 순서 치킨 다음에, 나는 당신에게 치킨 볶음밥을 권장하지 않습니다.
 
2.4 깊은 부품
 
올바른 모델에서와 같이 낮은 위도 조밀 한 표현을 통해 학습의 깊은 부분에 각 쿼리 및 항목에 대한 (또한 벡터를 내장라고도 함) 일반화 는 일부 문자는 관련성이 적은 것 같다 추천주고,하지만 당신은해야 할 수도 있습니다 . 예를 들면 : 당신은 닭 튀김과 햄버거 매우 가까운 공간, 임베드, 프라이드 치킨을 원하는, 그래서 당신은 함부르크을 권장 줄 것이다.
임베드 벡터는 무작위로 손실을 반대하는 최종 훈련에 따라 초기화 및 업데이트됩니다. 이러한 저 차원 밀도 매립 벡터는 제 숨겨진 층으로서 입력된다. 은닉층 활성화 함수 ReLU 보통 사용된다.
 
3, 모델 교육
 
원래 스파 스 기능의 훈련, 같은 쿼리와 같은 두 가지 구성 요소에 사용됩니다 = "치킨"항목 = "치킨 볶음밥" 

 

훈련 할 때, 손실 최종 기울기에 따라 계산되며, 넓고 깊은 역 전파 두 부분으로, 각각 자신의 매개 변수를 훈련. 즉, 두 개의 모듈은 함께 훈련 (즉, 종이의 공동 훈련)이 통합의 모델이되지 않습니다.
  • 기능의 넓은 부분을 조합 할 수있다 기억 하는 스파 스, 특정 규칙을
  • 퍼가기에 의해 부분적으로 깊은 일반화 일부 유사한 항목을 추천합니다
기능을 결합하여 넓은 모듈은 일부 특정 조합에 대한 자세한 내용은 매우 효율적이 될 수 있지만, 그것은 또한 학습 집합에 존재하지 않는 기능의 조합을 배울 그의되었다. 다행히 깊은 모듈은 이러한 단점을 보완. 그것은 함께 훈련하기 때문에 또한, 넓고 깊은 크기가 감소된다. 다양한 구성 요소의 부족은 라인에 깊은 구성 요소를 작성해야합니다, 그래서 그들은 오히려 전체 크기의 다양한 모델보다는 제품 간 기능 변환을 덜 필요합니다. 구체적인 훈련 방법과 실험은 원래의 논문을 참조하십시오.
 
4 요약
 
단점 : 프로젝트의 넓은 부분은 여전히 ​​인간의 특성을 필요로한다. 장점 : 통합 모델링 및 암기의 일반화를 달성했다. 동시에 기능의 낮은 수준과 높은 순서 조합을 배우려면

 

추천

출처www.cnblogs.com/Jesee/p/11237084.html