데이터 분석 간단한 질문 공유(답변 포함)

  1. 공개 참조를 사용하지 않고 올해 태어난 신생아의 수를 추정하십시오.
    답:

    1) 2층 모델 채택(군중 초상화 인구 변환): 신생아 수 = Σ 각 연령대의 가임기 여성 수 2
    ) 숫자에서 숫자로: 숫자에 대한 데이터가 있는 경우 전년도에 태어난 신생아의 확립 시간 예측을 위한 시퀀스 모델(두 번째 아이 출시의 돌연변이 이벤트를 고려해야 함)
    3) 베이비 제품의 새로운 활성 사용자 수와 같은 전조 지표 찾기 X 신생아 가족 사용자를 나타냅니다. Xn/newborn n은 올해 신생아 가정 사용자의 전환율입니다. 예를 들어 X2007/newborn 2007은 2007년 신생아 가정 사용자의 전환율입니다. 전환율은 플랫폼의 발전과 함께 발전할 것입니다.올해의 대략적인 전환율은 전년도 수를 기준으로 공개할 수 있으며 올해 예상 신생아 수는 이번 신생아 가족 사용자 수를 기반으로 공개할 수 있습니다. 년도.
    2. 관측된 우주의 단위 부피당 행성 수는 어떤 분포에 속합니까?
    A ​​스튜던트 분포: 작은 표본 크기에서 정규 분포의 평균을 추정합니다.
    B 푸아송 분포: 일정 기간 내에 사건이 발생할 확률 시간. 또한 n이 크고 p가 작은 이항 분포로 간주할 수도 있습니다.
    C 정규 분포: 여러 그룹(여러 독립적인 반복 실험에서 무작위 변수의 평균)
    D 이항 분포: 여러 동전 던지기의 독립적인 반복 실험
    솔루션:
    A 스튜던트 분포: 정규 분포의 평균에 대한 작은 샘플 크기
    B 푸아송 분포 추정: 특정 시간 내에 사건이 발생할 확률. 또한 n이 크고 p가 작은 이항 분포로 간주할 수도 있습니다.
    C 정규 분포: 다중 그룹(여러 독립적인 반복 실험에서 무작위 변수의 평균)
    D 이항 분포: 여러 번의 동전 던지기에 대한 독립적인 반복 실험
    부피를 시간으로 간주하면 이 질문은 B 푸아송 분포를 따릅니다.

  2. 일반적인 차원 축소 방법
    1) PCA 및 요인 분석
    2) LDA
    3) 다양체 방법: LLE(local linear embedding), Laplacian feature map, ISOMAP
    4) 자동 부호화기 추출 기능
    5) SVD
    6) 트리 모델 추출 기능
    7) 임베딩

4. 사용자가 처음 앱에 들어갈 때 속성을 선택합니다 완전한 사용자 정보를 보장하면서 사용자 이탈을 줄이는 방법
답변: 사용자가 처음 앱에 들어갈 때 속성을 선택합니다 완전한 사용자 정보를 보장하면서 사용자 이탈을 줄이는 방법
사용 TAM(Technology Acceptance Model) 분석을 위해 선택한 속성 에 대한 사용자의
수용에 영향을 미치는 주요 요인은 다음과 같습니다
.
사용 용이성:
a. 콜드 스타트 ​​단계에서 사용자가 선택할 가능성이 더 높은 속성을 일치시킬 수 있는 사용자의 제3자 계정(예: Weibo)을 연결하고 사용자가 선택할 것을 권장합니다. b. 잘했습니다
. 3) 사용자 태도
: 정보를 채우는 사용자의 태도
a. 여기에서 사용자가 건너뛸 수 있도록 허용하고 나중에 입력하도록 상기시켜야 함
b. 채워진 정보가 잘 보호될 것임을 사용자에게 알립니다.
4) 행동 의도: 5) 외부변수
: 동작시간, 동작환경 등, 여기서는 제어가 어렵다.

5. SVM의 장점과 단점
1) 장점
a. 비선형적으로 분리 가능한 상황에 적용 가능
b. 최종 분류는 support vector에 의해 결정되며, 복잡도는 차원이 아닌 support vector의 개수에 따라 달라진다. 샘플 공간, 차원 재해 방지
c. 견고성: 적은 수의 지원 벡터만 사용하기 때문에 주요 샘플이 캡처되고 중복 샘플이 제거되기 때문에
d. 텍스트 분류와 같은 고차원 및 낮은 샘플 상황에서 우수한 성능
2 ) 단점:
a. 모델 훈련의 높은 복잡성
b. 다중 분류 문제에 적응하기 어려움
c. 커널 함수 선택을 위한 더 나은 방법론 없음
6. Random Forest에 대한 간략한 소개 및 일부 세부 정보

1)随机森林原理:通过构造多个决策树,做bagging以提高泛化能力
2)随机方法包括:subsample(有放回抽样)、subfeature、低维空间投影(特征做组合,参考林轩田的《机器学习基石》)
3)有放回抽样,可以用包外样本做检验
4)也可以用OOB做特征选择,思路:
    a. 如果一个特征有效,那么这个特征引入杂质会明显影响模型效果
    b. 引入杂质会影响分布,所以更好的方式是对特征中的取值进行洗牌,然后计算前后模型的差异
    c. 但是我们不想训练两个模型,可以利用OOB进行偷懒。把OOB中的数据该特征取值洗牌,然后扔进训练好的模型中,用输出的结果进行误差检验

(@王娟의 답변 참조: https://www.zhihu.com/question/26225801) 6.
GBDT 원리 소개
1) 먼저 부스팅을 위한 트리 통합 방법인 Adaboost Tree를 소개합니다. 기본 아이디어는 여러 트리를 순차적으로 훈련하고 각 트리가 훈련될 때 잘못 분류된 샘플에 가중치를 부여하는 것입니다. 트리모형에서 표본의 가중치는 실제로 표본의 표본확률에 가중치를 두는 것으로 대체 표본추출 시 잘못된 표본이 뽑힐 확률이 높아진다.

2) GBDT는 Adaboost Tree를 개선한 것으로 각 트리는 CART(분류 및 회귀 트리)이며 트리는 리프 노드에서 값을 출력합니다. 분류 오류는 실제 값에서 리프 노드의 출력 값을 뺀 값입니다. 잔여. GBDT가 해야 할 일은 경사 하강법을 사용하여 분류 오류 값을 줄이는 것입니다.

GBDT의 반복에서 이전 반복에서 얻은 강한 학습자가 ft−1(x)이고 손실 함수가 L(y,ft−1(x))라고 가정하면 이번 라운드의 목표는 반복은 CART를 찾는 것입니다. 회귀 트리 모델의 약한 학습자 ht(x)는 이 라운드의 손실 손실 L(y,ft(x)=L(y,ft−1(x)+ht(x))를 최소화합니다. 즉, 이 의사결정 트리는 반복적인 반복에 의해 발견되며, 샘플의 손실은 가능한 한 작아야 합니다.

GBDT의 아이디어는 대중적인 예를 들어 설명할 수 있는데, 사람이 30세라면 먼저 20세를 사용하여 맞고 손실이 10세라는 것을 알 수 있습니다. 이때 6세를 사용하여 남은 손실을 맞추고 여전히 4살의 공백이 있다는 것을 알게 되었고, 세 번째 라운드에서는 남은 공백을 맞추기 위해 3살을 사용했고, 그 공백은 겨우 1살이었습니다. 반복 횟수가 끝나지 않으면 아래에서 계속 반복할 수 있으며 각 반복 횟수에서 피팅 연령의 오류가 감소합니다.

(참고:https://www.cnblogs.com/pinard/p/6140514.html)

3) 여러 개의 트리를 얻은 후 각 트리의 분류 오류에 따라 가중치 투표를 수행합니다.

추천

출처blog.csdn.net/m0_66106755/article/details/129557137