나는 여덟 포스트의 달 및 데이터 분석의 조각을 연습

 

저자 : 더블 비 통계 마스터 그냥 대학을 졸업 현재 드롭에서 작업, 데이터 분석 인턴십 경험 8 개월, 결국 제품 매니저가되었다, 10 개 이상의 데이터 분석 인턴을 인터뷰했다.

 

두 테마

 

이 문서의 주요 목적은 두 가지 테마를 포함한 포스트 인터넷 회사 '데이터 분석'에있는 정보의 일부를 이해하기 시작 일부 학생들을 돕는 것입니다 :

 

1, 인터넷 회사의 엔트리 레벨 데이터는 학생들이 직장에서 개선하는 방법이 무엇인지 주요 작업을 분석?

 

2, 인터넷 기업의 데이터 분석 방법 인터뷰입니다 .

 

이 업계의 일을 입력 여부를 고려 도움의 첫 번째 질문은, 두 번째 질문은 학생들이 면접관과 인터뷰가 좋은 인터뷰의 일부의 효율성을 향상시키기 위해 업계를 입력 할 수 있도록하고 싶습니다.

 

일부 인터넷 회사의 업무 경험의 저자에 따르면, 현재 데이터 분석 작업은 일반적으로 세 가지 방향이 있습니다 :

 

1, 비즈니스 데이터 분석

(2), 현상 바이어스 빈 번호 데이터 분석

(3) 데이터 분석 알고리즘 바이어스

 

저자의 제한의 경험으로,이 문서는 내용에 대해 토론 면접 있도록 작업 내용을 다시 방문,이 문서의 대부분의 독자는 관련 업무의 데이터의 다음 친구를 결정하는 것입니다 고려, "비즈니스 데이터 분석"작업의 확장에 초점을 맞추었다.

 

01 인터넷 기업 데이터 분석 방법 인터뷰

 

먼저 SQL 프로그래밍은 필수 항목입니다 예비 데이터 분석의 주요 작업은 학생들에게 SQL 문을 작성하는 것입니다 때문에, (약한 SQL을 능력의 학생들을 수용하기 위해 몇 가지 작은 회사, 그들은 기입 한 후 훈련을 다시 것),이 인터뷰 과정 당신이 발견하게됩니다 일반적으로 쓸 경우 어떤 위험이 있습니다이 인터뷰 것으로, 제목을 쓰기 SQL.

 

끝 : "부록 하나의 SQL 경로를 배우는 것이 좋습니다."

 

난 당신이 가장 좋은 측면을 재생보고 싶어하기 때문에, 국경을 넘어하려면 SQL 능력의 확인 후, 주로 대화 인턴십 경험, 콘텐츠에 대한 대가로 재개 프로젝트 경험 다음에, 마지막으로 게임 경험은 (당신이 연습에 갈 것을 제안) 작품에 대한 아이디어를 가지고 당신이 충분 경우,이 문제를 둘러싼 상황에 대해 더 명확하게 말할 수있을 것입니다, 상사와 인턴 경험을하는 경향이 프로젝트 경험은 확실히 교사뿐만 아니라 능력과 관련 관리자의 관심의 정도; 게임 경험은 아마 더 자주 학생들이 자신의 연구, 오류가 발생하기 쉬운.

 

종료 : '부록 II는 샘플 질문에 대한 프로젝트입니다. "

 

나는 경험을 인터뷰했다

 

다음 목록은 몇 가지 기술 관련 지식 내가 물었다.

  • 왼쪽과 오른쪽 링크, 연결과 전체 연결 내에서의 SQL 연결

  • 눈송이 스타 모델 및 모델

  • 만남 누락 된 데이터를 어떻게 모델링

  • 어떤 데이터 스큐 처리하는 방법입니다

  • 장점과 Kmeans 클러스터링의 단점

  • 카테고리 kmeans 클러스터링의 수를 결정하는 방법

 

인터넷으로 가축에 의해 이러한 표면은 점점 더 포괄적이었다, 그리고 나는 여러 가지 요인의 핵심 서비스를 얻을 수있는 메인 스피커했다, 여기를 반복했다 :

 

에 첫 번째로 는 SQL 견고한 기초이다 나는 모든 주제는 SQL 소와 leetcode에 둘 때, 너무 빨리 쓰기 최적의 솔루션으로, 네트워크 떨어져 쓴, 빠른 두뇌 회전이, 이야기 인터뷰 프로젝트였다 발견 장소는 신속이가 (원형 뒤)에서 수행했던 이유를 설명하고 사실적인 배경을 추가 할 수 있습니다, 잘하지 않았습니다.

 

내 면접관 경험

 

이 긴이 글의 핵심 내용이다.

 

먼저 우리가 인터뷰의 올바른 인식이 필요합니다 : 면접관이 채팅에서의 적, 이상적인 인터뷰 경험이 아닌, 면접관 부드럽게 그는 분석에 따라 여기,이 게시물을 충족시킬 수있는 능력을 가지고 않는다는 것을 증명하기 위해 면접관을 이끌 나는 면접관으로 공감하는 데 도움이 모든 사람에게 몇 가지 아이디어는 인터뷰의 효율성을 향상시킬 수 있습니다.

 

(A) I 꿀, 그는 비소. 동료 학생들은 이력서 상, 인턴십 경험 눈부신하지만, 대부분의 작업과 관련없는에 아주 좋다. 나는, 일자리를 찾기 위해 그에게주고 좋은 사람을 채용하지 않는 사람들을 모집 게시 확신 쓰기 전용 및 명예 제목, 장학금 등의 이력서에서 직업 관련 경험, 그리고 단순히 통과조차 쓰기 될 수 있습니다처럼하는하시기 바랍니다이었다 당신은 당신이하지 얼마나 잘 보여주고있다, 그러나 당신이이 일을 일치 얼마나 많은 일자리 매칭 조건이 더 미리 주제를 어디 있는지 모른다면, 그들은 시작되지 않습니다.

 

노하우로 알려진 (B)는, 내가 알고 모른다. 덜 인터뷰에서 만남에 면접 말해 :이 연구의 제 분야하지, 나도 몰라, 다른 얘기를. 우리는 당신의 에너지가 제한됩니다 수용 할 수있는 모든 것을 할 수는 없지만, 당신이 대답은 심각 분야에서 작은 지식의 이미지에 영향을 미칠 것입니다 때문에,이 내용은 나중에 세부 사항으로 이동합니다.

 

(C) 동일 대화. 사실,이 트릭의 일부이며, 전문적인 수준은 아무 상관이 없지만은 면접관이 질문을 할 때와 면접관의 마음을 반영 할 수있다 "안티 죽"웨이브 : 핵심 요소에 대해 이야기도이 문제를 언급하거나 " 난 당신이 문제를 말했다 생각하지만, 우리가하지 않은 상황의 원인은 너무 XX입니다 : 파 "바. 한편 이러한 심지어 완전히 긴장, 또는 너무 많은 이야기를 할 것인지, 당신의 마음을 표시 할 수 있습니다 거기에 하나 당신이 내 "동료"상태로, 인터뷰 대상자의 신원에서 멀리되었는지, 우리를 동일한 다이얼로그.

 

실제 인터뷰, 나는 인터뷰 시간에 대해 알려 드리고자합니다 "오픈 북 시험"이었다 : 인터뷰 내용 SQL을 문제를 프로그래밍하고 프로젝트를 재개, 준비하시기 바랍니다. 그러나, 학생의 90 % 퍼센트의 SQL 문제 영역에 갇혀, 과거 인턴십이나 프로젝트를 전달하는 일반 리드하지 않습니다, 나는 4 개월 이상 (2019.10-2020.1)을하지 않을 권리 학생을 발견 모집.

 

다음은 인터뷰 과정이고있는 일부 학생들은 가능한 문제를 찾을 수 :

 

인터뷰의 시작 부분에서, 내가 면접관이 쓸 수있는 경우, 중간 난이도의 첫번째 밖으로 "부록 III 내가 제목 밖으로 될 각 인터뷰입니다"라는 제목의 몇 가지 SQL을 시작합니다, 그것은 조금 어려운 비트입니다; 경우 면접관, 나는 몰래 그 다음 간단한 주제 어색한 분위기를 완화, 한숨을 내 쉬었다 한 것되지 않습니다.

 

SQL 대상에서 이야기 한 후, 나는 다시 시작하고 인터뷰 학생들은 프로젝트 나 인턴쉽 경험을 잡담, 내가 문제가 발견. "도구 사람"데이터 분석은, 학생들이 쉽게 스스로를 간주 할 수 있습니다 나는 사용자가 어떻게 각 그룹 경기에서 다른 그룹을 구별 위치에 따라 그룹화 와서 어떻게 그에게 물었다 그래서 예를 들어, 동급생은 그가 원하는 다른 사용자 그룹의 사람들이 다른 그룹에 보내기 쿠폰을 나에게 말했다 쿠폰?

 

그는 대답 : 비즈니스 파티 결정.

 

면접관의 말하기의 관점에서,이 문제는 명확했다, 나는 학생들이하지 않았다 생각하기 때문에, 그 자신은 완벽하게 일을하도록 요청했지만, 면접관의 관점에서, 대답은 실패 진행하는 방법을 발견, 그는 다른 사람의 도구로 자신을보고, 삶과 작업 만 이야기 할 일이 거의 진행하는 것이 불가능하다.

 

그 다음 "도구"와되기 방지하는 방법, 더 좋은 방법은 자신의 주인 정신을 육성하는 것입니다 : 내가하지 여기있어 당신에게 도움을 줄 것을, 당신이 모든 일을하는 데 도움이 될 것입니다.

 

여기에 프로젝트 설명 템플릿을 제공하기 위해, 당신은보고, 자신의 경험 세트를 구동하기 위해 시도 할 수있는 방법을 자신의 역사 프로젝트 소유자 정신 :

 

여러 드라이버 불만의 맥락에서, 우리는이 문제를 해결하기 위해, 시스템은 직선에 따라 하나의 (내부 요인)를 보낼 수 있기 때문에이 문제가 발생합니다 하나의 문제 (외관)을 보내 강을 건너 발견, 우리는 (당신은에 한 사람이 있다면 좋은 친구),이 방법의 효과는 강 건너 언덕의 30 %를 해결 한 문제를 보내는 것입니다) 바람직하게는 다수의 대비 방법 (하나의 도로 거리 방법을 보낼 제안, 불만이 50 % 감소, 나는에 대한 책임이 모델이 프로젝트를 완료, 하나의 강을 보낼지 여부를 결정하도록 설계되어, 내가 자라 난 다시 할 경우이 모델을 만드는 것이므로 다시, 나는, 이전 기간과 드라이버를 교환하는 것, 더 깊은 이해를 위해 하나의 드라이버를 보내 빨리 완료.

 

학생들의 제한된 생각 나는 모두가 연습에 더 많은 작업을 수행하는 것이 좋습니다 이유 (사회에서 초기 모습 인 문제의 모든 사람들이 인식하게하는 것은 매우 어려울 것이다지도 할 보스가없는 경우에만, 더 재 세트, 생각을 이해하지 못한다 구타, 하, 하, 하, 하).

 

채팅 프로젝트를 처리, 우리는 더 많은 걱정 비판적 사고 .

 

약물의 효과를 확인할 때, 여러 그룹에 필요한 : 엄격한 사고의 예? 답변 : 의학 "식사"와 "마약"두 가지로 구분 될 수 있기 때문에 세 그룹, 약의 그룹이 그룹은 가짜 약의 영향이없는 그룹으로 모양을 먹고, 먹지 않는다. --- 실질적인 문제는 같은 일의 사용자 전송 오위안 쿠폰 및 상품 가격 5위안 직접적인 영향 밖으로 발생? 그렇지 않으면, 그것은 더 나은 어떤 효과? 왜 기업은 항상 평균 일부 할인 "쿠폰"을 보내지 않는 것?

 

여기에 "책을 추천 질문을 물어 " 당신보다 효율적인 커뮤니케이션과 직장에서 사람들이 같은 시간에 논리적 사고 능력을 발휘 할 수 있습니다 모든 사람이 될 수 있도록, "바 벌금을."

 

지금은 학생들이 어려운이 문제로 공격을 재개 데이터 분석을 참조 이력서가 더 풍부하고 뭔가를 이해하지 못하는 자신의 일부를 쓸 필요가 없다 "나도 몰라 나는 몰라 알다시피 알고"다음과 같은 범주를 포함한다 :

 

(A) 수학적 모델링 대회. 이 종종 전문 강사와 ​​특별 긴급 시간의지도와 일치하지 않기 때문에 심지어 상을 수상하는 경우, 완성 된 품질은 예를 들어, 내가 하나가 왜 여기에이 방법을 사용 물었다 고하지? 대답은 학생들 XX 논문의 대부분은이 방법을 사용했기 때문에, 학생들은 거의 사실, 나 자신이 있기 때문에, 수학적 모델링에 참여 심지어 내가 대답 할 수없는 문제를 발견, 비교 가능한 다른 방법의 장단점을 말할 수있다 시간이 너무 꽉 정말 생각하지 않았습니다. 우리의 전략이 주어진 수학적 모델링 게임 경험 쓸 수 있지만, 제한된 재생 시간을 존중 이야기하는 경우, 더 경험으로 말할 수있는 주도권을 쥐고하지 않는, 일부 지역은 특히 엄격하지 않습니다.

 

알고리즘 (b)는 기계 학습, 깊은 학습. 데이터는 학생들이 아마 온라인 데모 실현 더 많거나 적은 점을 알게 할 수 있지만, 대부분의 학생들의 능력까지 같은 신경 네트워크와 같은 기업의 요구 사항에없는 당신이 그라데이션 및 그라데이션 확산의 실종은 항상 말할 것 알고, 또한, 활성화 기능을 이해하기 위해 진화, 무엇보다 이미지 필드에 효과가 좋은 이유를 DNN 것을 CNN, CNN 사용. 이제 이력서의 관련 내용을 참조, 나는 열린 대화의 주도권을받을 수 없어, 내가 받았을 경우에는, 때문에 시간이 좀 불 같은 인공 지능 전 그렇지 쓰기에 가장 좋은, 그래서 좋은 과학이 아니다, 차가운 필드를 권장 면접관이 점점 더, 당신은이 권리를 가지고하지 않습니다 알고 있지만이 발견되면 배울 수없는하지만 당신이 보통 심각하지 배울 것입니다.

 

학생들은 주요 어떤 작업 초등학교 데이터 분석에서 02 인터넷 기업

 

스토리지 및 데이터의 수집 비용의 감소와 함께, 회사는 종종 증가, 기타 행위를보고 사용자 수의 작동 시간을 연장하기 위해 사용자의 모든 클릭을 포함하여, 사용자 데이터의 큰 컬렉션을 가지고, 우리는 더 많은 데이터 저장 용량이 데이터의 이러한 많은 양의 조건에서 대형 (20 개 이상의 백만 조각 일 주문), 데이터에서 작동하는 기존의 엑셀 거의 불가능, 데이터 요구는 SQL 문을 작성하여 처리합니다.

 

따라서 기본 데이터 분석, 학생들은 일반적으로 SQL을 작성에 대부분의 시간을 작동 채택 충분한 데이터를했다 후, 충분한 정보는 지점이 들어, 당신은 현상 유지 및 비즈니스 솔루션의 질문을 할 수 있으며, 입력 된 데이터 분석 학생들은 의사 결정 지원 데이터 급우의 관점에서 사업 개발을 인식하고, 내보기는 학생들이 비즈니스 데이터를 이해할 수 있어야 데이터 분석입니다 (나는 비즈니스 측면으로 직접 이동할 수 있도록?).

 

따라서, 학생들의 데이터 분석 사업 방향을 자신의 방식을 개선해야하는 것은 자신이 더 많은 사업에 대해 알고, 내가, 내 상사는 항상 사업을 이해하는 저를 강조했다 최초의 인턴 경험에서 기뻐요 수 있도록하는 것입니다, 그는 당신이주는 이렇게 말했다 (액세스)을 요구하기 전에이 숫자가, 비즈니스 측면에서 보면 데이터와 비즈니스 요구 사이의 관계 10 정확한 수요가 당신의 그랜드을 강화하는 것보다, 실수를 절단하는 방법을 왜 물어해야합니다. 공간은 나중에 다시 새로운 인식 업데이트를 가지고, 미래의 업무 경험이 일시적으로 확장, 더 이상 희망이 제한됩니다.

 

부록 I

내 SQL 학습 경로 순 교훈 보는 것입니다 :

https://www.bilibili.com/video/av9252479?p=26

 

기본 SQL 문을 학습 후, 나는 그물 오프 질문, 소 브러시하기 시작했다 :

https://www.nowcoder.com/ta/sql

 

보석 기사 전 :

나는 몇 가지 SQL 질문을했다.

 

거기 leetcode :

https://leetcode-cn.com/problemset/database/

 

당신은 오늘의 말씀을 배울 경우, 기본적으로 2 주 간격을 수행 할 수 있습니다. 

 

부록 II 

재개 함량 : 음성 인식, 사운드 및 스피커가 일치 될 수있다 추출 음성 패턴, 정확도 94 %; 98 정확도를 증가, 일본어 음성에 잡음 감소 신경망 RNN CNN 장소 사용에 대한 세간 알고리즘을 사용 %.

 

문제 :

  • 무엇 세간 원칙은 소음 줄이는 것입니다?

  • 줄이고 많은 방법 결과에 대한 소음의 영향입니다 감소하지?

  • RNN은 CNN 효과로 인 이유는 무엇입니까?

  • 왜 rcnn 또는 다른 신경 네트워크를 고려하지 않고, CNN 여기에 사용됩니까?

  • 나머지 2 %는 주로 부정확 한 판단 이유는 최적화 것뿐만 아니라, 무엇입니까?

  •  이 업그레이드는 4 %의 사용자 값 또는 상업적 가치는 무엇 가져온다입니까?

 

부록 III

쉬운 질문

 

 

주어진 일이, 어떤 하나의 드라이버가 5 개 이상, 5 단의 총을 완료 한 경우 : 각 행은, 당신은 SQL을 원하는 주문 양식 드라이버의 ID, 주문 금액, 주문 실행 시간을 완료,이 순서의 ID를 나타냅니다 양보다 $ 50 일이 해당 출력 드라이버 ID이다.

 

출력 열 이름 : 날짜, drier_id

지식 포인트 : 하위 쿼리 또는 심사로 할 필요.

 

중간 제목

 

 

각 행은 하루에 활성 사용자가, 사용자가 너무 너무 일에 적극적으로, 다음 2 ~ 30 일에하고 활성화 된 경우, 이전에 같은과 테이블로 30 일 동안 하루의 활성 사용자를 유지했다 여부를 나타냅니다 B, A는 2019년 1월 3일 활성 유지 상태가 활성 2019년 1월 1일 30 일 만족되는 2019년 1월 1일 활성 사용자이고, 그 때문에, 30 일 (B2)에서 활성이 없었다 활성 30 일 보유를 충족하지 않습니다. 나는 활성 사용자 및 활성 사용자 30 일 보유의 매일을 원한다

 

표 올바른 출력

 

 

지식 포인트 : 문구, 날짜 기록 덧셈과 뺄셈의 연결의 유지.

 

어려운 질문 :

 

 

각 행은 드라이버 (START_TIME) 시간 재생을 시작하고 게임 시간 (END_TIME)을 통해, 나는 게임의 종료 후 모든 드라이버를 요청입니다 대표, 게임은 평균 오랜 시간 내에 종료 시작? 드라이버가 하나 개의 게임을하는 경우, 드라이버를 계산하지 않습니다.

 

표 올바른 출력

 

 

지식 포인트 : 윈도우 기능 ROW_NUMBER 사용이 추가하거나 빼기 아무것도 작성.

 

윈도우 기능에 대한 질문 : 그들에게 TMD 몇 가지 인기있는 데이터 분석 인터뷰 질문을 설명합니다.

 

나는 어려움이 그 다음 질문을 작성했기 때문에, 다음 인턴십의 서비스를받을 허용 생각합니다.

 

게시 된 363 개 원래 기사 · 원의 찬양 (74) · 전망 190 000 +

추천

출처blog.csdn.net/sinat_26811377/article/details/104663771