빅 데이터 시스템

1. 데이터 과학자

빅 데이터의 등장 이후 데이터 사이언스 의 개념도 데이터 분야에서 화제가되고 있으며, "데이터 사이언티스트"는 직책이되어 다양한 채용 정보에 등장하고 있습니다. 그렇다면 데이터 과학이란 정확히 무엇입니까? 빅 데이터와 데이터 사이언스의 관계는 무엇입니까? 빅 데이터는 데이터 과학에서 어떤 역할을합니까? 이 기사는 주로 대중 과학 분야에서 역할을 수행하기위한 것으로, 데이터 작업을하려고하거나 참여하고있는 친구들이 데이터 과학 작업에 대한 포괄적 인 이해를 가질 수 있도록하고, 빅 데이터 분야에 진출 할 아이디어가있는 친구가 실제로 빅 데이터에서 작업하기 전에 업계의 상황을 이해하도록합니다. 모두 다 아는. 데이터 과학은 혼합 된 학제 간입니다 (아래 그림 참조). 데이터 과학자가 되려면 좋은 수학 및 컴퓨터 지식과 특정 전문 분야의 지식 이 있어야 합니다 . 작업은 데이터 중심으로 돌아가며 데이터 양이 폭발적으로 증가한 후 빅 데이터는 데이터 과학의 한 분야로 간주됩니다.
빅 데이터 시스템

2. 빅 데이터 시스템

빅 데이터는 실제로 수년 동안 존재 해 왔지만 유비쿼터스 센서와 유비쿼터스 데이터 매장지로 인해 데이터 수집이 더 쉽고, 더 크고, 다양해졌습니다. 그 결과 기존의 기존 데이터 필드는 증가하는 데이터를 처리하고 사용할 수있는 새로운 플랫폼으로의 변경을 고려해야했습니다. 더 자세히 설명하려면 다음 두 가지 사항을 사용하십시오.

  • 우준 박사가 제기 한 요점 : 기존 산업 + 신기술 = 신산업, 빅 데이터도이 원칙을 따르지만, 생성되는 것은 단순히 새로운 산업이 아니라 완전한 산업 체인 : 원본 데이터 필드 + 신규 빅 데이터 기술 = 빅 데이터 산업 체인;
  • 데이터 사용 범위, 원래 데이터 응용 프로그램은 주로 기존 데이터의 데이터에서 샘플링 한 다음 데이터 마이닝 및 분석을 수행하여 예측 또는 의사 결정을위한 데이터의 잠재적 규칙을 발견합니다. 그러나 샘플링은 항상 데이터의 일부를 폐기합니다. 즉, 일부 잠재적 인 규칙과 가치가 손실됩니다. 데이터와 콘텐츠의 양이 계속 누적됨에 따라 기업은 데이터 애플리케이션의 전체 데이터 양에 점점 더 많은 관심을 기울이고 있으며 생각할 수있는 것과 그렇지 않은 것을 발견하기 위해 가능한 모든 잠재적 인 규칙을 다루고 있습니다. 의 가치.

    빅 데이터는 데이터의 흐름을 기반으로하는 체인 또는 파이프 라인입니다. 데이터의 출처와 위치는 철학적 문제 일뿐만 아니라 데이터 작업을 수행 할 때도 고려할 수 있습니다. 아래 그림과 같이 빅 데이터 분야는 다음과 같은 주요 방향으로 나눌 수 있으며, 이러한 방향은 일부 직책에 해당 할 수 있습니다.

빅 데이터 시스템

1. 데이터 플랫폼

데이터 플랫폼 , 안정적이고 안전한 빅 데이터 플랫폼을 구축 및 유지하고, 주문형 빅 데이터 아키텍처를 설계하고, 빅 데이터 기술 제품 및 솔루션을 조사 및 선택하고, 배포를 구현하고 온라인으로 전환합니다. 빅 데이터 분야와 관련된 대부분의 기술은 일부 부분에 대한 이해와 분산 시스템의 사고력과 능력이 필요합니다.

해당 직위 : 빅 데이터 설계자, 데이터 플랫폼 엔지니어

2. 데이터 수집

Data Collecting 은 Web / Sensor / RDBMS와 같은 채널에서 데이터를 가져오고 빅 데이터 플랫폼 용 데이터 소스를 제공합니다.

해당 직위 : 크롤러 엔지니어, 데이터 수집 엔지니어

3. 데이터웨어 하우스

데이터웨어 하우스는 데이터웨어 하우스 계층 구조 설계, ETL, 데이터 모델링 등 기존 데이터웨어 하우스의 업무 내용과 약간 비슷하지만 플랫폼이 다릅니다. 빅 데이터 시대에는 대부분의 데이터웨어 하우스가 Hive와 같은 빅 데이터 기술을 기반으로 구현됩니다. Hadoop 기반 데이터웨어 하우스.

해당 직위 : ETL 엔지니어, 데이터웨어 하우스 엔지니어

4. 데이터 처리

일부 특정 요구 사항에서 처리 또는 데이터 정리를 완료하기위한 데이터 처리 는 소규모 팀의 데이터웨어 하우스와 결합됩니다. 과거에는 ETL을 사용하여 도구를 사용하여 일부 필터 항목을 직접 구성하고 처리 할 수 ​​있었으며 코드 부분은 더 적습니다. 오늘날 빅 데이터 플랫폼의 데이터 처리는 더 많은 코드 방식을 사용하여 더 다양한 처리를 수행 할 수 있으며 필요한 기술은 Hive, Hadoop, Spark 등입니다. 데이터 처리를 과소 평가하지 마십시오. 후속 데이터 분석 및 데이터 마이닝은 데이터 처리의 품질을 기반으로합니다. 데이터 처리는 전체 프로세스에서 특히 중요한 위치를 차지한다고 할 수 있습니다.

해당 직위 : Hadoop 엔지니어, Spark 엔지니어

5. 데이터 분석

데이터 분석 등과 회귀 분석 분산 분석, 상관성 분석으로서 : 데이터 분석을 수행하는 통계 분석 방법에 기초하여, Ad-Hoc 대화 형 분석 및 Hadoop의 SQL과 같은 빅 데이터 분석 기술에는 Hive, Impala, Presto, Spark SQL 및 OLAP를 지원하는 기술 : Kylin이 포함됩니다.

해당 위치 : 데이터 분석가

6. 데이터 마이닝

데이터 마이닝 은 비교적 광범위한 개념으로, 많은 양의 데이터에서 유용한 정보를 찾는 것으로 직접 이해할 수 있습니다. 빅 데이터의 데이터 마이닝은 주로 분류 알고리즘, 클러스터링 알고리즘, 연관 분석 등 빅 데이터 플랫폼에서 데이터 마이닝 알고리즘을 설계하고 구현하는 것입니다.

해당 위치 : 데이터 마이닝 엔지니어

7. 기계 학습

머신 러닝 과 데이터 마이닝은 종종 함께 논의되며 동일한 것으로 간주되기도합니다. 머신 러닝은 컴퓨터와 통계의 학제적인 주제이며, 기본 목표는 분류 또는 회귀를 위해 x-> y의 함수 (매핑)를 학습하는 것입니다. 데이터 마이닝과 결합되는 경우가 많은 이유는 일부 머신 러닝 알고리즘을 통해 플랫폼에서 다양한 구매를 분석하는 개인화 추천 등 머신 러닝에서 제공하는 알고리즘 도구를 통해 많은 데이터 마이닝 작업이 이루어지고 있기 때문입니다. 그리고 수집 로그, 당신이 좋아하는 제품을 예측하는 추천 모델을 가져옵니다.

해당 직위 : 알고리즘 엔지니어, 연구원

8. 딥 러닝

딥 러닝 은 머신 러닝의 주제 (매우 인기있는 주제)입니다. 딥 러닝의 내용에서 신경망 알고리즘의 파생물로 이미지, 음성, 자연어 등의 분류 및 인식에서 매우 좋은 결과를 얻었습니다. 사실상 대부분의 작업은 매개 변수 조정에 있습니다.

해당 직위 : 알고리즘 엔지니어, 연구원

9. 데이터 시각화

Data Visualization 은 분석 및 채굴 후 고 가치 데이터를 상사, 고객 및 사용자에게보다 아름답고 유연한 방식으로 표시합니다. 이는 프론트 엔드에 가깝습니다. 미적 지식이 필요할 수도 있습니다. 사용자 선호도를 결합하여 가장 적절한 방식으로 데이터의 가치를 제시합니다.

해당 직위 : 데이터 엔지니어, BI 엔지니어

10. 데이터 응용

데이터 애플리케이션 , 정확한 광고, 맞춤 추천, 사용자 초상화 등과 같이 위의 각 항목에서 파생 될 수있는 애플리케이션입니다.

해당 위치 : 데이터 엔지니어

추천

출처blog.51cto.com/12824426/2560977