빅 데이터 및 Hadoop 플랫폼 소개

빅 데이터 및 Hadoop 플랫폼 소개

정의

빅 데이터는 기존에 일반적으로 사용되는 도구 및 소프트웨어를 통해 합리적인 비용으로 허용되는 시간 제한 내에 크기와 복잡성을 캡처, 관리 및 처리 할 수없는 데이터 세트를 의미합니다. 이러한 어려움에는 데이터 수익, 저장, 검색, 공유, 분석 및 시각화가 포함됩니다. 빅 데이터는 세 가지 기본 특성 (3V), 볼륨, 다양성 및 속도를 충족해야합니다. 데이터 양은 일반적으로 테라 바이트 또는 PB 수준에 도달하는 빅 데이터로 처리되는 데이터 양을 나타냅니다. 데이터 다양성은 처리 된 데이터에 구조화 된 데이터, 구조화되지 않은 데이터 (비디오, 오디오, 웹 페이지) 및 반 구조화 된 데이터 (xml, html)가 포함됨을 의미합니다. 빠른 속도는 빅 데이터가 빠르게 유입되고 빠르게 처리 될 수 있어야 함을 의미합니다.

빅 데이터 개발 배경

데이터 폭증. 정보 기술의 적용으로 글로벌 데이터의 양은 기하 급수적으로 증가했습니다. 지난 몇 년 동안의 총 데이터 양은 인류 역사상 총 데이터 양을 초과했습니다. 칩, 카메라, 각각의 센서는 세계 구석 구석에 위치하며 감지 할 수없는 것을 모니터링 할 수 있습니다. 소프트웨어 및 하드웨어 기술의 지속적인 발전은 또한 빅 데이터를 처리하기위한 조건을 만듭니다.

빅 데이터의 응용 분야

  • 퍼블릭 도메인에서 빅 데이터 서비스의 부서 간 제공은 검색 및 처리 시간을 크게 줄일 수 있습니다. 공공 서비스의 효율성을 향상시킵니다.
  • 기업은 제품 사용 중에 생성되는 방대한 데이터를 수집하고 분석하여 제품 성능을 향상시킬 수 있습니다.
  • 빅 데이터는 기업이 사용자를보다 세부적으로 차별화하고 사용자의 다양한 요구에 맞는 개인화 된 서비스를 제공하는 데 도움이 될 수 있습니다. 이것은 마케팅 및 위기 관리에서 일반적으로 사용되는 방법입니다.
  • 자동화 된 알고리즘을 사용하여 수동 의사 결정을 지원하거나 대체합니다. 빅 데이터 분석은 의사 결정 효과를 크게 개선하고 위험을 줄이며 다른 방법으로는 발견 할 수없는 귀중한 정보를 발굴 할 수 있습니다.
  • 비즈니스 모델, 제품 및 서비스 혁신. 넷플릭스는 빅 데이터 분석 결과를 바탕으로 '하우스 오브 카드'를 제작했다.

빅 데이터 연구 주제

  1. 데이터 수집 문제. 저장해야하는 데이터, 폐기해야하는 데이터 및 필요한 데이터를 안정적으로 저장하는 방법을 포함합니다.
  2. 데이터 구조 문제. Weibo 블로그는 구조화되지 않은 데이터입니다. 이미지와 비디오는 저장 및 표시 구조가 있지만 검색을위한 의미 정보를 포함 할 수 없습니다. 의미 체계가없는 콘텐츠가 구조화 된 형식으로 변환되고 후속 처리가 수행되면 직면해야 할 또 다른 과제입니다.
  3. 데이터 통합 ​​문제. 다른 소스의 데이터를 연결해야만 데이터를 완전히 활용할 수 있습니다.
  4. 데이터 분석, 구성, 추출 및 모델링
  5. 분석 결과를 제시하는 방법

기술 기업을위한 빅 데이터 제품

  • 구글 : MapReduce
  • IBM : InfoSphere 빅 데이터 분석 플랫폼
  • SAS : 고성능 분석 서버 및 SAS DataFlux 데이터 스트림 처리 엔진
  • EMC : Greenplum은 대규모 병렬 처리를 지원합니다.
  • Teradata : Aster Data는 MapReduce를 기반으로하며 다양한 통계 소프트웨어 패키지를 제공합니다.

빅 데이터 개발 동향

  • 데이터 자원. 빅 데이터는 기업과 사회가 주목하는 중요한 전략적 자원이되었으며 모든 사람의 스크램블의 초점이되었습니다.
  • 클라우드 컴퓨팅과 긴밀하게 통합됩니다. 빅 데이터는 빅 데이터를위한 유연하고 확장 가능한 기본 서비스를 제공하는 클라우드 처리와 분리 될 수 없습니다.
  • 과학 이론의 혁신을 주도하십시오. 데이터 마이닝, 기계 학습, 인공 지능 및 데이터 과학과 같은 관련 기술의 개발을 촉진합니다.

빅 데이터 처리를위한 일반적인 단계

  1. 데이터 수집.
    첫 번째 방법은 크롤링 또는 크롤링입니다. 예를 들어 검색 엔진은 인터넷의 모든 정보를 데이터 센터로 다운로드 한 다음 검색 할 수 있습니다.
    두 번째 방법은 푸시입니다. 데이터 수집에 도움이되는 터미널이 많이 있습니다. 예를 들어, Xiaomi 팔찌는 일일 실행 데이터, 하트 비트 데이터 및 수면 데이터를 데이터 센터에 업로드 할 수 있습니다.

  2. 데이터
    의 양이 너무 많기 때문에 일반적으로 큐를 통해 수행되는 데이터 전송은 데이터 처리가 유용 할 것입니다. 하지만 시스템이 처리 할 수 ​​없어서 줄을 서서 천천히 처리해야했습니다.


  3. 안전하고 분실하기 쉬우 며 높은 내결함성을 보장하기 위해 데이터 저장소를 저장합니다 .


  4. 저장된 데이터 의 데이터 처리 및 분석은 원시 데이터이며, 여러 개의 무질서한 원시 데이터이며, 그 안에 많은 쓰레기 데이터가 있으므로 고품질 데이터를 제공하기 위해 정리 및 필터링해야합니다. 고품질 데이터의 경우이를 분석하여 데이터를 분류하거나 데이터 간의 관계를 발견하고 지식을 얻을 수 있습니다.


  5. 원하는 정보를 쉽게 검색 할 수있는 데이터 검색 및 마이닝 . 정보 간의 관계를 파악합니다.

오픈 소스 프레임 워크

이러한 빅 데이터의 특성으로 인해 수집, 전송, 저장, 처리, 분석 및 검색을위한 많은 오픈 소스 프레임 워크가 생성되었습니다.
풍모
파일 저장 Hadoop HDFS, Tachyon, KFS
오프라인 계산 Hadoop MapReduce 、 Spark
스트리밍, 실시간 컴퓨팅 스톰, 스파크 스트리밍, S4, 헤론
KV, NOSQL 데이터베이스 HBase, Redis, MongoDB
자원 관리 얀 、 메소
로그 수집 Flume 、 Scribe 、 Logstash 、 Kibana
메시지 시스템 Kafka 、 StormMQ 、 ZeroMQ 、 RabbitMQ
쿼리 분석 Hive 、 Impala 、 Pig 、 Presto 、 Phoenix 、 SparkSQL 、 Drill 、 Flink 、 Kylin 、 Druid
분산 조정 서비스 사육사
클러스터 관리 및 모니터링 Ambari 、 Ganglia 、 Nagios 、 Cloudera 관리자
데이터 마이닝, 기계 학습 Mahout 、 Spark MLLib
데이터 동기화 Sqoop
작업 일정 우지

일반적인 빅 데이터 플랫폼의 프레임 워크는 아래 그림과
빅 데이터 및 Hadoop 플랫폼 소개
같으며, 빅 데이터 플랫폼의 핵심은 빅 데이터 저장 및 처리의 선구자 인 Hadoop HDFS와 Hadoop MapReduce입니다. 다음은 두 프레임 워크의 기본 원칙입니다.

Hadoop HDFS의 기본 원칙

HDFS는 Hadoop 분산 파일 시스템을 의미합니다. HDFS는 서버 클러스터에 배포 할 수있는 분산 파일 시스템입니다. Java 언어 개발은 ​​Java를 지원하는 모든 시스템에 배포 할 수 있습니다.
HDFS에는 NameNode, DataNode 및 블록과 같은 몇 가지 기본 개념이 있습니다.
NameNode는 전체 분산 파일 시스템의 메타 데이터 관리, 즉 파일 경로 이름, 데이터 블록의 ID 및 저장 위치를 ​​담당합니다. 어떤 노드가 클러스터의 일부인지, 블록의 사본 수와 같은 몇 가지 사항을 기록해야합니다.
빅 데이터 및 Hadoop 플랫폼 소개
DataNode는 실제로 파일 데이터를 저장하는 노드입니다. DataNode는 하트 비트를 통해 NameNode와의 통신을 유지합니다. DataNode가 시간이 지남에 따라 하트 비트를 보내지 않으면 NameNode는 DataNode가 실패한 것으로 생각하고 즉시 DataNode에 저장된 블록과 이러한 블록이 아직 저장되어있는 서버를 찾은 다음 이러한 서버에 알립니다. 다른 블록을 다른 서버에 복사하여 HDFS에 저장된 블록 백업 수가 사용자가 설정 한 수와 일치하는지 확인하십시오. 다른 서버가 다운 되더라도 데이터가 손실되지 않습니다.
빅 데이터 및 Hadoop 플랫폼 소개
블록은 HDFS의 저장 단위입니다. 파일이 HDFS에 기록되면 여러 블록 블록으로 분할됩니다. 기본 블록 크기는 128MB이며 각 데이터 블록에는 기본적으로 3 개의 복사본이 있습니다.
빅 데이터 및 Hadoop 플랫폼 소개
데이터 쓰기 : 먼저 파일을 여러 블록으로 나누고 각 블록을 3 개의 DataNode에 기록합니다. 3 개의 DataNode 중 어느 것이 기록되는지는 NameNode에서 지정합니다. 쓰기가 완료되면 NameNode가 정보를 기록합니다. 동일한 파일의 다른 블록은 완전히 다른 DataNode에 기록 될 수 있습니다.
빅 데이터 및 Hadoop 플랫폼 소개
데이터 읽기 : 데이터를 읽을 때 블록을 눌러 읽으십시오. 각 블록에 대해 네임 노드로부터 정보를 얻고 어떤 데이터 노드에서 읽어야하는지 알고 있으며 일반적으로 가장 가까운 원칙입니다. 파일의 모든 블록을 읽어 완전한 파일을 형성합니다.
그리고 데이터 노드 클라이언트 머신은 동일합니다 : 거리가 0, 가장 최근의
클라이언트 데이터 노드가 다른 머신과 동일한 랙 임을 나타냅니다 : 거리 2, 조금 더 많은
클라이언트가 다른 랙에 있고 데이터 노드 동일한 데이터 센터에 있습니다. 거리는 4, 조금 더

Hadoop MapReduce의 기본 원칙

Hadoop MapReduce는 여러 시스템에서 병렬로 작업을 수행 할 수있는 분산 컴퓨팅 프레임 워크입니다. 사용자는 작업 자체의 코딩 만 완료하면되며 병렬 컴퓨팅의 기본 세부 사항에 대해 신경 쓸 필요가 없습니다.
MapReduce의 기본 개념은 매우 간단합니다. Map을 통해 일부 데이터를 분류하고 Reduce를 통해 동일한 유형의 데이터를 처리하는 것입니다. 매핑 및 축소 프로세스는 클러스터의 컴퓨팅 성능을 사용하여 병렬로 실행됩니다. 계산 모델의 핵심은 사용자가 구현하는 Map 및 Reduce 기능입니다.
빅 데이터 및 Hadoop 플랫폼 소개
원래의 큰 데이터 세트를 작은 데이터 세트로 절단 할 때 일반적으로 작은 데이터 세트는 HDFS 블록의 크기보다 작거나 같으므로 작은 데이터 세트가 물리적 시스템에 위치하므로 로컬 계산에 편리합니다. Map 및 Reduce의 시작 작업 수는 사용자가 지정할 수 있습니다.
빅 데이터 및 Hadoop 플랫폼 소개
위 그림은 MapReduce가 단어 발생 횟수를 세는 과정을 보여줍니다. 원본 데이터는 4 개의 하위 파일로 분할되어 있습니다. 각 하위 파일에 대해 사용자의 Map 기능에 따라 <word, 발생 횟수>의 <k2, v2> 형식의 결과가 생성됩니다. 그런 다음 동일한 단어의 <k2, v2>를 결합하여 <k2, List (v2)> 형식을 형성합니다. Reduce 함수의 입력으로 동일한 k2가 처리를 위해 동일한 Reduce 작업에 배포되어야합니다. 예를 들어 lorem이라는 단어의 모든 계산은 다음과 같습니다. 첫 번째 축소 작업으로 완료되었습니다. 이 아이디어에 따르면, MapReduce 프레임 워크를 사용하면 계산할 파일 수가 수천만 개이고 단어 수가 수천 개라도 클러스터 머신이 충분하면 허용되는 시간 내에 계산을 완료 할 수 있습니다.

빅 데이터 산업 응용

  • 인터넷 : 타겟 광고, 사용자 행동 분석, 콘텐츠 추천, 검색 엔진 최적화
  • 금융 : 자금 세탁 방지, 사기 방지, 고객 가치 분석, 타겟 시장 고객 클러스터링, 상환 능력 예측, 주식 투자 포트폴리오 동향 분석
  • 통신 : 비즈니스 설계 최적화, 고객 이탈 예측, 네트워크 품질 최적화
  • 의료 및 건강 : 임상 데이터 비교, 의사 결정 지원, 의료 행동 분석, 질병 패턴 분석
  • 공공 안전 : 용의자 행동 예측 분석, 테러 활동 탐지, 위험 분석, 관련자 분석
  • 스마트 교통 : 전체 센서, GPS 및 건강 영상 장비에서 생성 된 대량 데이터와 기상 조건 데이터, 인구 분포 데이터, 기상 모니터링 장비의 이동 통신 데이터를 결합하여 지능형 대중 교통을 실현합니다.

승진의 도전

  • 일부 조직은 데이터를 절대적으로 독점하고 있으며 대부분의 데이터는 이러한 조직에 집중되어 있습니다. 희귀 질환 데이터와 마찬가지로 공유 메커니즘과 플랫폼을 통해서만 환자를 도울 수 있습니다.
  • 빅 데이터 애플리케이션은 사용자 개인 정보를 존중한다는 전제를 기반으로해야하며 데이터의 개방성과 혁신의 균형을 맞추는 방법은 빅 데이터 산업이 직면 한 중요한 문제입니다. 기업은 빅 데이터를 사용하여 사용자의 특성과 요구 사항을 이해하고 개인 정보 보호 권리를 완전히 존중해야합니다.
  • 기존의 빅 데이터 아키텍처는 데이터 자체가 변조되지 않을 것이라고 보장 할 수 없으므로 신뢰와 확인이 필요한 애플리케이션 시나리오를 제한합니다. 신용 등 데이터의 경우 데이터의 진위 여부를 확인할 방법이 없으면 유관 기관의 의사 결정 과정에서 활용하기 어렵다.

추천

출처blog.51cto.com/14947900/2553305