빅 데이터 개념의 빅 데이터 시대

빅 데이터 : 데이터의 수집을 의미는, 캡처 관리하고 일정 시간 내에 기존의 소프트웨어 툴을 처리 할 수없는, 새로운 모델이 더 강력한 의사 결정 능력, 통찰력과 프로세스 최적화 기능을하기 위해 대규모 높은 성장률의 힘을 발견 필요하며 다양한 정보 자산

기본 단위는 순서에서 가장 작은 비트, 모든 단위입니다 제공 : 비트, 바이트, KB, MB, GB, TB, PB, EB, ZB, YB, BB, NB, DB.

1 바이트 = 8 비트 1킬로바이트 = 1024 바이트 = 8192 비트 1메가바이트 = 1천24킬로바이트 = 1,048,576 바이트 1기가바이트 = 1천24메가바이트 = 1백4만8천5백76킬로바이트 1 TB = 1천24기가바이트 = 1백4만8천5백76메가바이트 1 PB = 1,024 TB = 1백4만8천5백76기가바이트 1 EB = 1024 PB 1,048,576 TB = 1 ZB = 024 EB = 1,048,576 PB 1 YB = 024 ZB = 1,048,576 EB 1 BB = 024 YB = 1,048,576 ZB 1 NB = 024 BB = 1,048,576 YB 1 DB NB = 024 = 1,048,576 BB

주로 해결하는 대용량 데이터 스토리지 및 대용량 데이터의 계산 문제를 분석

V2-d4338145397ac4ede3a1dd615e7d973e_hd.png

특징 2 개 대용량 데이터

1 다수. 대용량 데이터의 첫 번째 특징은 작은 MB 수준 map3 체크 된 많은 사람들의 요구를 충족하는 첫번째 map3 체크 된 시대에서, "큰"로 반영하지만, 시간이 지남에 따라, TB에 과거 GB의 저장 장치는,도 지금 PB, EB 수준입니다. 정보 기술의 급속한 발전과 함께, 데이터가 폭발합니다. 소셜 네트워킹은 (마이크로 블로그, 트위터, 페이스 북) - 모바일 네트워크 인텔리전스 툴, 서비스의 다양한 도구는 데이터의 원천이되었다. 300TB 이상의 약 10 만명의 사용자 일일 생산 페이스 북 로그 데이터, 상품 거래 Taobao의 데이터는 약 400 만 명의 회원 20TB에 대해 매일 생성. 지능 알고리즘 강력한 데이터 처리 플랫폼과 통계 분석, 예측 데이터와 같은 대규모 실시간 처리에 새로운 데이터 처리 기술에 대한 시급한.

2, 다양한. 광범위한 데이터 소스들은 다양한 형태의 데이터의 크기를 결정한다. 모든 형식의 데이터가 영향을 미칠 수 있으며, 가장 널리 사용되는 등 Taobao의, NetEase는 클라우드 음악, 헤드 라인 오늘로 추천 시스템입니다, 이러한 플랫폼은 것 같은함으로써 더 권장 사용자, 사용자에게 로그 데이터를 분석 할 것이다. 데이터가 명확하게 구조화 된 데이터입니다 로그인 이미지, 오디오, 비디오, 데이터는 우리가 수동으로 표시해야 관계가 약한 인과 같은 몇 가지 분명한 구조화 된 데이터가 있습니다.

3, 고속. 큰 데이터를 매우 빠르게, 주로 인터넷 전송을 통해. 생활에서 모두가 개인이 매일 대량의 데이터에 많은 정보를 제공하는 것을 의미한다 인터넷, 분리 될 수 없다. 한 달 작은 역사적 데이터 저장 역할에 자본의 많은 플랫폼에 대한 매우 가치가 소요되며, 아마도 단지 지난 몇 일에 데이터를 저장하거나 때문에 이러한 데이터는 적시에 치료의 필요성은 지금까지입니다 데이터 정리, 너무 비용이 많이 드는 것입니다. 이러한 상황을 바탕으로, 대용량 데이터 처리 속도가 매우 엄격한 요구 사항을 처리하고 데이터를 계산하는 서버 자원의 큰 숫자가 많은 플랫폼은 실시간 분석을 할 필요가있다. 데이터는 장점을 가지고있는, 더 빠른 모든 시간을, 생성.

4 값. 이 빅 데이터의 핵심 기능입니다. 데이터는 현실 세계에서 중요한 데이터의 작은 비율을 생성합니다. 기존의 작은 데이터에 비해 빅 데이터는 기계 학습, 관련이없는 많은 수의 다양한 유형의 데이터에 의한 인공 지능을 통해 최대 값, 미래 트렌드와 패턴의 소중한 데이터 분석 및 예측을 파고 있다는 것입니다 심층 분석 또는 데이터 마이닝 방법, 궁극적으로 사회 지배 구조를 개선하고 생산성을 높이며 과학 연구 결과를 홍보 새로운 법률과 새로운 지식의 발견, 등 농업, 금융, 의료, 다양한 분야에서 사용,

하둡 배경

1.1 하둡은 무엇인가

소개 공식 웹 사이트 hadoop.apache.com -> 읽기 바이두 번역을 사용할 수 있습니다

아파치 하둡은 안정적이고 확장, 분산 컴퓨팅 오픈 소스 소프트웨어 개발이다. 아파치 하둡 소프트웨어 라이브러리는 기계의 클러스터 대용량 데이터 세트의 분산 처리 (방대한 양의 데이터)를 통해 간단한 프로그래밍 모델의 사용을 허용하는 프레임 워크입니다. 이 모듈은 다음과 같습니다 :

• 하둡 공통 : 다른 일반적인 도구 하둡 모듈에 대한 지원.

• 하둡 분산 파일 시스템 (HDFS ™) : 응용 프로그램 데이터에 대한 높은 처리량에 대한 액세스를 제공하는 분산 파일 시스템.

• 하둡 YARN : 작업 스케줄링 프레임 워크 및 클러스터 리소스 관리 기능을 제공합니다.

• 하둡의 MapReduce : YARN의 시스템을 기반으로 대용량 데이터 세트의 병렬 처리를 행한다.

상기 각 모듈은 자신의 독립적 인 기능을 구비 한 모듈과 서로 관련이있다.

넓은 의미에서, 하둡은 일반적으로 폭 넓은 개념 --HADOOP 생태계를 말한다

V2-c66e96ca6f1916c6da8ceac9d82d12f0_hd.png

1.2 하둡 배경

프로토 타입은 2002 년 너치, Nutch 검색 엔진의 오픈 소스 자바 구현 시작했다. 그것은 우리가 자신의 검색 엔진을 실행하는 데 필요한 모든 도구를 제공합니다. 전체 텍스트 검색 및 웹 크롤러를 포함. Nutch 디자인 목표는 ------- 웹 크롤링, 인덱싱, 쿼리 및 기타 기능을 포함하여 대규모 네트워크 전체 검색 엔진을 구축하는 것입니다 만, 페이지 수의 증가와 함께 기어, 심각한 확장 성 문제가 발생 - " 어떻게 질문 페이지의 저장 및 인덱싱 수십억를 해결하기 위해 ."

• 2003 년 구글은 학술 논문 기술 구글 파일 시스템 (GFS)을 발표했다. GFS는 전용 파일 시스템을 설계 방대한 양의 데이터를 저장하기 위해 구글 파일 시스템, 구글 검색 회사입니다.

• 종이 2004 Nutch 기반 Google의 창립자 인 더그 커팅에 NDFS라는 GFS 분산 파일 스토리지 시스템을 달성했다.

PS : 2003- 2천4년, 구글은 GFS의 세부 사항을 공개하고 맵리 듀스는 DFS와 맵리 듀스 메커니즘, 소형 버전을 실현 2 년으로 더그 커팅과 함께 여가 시간을 위해, 생각 : Nutch

• 2004 년 구글은 기술 교육 맵리 듀스를 발표했다. MapReduce의 병렬 분석 알고리즘 대용량 데이터 세트에 대한 프로그래밍 모델 (1TB 이상)이다.

• 2005 더그 커팅에서와 맵리 듀스에 근거하여 Nutch 검색 엔진 기능을 구현합니다.

v2-3bd8933af1525c5ae34f8e3ebc650131_hd.png

국내외 하둡 응용 프로그램 소개

• 大型网站Web服务器的日志分析:一个大型网站的Web服务器集群,每5分钟收录的点击日志高达800GB左右,峰值点击每秒达到900万次。每隔5分钟将数据装载到内存中,高速计算网站的热点URL,并将这些信息反馈给前端缓存服务器,以提高缓存命中率。

v2-095ed1887489f7ab6c13156dd48a5651_hd.png

• 运营商流量经营分析:每天的流量数据在2TB~5TB左右,拷贝到HDFS上,通过交互式分析引擎框架,能运行几百个复杂的数据清洗和报表业务,总时间比类似硬件配置的小型机集群和DB2快2~3倍。

V2-f2f8160741aab4d3df323a40434c832a_hd.png

1.5 国内HADOOP的就业情况分析

可以联网查智联

大数据方面的就业主要有三大方向:

• 数据分析类大数据人才 对应岗位 大数据系统研发工程师

• 系统研发类大数据人才 对应岗位 大数据应用开发工程师

• 应用开发类大数据人才 对应岗位 大数据分析师

大数据技术生态体系

v2-4e7dc080bdc7ab2f87ffb4867ee8b387_hd.png

上图中涉及到的技术名词解释如下:

1)Sqoop:sqoop 是一款开源的工具,主要用于在 Hadoop(Hive)与传统的数据库(mysql)间进 行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle 等)中的数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。

2)Flume:Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚 合和传输的系统,Flume 支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume 提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

3)Kafka:Kafka 是一种高吞吐量的分布式发布订阅消息系统,有如下特性:

(1)通过 O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以 TB 的消息 存储也能够保持长时间的稳定性能。  (2)高吞吐量:即使是非常普通的硬件 Kafka 也可以支持每秒数百万的消息 (3)支持通过 Kafka 服务器和消费机集群来分区消息。

(4)支持 Hadoop 并行数据加载。

4)Storm:Storm 为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时

处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm 也可被用于“连

续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式

输出给用户。

5)Spark:Spark 是当前最流行的开源大数据内存计算框架。可以基于 Hadoop 上存储的大数据进行计算。

6)Oozie:Oozie 是一个管理 Hdoop 作业(job)的工作流程调度管理系统。Oozie 协调作业 就是通过时间(频率)和有效数据触发当前的 Oozie 工作流程。

7)Hbase:HBase 是一个分布式的、面向列的开源数据库。HBase 不同于一般的关系数据库, 它是一个适合于非结构化数据存储的数据库。

8)Hive:hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张 数据库表,并提供简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行。 其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专 门的 MapReduce 应用,十分适合数据仓库的统计分析。

9)Mahout:

Apache Mahout是个可扩展的机器学习和数据挖掘库,当前Mahout支持主要的4个用 例:  推荐挖掘:搜集用户动作并以此给用户推荐可能喜欢的事物。 聚集:收集文件并进行相关文件分组。 分类:从现有的分类文档中学习,寻找文档中的相似特征,并为无标签的文档进行正确 的归类。

频繁项集挖掘:将一组项分组,并识别哪些个别项会经常一起出现。

10) 사육사는 : 사육사 구글의 풍만는 오픈 소스 구현입니다. 그것은 대규모 분산 시스템을위한 안정적이고 조화 시스템, 사용할 수있는 기능은 다음과 같습니다 : 구성 유지 보수, 이름 서비스, 분산 동기화, 그룹 서비스를. 사육사의 목표는 더 복잡한 오류가 발생하기 쉬운 중요한 서비스, 사용자에게 시스템의 인터페이스와 효율적인 성능, 기능과 안정성을 사용하기 쉬운을 캡슐화하는 것입니다.


추천

출처blog.51cto.com/14249543/2416114