하둡 + 스파크에게 거대한 빅 데이터 분석의 양 및 기계 실용적인 학습을 배우는 하루를 보내고 5 시간 "속성"

이 글의 주제는 하둡 + 스파크 대용량 데이터 분석과 기계 학습이다. 우리 모두가 알다시피, 그러나 유성 상승 스파크, 가장 하둡 빅 데이터 플랫폼의 사용, 그리고 빠르게 하둡과 호환됩니다, 회사는 스파크의 개발에 참여하기 시작했다. 예를 들어, IBM은 우리가 백만 데이터 과학자를 육성하고자, 아파치 스파크 커뮤니티를 결합합니다. 구글 (구글)과 마이크로 소프트는 스파크는 서비스, 클라우드 개발 및 데이터 분석과 기계 학습 플랫폼을 구축하는 기능을 적용했다. 이 큰 회사는 또한 미래의 더 많은 기업이 대규모 데이터의 하둡 + 스파크 데이터 분석을 채택된다는 것을 의미합니다 가입 만합니다.

그러나 많은 현재 빅 데이터 시장에 관한 책,하지만 대부분의 이론이나 응용 프로그램 수준을 소개하는 경향은 네트워크에 대한 많은 정보뿐만 아니라, 매우 지저분하지만 있지만. 이 문서의 희망은 빅 데이터 및 기계 학습 분야에 독자를지도하는 학습 곡선 빅 데이터 기술을 줄이기 위해 명쾌 및 지침, 플러스 손 동작, 예제 프로그램의 원리를 소개합니다. 물론, 대용량 데이터의 전체 에코 시스템은 배울 수있는 매우 큰, 너무 많은 것입니다. 당신이 기본 개념은 기술 및 다른 빅 데이터에 대한 심층 연구를 계속하기 위해이 필드를 입력 비교적 쉽게 할 수 있습니다 일단이 글의 연구를 통해 독자를 바랍니다.그림 삽입 설명 여기

의 문서

이 문서는 쉽게 이해할 수있는 "빅 데이터 및 학습 시스템"과 같은 빅 데이터 및 기계 학습의 기본 개념 설명, 원칙을 소개 및 메모로 시작 : 분류, 분석, 교육, 모델링, 예측, 기계 학습 (추천 엔진) 기계 학습 (이진 분류), 기계 학습 (다변량 분류), 기계 학습 (회귀 분석) 및 데이터 시각화 응용 프로그램. 손 운영 절차의 부를 제공하고, 예를 들면 빅 데이터 기술의 임계 값을 줄이기 위해 배울 독자를 설명, 어떻게 하둡 클러스터를 구축하는 하나의 Windows 시스템에 가상 박스 가상 머신을 통해 여러 리눅스 가상 머신을 설치하는 방법을 책 쇼 다음 스파크 개발 환경을 만들 수 있습니다. 본 논문 소개하고 내장 Shangjishijian 플랫폼은 하나의 물리적 컴퓨터에 한정되는 것은 아니다. 프로세스가 텍스트를 참조하여 기술 자격을 갖춘 회사와 학교를 구축하려면, 당신은 하나 이상의 물리적 컴퓨터에 너무 가까이 실제 운영 환경을 학습 빅 데이터 및 시스템에 빌드로 같은 플랫폼을 연습 할 수 있습니다.

섹션 설명

제 1 장, 빅 데이터 및 기계 학습 : 빅 데이터, 하둡, HDFS, 맵리 듀스, 스파크 , 기계 학습
손 동작 : 제 2 장 버추얼 박스 가상 머신 소프트웨어를 설치합니다. 당신이 Windows 시스템에서 여러 리눅스 가상 머신을 설치할 수 있도록 가상 박스 가상 머신을 설치
제 3 장 우분투 리눅스 운영 체제 설치 : 손 동작. 우분투 리눅스 운영 체제 설치
그림 삽입 설명 여기
설치 제 4 장 하둡 단일 노드 클러스터 : 손 동작을. 단일 시스템 하둡 단일 노드 클러스터 설치
Shangjishijian 동작 : 제 5 장 하둡 멀티 노드 클러스터 설치를. 설치 여러 컴퓨터 하둡 멀티 노드 클러스터
제 6 장 하둡 HDFS 명령 : 손 동작. HDFS 명령을 시연
그림 삽입 설명 여기
소개 하둡 맵리 듀스 원리 : 제 7 장 하둡 맵리 듀스. WordCount.java 샘플 프로그램. 기사에서 각 단어의 사용의 데모 주파수는 하둡 맵리 듀스 컴퓨팅 등장

설치 및 제 8 장 스파크의 소개 : 손 동작. 스파크 설치 및 다른 환경에서 입증 스파크 셸 인터페이스의 작동

제 9 장 스파크 RDD : 손 동작. 스파크 가장 기본적인 기능은 RDD (탄력 분산 데이터 집합, 탄성 분산 데이터 세트) 기본 작업 기술
그림 삽입 설명 여기
작업에 손-: 제 10 장 스파크 통합 개발 환경을. 통합 개발 환경 (IDE)를 설치합니다. WordCount.scala 샘플 프로그램. 이 나타납니다이 SparkMapReduce 계산하는 문서의 각 단어의 사용의 데모 주파수

스파크 MLlib MovieLens 데이터 세트 추천 엔진 (추천 엔진)을 설정하기 위해 필름을 사용하는 방법에 대해 설명 : 엔진 | 제 11 장 만들기는 활을 추천합니다. Recommend.scala 샘플 프로그램. 영화 추천 시스템을 구축, 데이터, 교육 모델, 권장 사용자 나 영화를 얻는 방법을 보여줍니다. AlsEvalution.scala 샘플 프로그램. 디버그 추천 엔진 매개 변수, 매개 변수의 최적의 조합을 찾는 방법을 보여 그림 삽입 설명 여기
12 장 StumbleUpon에서 데이터 세트 : StumbleUpon에서 데이터 세트가 이진 분류 문제에 속하면 페이지가 될 수있는 예측할 수를 일시적 또는 웹 페이지의 특성에 따라 존재 장기

제 13 장 이진 분류 의사 결정 트리 : RunDecisionTreeBinary.scala 샘플 프로그램. 페이지가 일시적 또는 장기간 존재가 될 수있는 예측하는 이진 분류 의사 결정 나무 분석 StumbleUpon에서 데이터 세트를 사용하고, 매개 변수의 최상의 조합을 찾기 위해, 예측 정확도를 향상 방법을 보여줍니다

제 14 장 로지스틱 회귀 이진 분류 : RunLogisticRegressionWithSGDBinary.scala 샘플 프로그램. 페이지가 일시적 또는 장기간 존재가 될 수있는 예측하는 이진 분류 의사 결정 나무 분석 StumbleUpon에서 데이터 세트를 사용하고, 매개 변수의 최상의 조합을 찾기 위해, 예측 정확도를 향상 방법을 보여줍니다

제 15 장 SVM 이진 분류 : RunSVMWithSGDBinary.scala 샘플 프로그램. 페이지 예측 정확도 일시적 또는 장기적으로 존재할 수 있으며, 매개 변수의 최적의 조합을 찾아 개선하는 예측하기 SVM의 이진 분류 분석 StumbleUpon에서 데이터 세트를 시연
그림 삽입 설명 여기
장 16 나이브 베이지안 두 위안 카테고리 : RunNaiveBayesBinary.scala 샘플 프로그램. 나이브 베이 즈 (나이브 - 베이 즈) 페이지가 일시적 또는 장기적으로 존재할 수 있으며, 매개 변수의 최상의 조합을 찾기 위해, 예측 정확도를 향상하는 예측하는 이진 분류 분석 StumbleUpon에서 데이터 세트를 시연

제 17 장 의사 결정 트리 다변량 분류 : RunDecisionTreeMulti.scala 샘플 프로그램. 어떻게 예시 적 의사 결정 트리 분류 분석 Covtype 다변량 데이터 세트 (산림 식물), 땅의 조건에 따라서 식물은 예측 정확도를 개선하기 위해 매개 변수의 최적의 조합을 찾을 것으로 예상 할 수있다

제 18 장 의사 결정 트리 회귀 분석 : RunDecisionTreeRegression.scala 샘플 프로그램. 데모는 의사 결정 트리 회귀 분석, 자전거 공유 데이터 세트를 소개합니다. 날 (휴일 및 조건은 임대 당 시간의 수를 예측 할 수 있으며, 예측 정확도 개선하기 위해 매개 변수의 최상의 조합을 찾기 위해
그림 삽입 설명 여기
아파치 제플린의 데이터 시각화하여 19 장 : 손 장착 작업을하고 제플린의 ML-100K를 사용 데이터 수집, 데이터 분석 및 데이터 시각화를위한 불꽃 SQL의 사용을 보여줍니다
그림 삽입 설명 여기
대부분의 사람들이 그렇게 큰 데이터 요구가 자신의 컴퓨터 연습에있을 수있는 가상 머신에 의해, 실제로 많은 시스템 환경에서 배울 생각 하둡 클러스터를 구축을하고, 스파크는 개발 환경을 설립했다.이 책은 실제 작업 맵리 듀스와 HDFS 하둡의 기본 개념뿐만 아니라 RDD 및 맵리 듀스 스파크의 기본 개념을 소개합니다.

실제 사례 -MoiveLens (영화 추천 엔진)의 대형 데이터 분석, StumbleUpon에서 (페이지 바이너리 분류), CovType (산림 식생 피복 작업), 자전거 공유 (Ubike 클래스 대여 예측 분석). 기계 학습 알고리즘의 다양한 프로그램 코드의 상세한 예는, 데이터, 데이터 분석, 모델링, 예측, 스파크 기계 학습을 소개하는 진보적 인 접근 방식을 얻을하는 방법을 보여줍니다.

은 "하둡 + 스파크 빅 데이터는"샤오 총통은 모두 마무리 좋은되었습니다
그림 삽입 설명 여기

게시 85 개 원래 기사 · 원 찬양 7 ·은 20000 +를 볼

추천

출처blog.csdn.net/Ppikaqiu/article/details/104718822