[하둡] 연구 노트 (A) 소개 및 1.x에서 하둡 의사 분산 설치

: 포터 학습, 소스 노트  실험실 건물 과정 

디렉토리

1, 하둡 소개

 1.1 하둡 에코 시스템

1.2 Apache 버전 도출

2, Hadoop1.X 더미 설치를 배포

2.1 하드웨어 및 소프트웨어 환경 설명

빌드로 2.2 환경

2.2.1 구성 지역 환경

2.2.2 설정 오퍼레이팅 시스템 환경 (실험실 건물 환경 연산자없이 구성된)

빌드로 2.3 하둡 환경

2.3.1 다운로드 및 설치 패키지 하둡 압축 해제

하둡-1.1.2 디렉토리 아래에 하위 디렉토리를 생성 2.3.2

2.3.3 hadoop-env.sh

2.3.4 배치 core-site.xml

2.3.5 구성 HDFS-site.xml 파일

2.3.6 배치 mapred-site.xml

2.3.7 구성 마스터 및 슬레이브 파일

2.3.8 서식 네임 노드

하둡 시작 2.3.9

각 백그라운드 프로세스가 성공적으로 시작 여부를 JPS와 2.3.10 테스트


1, 하둡 소개

      아파치 하둡 소프트웨어 라이브러리는 클러스터 서버에 간단한 프로그래밍 모델을 사용하여 대용량 데이터 세트의 분산 처리 할 수있는 프레임 워크입니다. 하둡은 수천 개의 서버를 하나의 서버에서 확장 할 수 있도록 설계되어, 각 서버는 로컬 컴퓨팅 및 스토리지 자원을 가지고있다. 하둡은 고 가용성 하드웨어에 의존하지 않는, 자신의 코드베이스가 감지 및 애플리케이션 계층에서 핸들 하드웨어 오류, 그것은 고 가용성 서비스 기반 서버 클러스터를 제공 할 수있을 것입니다.  

 1.1 하둡 에코 시스템

  • HDFS: 하둡 에코 시스템의 기본 구성 요소 하둡 파일 시스템 (HDFS)에 분산된다. HDFS는 데이터가 컴퓨터 클러스터에서 분산 파일 시스템 저장되고, HDFS는 HBase와 같은 도구를위한 기초를 제공한다.
  • MapReduce: 하둡의 구현을위한 기본 틀은 분산, 병렬 처리 프로그래밍 모델의 MapReduce 맵 (MAP) 상에 작업을 줄일 간체된다 MapReduce의 단계이다. 때문에이 맵리 듀스 작동의 특성으로, 하둡 데이터에 빠르게 액세스 할 수 있도록 병렬 방식으로 데이터에 액세스 할 수 있습니다.
  • Hbase: HBase와는 HDFS의 상단에 내장되어 빠른 읽기 열 지향되는 NoSQL 데이터베이스 / 많은 양의 데이터 쓰기, HBase를 사용 사육사 관리.
  • Zookeeper: 서비스의 조정을위한 하둡 분산. 대부분의 구성 요소는 하둡 클러스터를 관리 할 수있는 컴퓨터 클러스터에서 실행, 하둡 사육사에 따라 달라집니다.
  • Pig: 그것은 추상적 인 맵리 듀스 프로그래밍의 복잡성이다. 돼지 플랫폼 런타임 환경 및 컴파일러가 돼지 라틴어 맵리 듀스 프로그램 시퀀스로 변환합니다 하둡 데이터 세트 (돼지 라틴어)을 분석하는 데 사용되는 스크립트 언어가 포함되어 있습니다.
  • Hive: 쿼리에 대한 높은 수준의 언어가가 하둡에 저장된 실행하는 SQL-처럼, 맵리 듀스 개발자에 익숙하지 않은 하이브도 쓰기 데이터 쿼리, 다음이 위 조건에 하둡 맵리 듀스 작업으로 번역 할 수 있습니다. 많은 친숙한 SQL 대신 자바 프로그래밍 데이터 분석을 끌었다 추상화 계층 도구로 돼지, 하이브 추천하기 추천.
  • Sqoop: 관계형 데이터베이스, 데이터웨어 하둡간에 데이터를 전송하는 연결 수단을 포함한다. Sqoop을이 기술은 데이터베이스 스키마, 데이터 / 내보내기를 설명하여 도입, 맵리 듀스 작업 및 내결함성을 사용하여 병렬화.

  • Flume: 대용량 데이터는 데이터를 HDFS에 하나의 컴퓨터의 많은 양을 전송 요약, 수집 분산, 안정적이고 효율적인 서비스를 제공합니다. 그것은 기업에서 하둡에 여러 대의 컴퓨터에 데이터를 전송하는 간단하고 확장 가능한 데이터 모델을 간단하고 유연한 아키텍처를 기반으로한다.

1.2 Apache 버전 도출

아파치 하둡 버전이 두 세대로 나누어, 우리는 하둡 하둡 1.0, 하둡 하둡 2.0라는 두 번째 세대 1 세대 호출됩니다.

하둡의 1 세대 3 개 버전, 즉 0.20.x, 0.21.x 및 0.22.x.을 포함 어느, 0.20.x 마침내 새로운 0.21.x와 0.22.x 주요 특성 네임 노드 HA 등을 포함하여, 안정적인 버전으로, 1.0.x로 진화.

두 번째 세대 하둡, 그들은 하둡 1.0 완전히 상이한 두 가지 버전, 즉 0.23.x 및 2.X를 포함하는 새로운 구조이며, 포함 HDFS 연맹 YARN 두 시스템 0.23.x에 비해 2.X 네임 노드는 HA 및 배선과의 호환성 두 가지 특성을 추가한다.

사진 설명 정보

2, Hadoop1.X 더미 설치를 배포

하둡은 세 가지 방법으로 설치 :

  • 单机模式: 설치 만 디버깅 목적으로, 거의 모든 구성없이, 간단하다;
  • 伪分布模式: 동시에 네임 노드, 데이터 노드,은 JobTracker, TaskTracker, 시작는 단일 노드에서 다른 다섯 개 프로세스를 분산 시뮬레이션 실행의 각 노드;
  • 完全分布式模式: 일반 하둡 클러스터, 직무의 복수의 노드로 구성.

인해 실험 환경의 제한으로이과 더미 패턴 분포 설치를 설명 할 것이다 전개 시험의 다른 구성 요소에 대한 기준으로 환경에 후속하는 과정이다. 다음은 CentOS6 하둡-1.1.2에서 의사 분산 환경 구성입니다, 구성은 다른 리눅스 시스템과 하둡 배포 참조의 다른 버전으로 사용할 수 있습니다.

2.1 하드웨어 및 소프트웨어 환경 설명

(실험실 건물 환경은 운영자없이 다른 구성 JDK 버전을 수정하기위한 필요성에 더하여, 구성된다)

CentOS는 시스템 노드 및 방화벽 해제 SELinux가에, shiyanlou이 사용자를 작성해야하고, 루트 시스템 / app 디렉토리를 만들고, 하둡을 저장하기위한 다른 구성 요소 패키지를 실행합니다. shiyanlou / 응용 프로그램 : 디렉토리가 설치 구성 요소에 사용되기 때문에 같은 하둡 프로그램은 사용자가 shiyanlou (대한 Chown -R shiyanlou가 소유 한 디렉토리 (shiyanlou 권한을 RWX 루트 디렉토리에 루트 사용자 / 응용 프로그램 디렉토리를 생성하는 일반적인 관행을주고, 수정해야 ).

하둡 환경을 구축 :

  • 가상 컴퓨터 운영 체제 : CentOS6.6 64 싱글 코어 비트, 1G 메모리
  • JDK : 1.7.0_55 64 비트

 

빌드로 2.2 환경

이 섹션에 배치 환경 구조에 대한 다른 기계를 참조 할 때 실험 환경의 가상 머신 설치 환경 구성을 완료했습니다.

참고 :  직접보기의 오른쪽에 shiyanlou 사용자의 암호를 클릭 SSH 바탕 화면 도구 모음.

2.2.1 구성 지역 환경

2.2.1.1 설정된 컴퓨터 이름 (실험 조작없이 구성되어있는 환경을 구축)

용도sudo vi /etc/sysconfig/network

구성 파일을 열고 다시 시작 새 컴퓨터 이름 다음에 적용하려면, 실제 상황에 따라 서버의 컴퓨터 이름을 설정

여기 사진에 대한 설명을 입력합니다

2.2.1.2 설정 호스트 매핑 파일 (당신은 실험실 건물에 운영 환경 필요)

1. 설정 컴퓨터 이름과 IP 주소 매핑은 다음과 같은 정보를 제공한다 :

# 配置主机名对应的IP地址
$ sudo vi /etc/hosts
# sudo需要输入shiyanlou用户的密码,shiyanlou用户的密码点击桌面右边工具栏的SSH直连查看。

 

참고 : 마지막 줄이 열려 / etc / hosts 파일은 하둡 함께에서 그것을 사용하는 기억 tab键공간 대신

 

설정이 성공적으로 확인하기 위해 ping 명령을 사용합니다

ping hadoop

여기 사진에 대한 설명을 입력합니다

2.2.2 설정 오퍼레이팅 시스템 환경 (실험실 건물 환경 연산자없이 구성된)

방화벽을 해제 2.2.2.1

하둡 설치 프로세스가 방화벽 및 SELinux를 사용 해제 할 필요가에서 예외가있을 것

1. sudo service iptables status

개설되었습니다의 iptables을 다음과 같이 표현으로, 방화벽 상태 확인

사진 설명 정보

(참고 : 팝 권한이 부족 방화벽을 종료 될 경우, 명령을 입력 : chkconfig iptables --list 보기 방화벽의 상태를)

2. 정지의 iptables에 다음 명령

sudo chkconfig iptables off

사진 설명 정보

2.2.2.2 닫기 SELinux를

1.  getenforce 폐쇄 된 경우 명령을 볼 수

2. 수정 / etc / selinux / config 파일

윌  SELINUX=enforcing 변경  SELINUX=disabled사항을 적용하려면 시스템을 다시 시작하기 위해 명령 실행 후

사진 설명 정보

2.2.2.3 JDK 설치 및 구성

설치 패키지 JDK1.7 64 비트 다운로드 1

열기 JDK1.7 64 비트 설치 패키지 다운로드 링크는 다음과 같습니다 http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html

아래 그림과 같이 시작 화면 후, 하이라이트는 사용권 계약에 동의 한 다음 JDK-7u55-리눅스 x64.tar.gz를 다운로드 :

사진 설명 정보

/ 응용 프로그램 디렉토리를 작성 2. 디렉토리의 소유자 shiyanlou에 수정

sudo mkdir /app
sudo chown -R shiyanlou:shiyanlou /app

사진 설명 정보

/ 응용 프로그램 / lib에 디렉토리를 작성 3. 다음 명령을 사용합니다 :

mkdir /app/lib

사진 설명 정보

4. 다운로드 압축을 풀고 및 마이그레이션 / 응용 프로그램 / lib 디렉토리에 설치 패키지

cd /home/shiyanlou/install-pack
tar -zxf jdk-7u55-linux-x64.tar.gz
mv jdk1.7.0_55/ /app/lib
ll /app/lib

사진 설명 정보

5. sudo는 VI은 / etc / 프로파일 구성 명령 파일을 열기 위해, JDK 경로를 설정

export JAVA_HOME=/app/lib/jdk1.7.0_55
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

사진 설명 정보

컴파일하고 확인 (6)

source /etc/profile
java -version

사진 설명 정보

需要注意的是:由于实验楼虚拟机原因使用java -version显示JDK版本为1.5,该版本并不影响后续实验

2.2.2.4 갱신은 OpenSSL (실험실 건물 환경 연산자없이 구성된)

CentOS는은은 OpenSSL 존재하는 버그, 다음 명령을 사용하여 업데이트됩니다 온다 :

yum update openssl

사진 설명 정보

사진 설명 정보

패스워드 인증 구성없이 2.2.2.5 SSH (실험실 건물 환경은 운영자없이 구성된)

1.  sudo vi /etc/ssh/sshd_config열기 아래와 같이 구성 파일 sshd_config를, 세 열고 구성 :

RSAAuthentication yes
PubkeyAuthentication yes
AuthorizedKeysFile .ssh/authorized_keys

사진 설명 정보

2. 서비스를 재설정

sudo service sshd restart

사진 설명 정보

3. shiyanlou 사용자 로그온 개인 키와 공개 키를 생성하려면 다음 명령을 사용하여

ssh-keygen -t rsa

사진 설명 정보

입력 4.  /home/shiyanlou/.ssh 다음 명령을 사용하여, 공개 키의 authorized_keys라는 이름의 디렉토리를 :

cp id_rsa.pub authorized_keys

사진 설명 정보

5. 읽기 및 쓰기 권한이 설정으로 authorized_keys에

sudo chmod 400 authorized_keys

사진 설명 정보

6. 시험 SSH 비밀번호없이 로그인이 적용됩니다

  • 하둡 : 1.1.2

 

빌드로 2.3 하둡 환경

 

2.3.1 다운로드 및 설치 패키지 하둡 압축 해제

또한있을 수 아파치 아카이브 디렉토리 하둡-1.1.2-bin.tar.gz 설치 패키지를 다운로드  /home/shiyanlou/install-pack 패키지의 압축을 풀고, 설치 패키지 디렉토리를 찾을 수 및 설치 복사 패키지 설치  /app 디렉토리를

cd /home/shiyanlou/install-pack
tar -xzf hadoop-1.1.2-bin.tar.gz
rm -rf /app/hadoop-1.1.2
mv hadoop-1.1.2 /app

사진 설명 정보

하둡-1.1.2 디렉토리 아래에 하위 디렉토리를 생성 2.3.2

cd /app/hadoop-1.1.2
mkdir -p tmp hdfs hdfs/name hdfs/data
ls

사진 설명 정보

디렉토리에 HDFS는 사용 chmod -R 755 data그렇지 않으면 데이터 노드를 시작할 수 없습니다, 755로 설정 HDFS / 데이터에 대한 명령을

사진 설명 정보

2.3.3 hadoop-env.sh

하둡-1.1.2 / conf 디렉토리를 입력 1. 구성 파일 hadoop-env.sh을 엽니 다

cd /app/hadoop-1.1.2/conf
vi hadoop-env.sh

사진 설명 정보

구성의 내용을 추가 2. 설정이 JDK와 하둡 하둡 / 빈 경로

export JAVA_HOME=/app/lib/jdk1.7.0_55
export PATH=$PATH:/app/hadoop-1.1.2/bin

사진 설명 정보

3. 컴파일 프로필 hadoop-env.sh 및 효과 확인

source hadoop-env.sh
hadoop version

사진 설명 정보

2.3.4 배치 core-site.xml

1. 코어를 site.xml 프로파일을 열고 다음 명령

sudo vi core-site.xml   # 如果 sudo 需要密码,可以点击桌面右侧工具栏的ssh直连,其中的密码就是这里需要输入的密码

구성 파일 (2)의 구성은 다음에 따라

<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://hadoop:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/app/hadoop-1.1.2/tmp</value>
  </property>
</configuration>

사진 설명 정보

2.3.5 구성 HDFS-site.xml 파일

1. 공개 프로필에 다음 명령 HDFS-site.xml 파일

sudo vi hdfs-site.xml

구성 파일 (2)의 구성은 다음에 따라

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
  <property>
    <name>dfs.name.dir</name>
    <value>/app/hadoop-1.1.2/hdfs/name</value>
  </property>
  <property>
    <name>dfs.data.dir</name>
    <value>/app/hadoop-1.1.2/hdfs/data</value>
  </property>
</configuration>

사진 설명 정보

2.3.6 배치 mapred-site.xml

1. 열린 프로파일 mapred-site.xml을 다음 명령

sudo vi mapred-site.xml

구성 파일 (2)의 구성은 다음에 따라

<configuration>
  <property>
    <name>mapred.job.tracker</name>
    <value>hadoop:9001</value>
  </property>
</configuration>

사진 설명 정보

2.3.7 구성 마스터 및 슬레이브 파일

1. 서브 마스터 노드가 제공된다

vi masters

사진 설명 정보

2. 슬레이브 노드

vi slaves

사진 설명 정보

2.3.8 서식 네임 노드

네임 노드 기계 하둡에서 다음 명령을 사용하여 포맷

cd /app/hadoop-1.1.2/bin
./hadoop namenode -format

사진 설명 정보

하둡 시작 2.3.9

./start-all.sh

사진 설명 정보

각 백그라운드 프로세스가 성공적으로 시작 여부를 JPS와 2.3.10 테스트

사용하여  jps 관련 프로세스가 하둡 시작 볼 수있는 명령을

여기 사진에 대한 설명을 입력합니다

게시 44 개 원래 기사 · 원 찬양 16 ·은 10000 +를 볼

추천

출처blog.csdn.net/YYIverson/article/details/101104134