빅데이터 DataX-Web 상세 설치 튜토리얼

목차

1. DataX-Web 소개

1.1 DataX-Web이란?

1.2 DataX-웹 아키텍처

2. DataX-Web 설치 및 배포 

2.1 환경 요구사항

2.2 설치

2.3 배포

2.4 데이터베이스 초기화

2.5 구성

2.6 서비스 시작

2.6.1 원클릭으로 모든 서비스 시작

2.6.2 원클릭으로 모든 서비스 취소

2.7 서비스 보기 (주의! 주의!)

2.8 웹 UI에 액세스

2.9 작업 로그

3. DataX-Web 작업 배포

3.1 프로젝트 생성

3.2 실행자 관리

3.3 데이터 소스 생성

3.3.1 mysql 데이터 소스

3.3.2 하이브 데이터 소스

3.4 작업 템플릿 생성

3.5 태스크 생성

3.5.1 리더 구축

3.5.2 빌드 작성자

3.5.3 필드 매핑 설정

3.5.4 빌드

4. DataX-Web 작업 관리


 

1. DataX-Web 소개

1.1 DataX-Web이란?

주지지:https://github.com/WeiYe-Jing/datax-web

        datax-web  은 DataX를 기반으로 개발된 분산 데이터 동기화 도구로, 간단하고 사용하기 쉬운 조작 인터페이스를 제공하고, DataX 사용에 대한 사용자의 학습 비용을 절감하며, 작업 구성 시간을 단축하여 구성 중 오류를 방지합니다. 사용자는 페이지를 통해 데이터 소스를 선택하여 데이터 동기화 작업을 생성할 수 있습니다. RDBMS, Hive, HBase, ClickHouse, MongoDB 및 기타 데이터 소스를 지원합니다. RDBMS 데이터 소스는 데이터 동기화 작업을 일괄적으로 생성할 수 있고, 데이터 동기화 진행 상황 및 로그의 실시간 보기를 지원하며, 동기화 종료 기능을 제공합니다. -기본 키가 증가했습니다.

        작업 "실행기"는 클러스터 배포, 실행기에 대한 다중 노드 라우팅 전략 선택, 시간 초과 제어, 실패 재시도, 실패 경보, 작업 종속성, 실행기 CPU, 메모리, 로드 모니터링 등을 지원합니다.

1.2 DataX-웹 아키텍처

2. DataX-Web 설치 및 배포 

2.1 환경 요구사항

환경 필요하다
운영 체제 맥、윈도우、리눅스
자바 Java8, jdk 버전은 1.8.201 이상을 권장합니다.
파이썬

Python (2.x) (Python3을 지원하려면 datax/bin 아래의 Python 파일 3개를 수정하고 교체해야 합니다. 교체 파일은 doc/datax-web/datax-python3에 있습니다.) 필수. 주로 예약에 사용됩니다. 기본 DataX의 시작 스크립트를 실행합니다. 기본 방법은 Java 하위 프로세스 모드에서 DataX를 실행하는 것입니다. 사용자는 Python 모드에서 사용자 정의 변환을 수행하도록 선택할 수 있습니다.

MySQL MySQL 5.7+
메이븐 설치 패키지를 컴파일하는 데 필요한 Apache Maven 3.6.1+(선택 사항)
데이터X 데이터엑스 3

해당 기본 환경의 경우 다음 문서에서 설치를 확인할 수 있습니다.Big Data DataX 상세 설치 튜토리얼-CSDN 블로그 

2.2 설치

        설치 패키지를 직접 다운로드하세요(다운로드 주소: https://pan.baidu.com/s/13yoqhGpD00I82K4lOYtQhg, 추출 코드: cpsk ), 압축을 풀고 지정된 경로에 설치합니다:

(base) [root@hadoop03 ~]# ls
datax-web-2.1.2.tar.gz
(base) [root@hadoop03 ~]# tar -zxvf datax-web-2.1.2.tar.gz -C /usr/local/

2.3 배포

        원클릭 설치 스크립트를 실행하고 압축이 풀린 디렉터리에 들어가서 bin 디렉터리에서 install.sh 파일을 찾습니다. 대화형 설치를 선택한 경우 직접 실행합니다.

(base) [root@hadoop03 ~]# cd /usr/local/datax-web-2.1.2/
(base) [root@hadoop03 /usr/local/datax-web-2.1.2]# ./bin/install.sh

        대화형 모드에서는 각 모듈의 패키지 압축 패키지를 풀고 설정 구성 스크립트를 호출할 때 사용자에게 확인을 요청하며, 프롬프트에 따라 설치 성공 여부를 확인할 수 있습니다. 다시 한 번, 대화형 모드를 사용하지 않으려면 건너뛰십시오. 확인 과정을 거친 후 다음 명령을 실행하여 설치하십시오.

./bin/install.sh --force

2.4 데이터베이스 초기화

mysql 명령이 로컬 서비스에 설치된 경우 설치 스크립트 실행 중에 다음 알림이 나타납니다.

Scan out mysql command, so begin to initalize the database
Do you want to initalize database with sql: [{INSTALL_PATH}/bin/db/datax-web.sql]? (Y/N)y
Please input the db host(default: 127.0.0.1): 
Please input the db port(default: 3306): 
Please input the db username(default: root): 
Please input the db password(default: ): 
Please input the db name(default: exchangis)

        ​​​​​​메시지에 따라 데이터베이스 주소, 포트 번호, 사용자 이름, 비밀번호, 데이터베이스 이름을 입력하면 대부분의 경우 초기화가 빠르게 완료됩니다. 로컬 서비스에 mysql 명령어가 설치되어 있지 않은 경우(mysql이 내 서버에 설치되어 있지 않은 경우) 디렉토리에 있는 /bin/db/datax-web.sql 스크립트를 이용하여 수동으로 실행시킬 수 있으며, 완료 후 관련 내용을 수정한다. 구성 파일:

(base) [root@hadoop03 /usr/local/datax-web-2.1.2]# vim modules/datax-admin/conf/bootstrap.properties 
#Database
DB_HOST=192.168.170.136
DB_PORT=3306
DB_USERNAME=root
DB_PASSWORD=xxx
DB_DATABASE=dataxweb

특정 상황에 따라 해당 값을 구성하면 됩니다.

2.5 구성

        설치가 완료되면 프로젝트 디렉터리 /modules/datax-execute/bin/env.properties에서 PYTHON_PATH 경로(즉, DataX의 Python 스크립트 경로)를 지정합니다.

(base) [root@hadoop03 /usr/local/datax-web-2.1.2]# vim modules/datax-executor/bin/env.properties 
······
## PYTHON脚本执行位置
#PYTHON_PATH=/home/hadoop/install/datax/bin/datax.py
PYTHON_PATH=/usr/local/datax/bin/datax.py

2.6 서비스 시작

2.6.1 원클릭으로 모든 서비스 시작

./bin/start-all.sh

일부 모듈은 프로세스 중에 시작되지 않거나 중단될 수 있습니다. 종료하고 실행을 반복할 수 있습니다. 특정 모듈의 서비스 포트 번호를 변경해야 하는 경우 다음을 수행하십시오.

vi ./modules/{module_name}/bin/env.properties

SERVER_PORT 구성 항목을 찾아 해당 값을 변경합니다. 물론 특정 모듈 서비스를 개별적으로 시작할 수도 있습니다.

./bin/start.sh -m {module_name}

2.6.2 원클릭으로 모든 서비스 취소

./bin/stop-all.sh

물론 특정 모듈 서비스만 중지할 수도 있습니다.

./bin/stop.sh -m {module_name}

2.7 서비스 보기 (주의! 주의!)

        ​ ​ ​Linux 환경에서 JPS 명령을 사용하여 DataXAdminApplication 및 DataXExecutorApplication 프로세스가 나타나는지 확인합니다. 존재하는 경우 프로젝트가 성공적으로 실행된다는 의미입니다.

        프로젝트가 시작되지 않으면 시작 로그(modules/datax-admin/bin/console.out 또는 module/datax-executor/bin/console.out)를 확인하세요.


팁: 스크립트는 bash 명령 세트를 사용하므로 sh를 사용하여 스크립트를 호출하면 알 수 없는 오류가 발생할 수 있습니다.

2.8 웹 UI에 액세스

        배포가 완료된 후 브라우저에 http://ip:port/index.html 를 입력하여 해당 기본 인터페이스에 액세스합니다. (ip는 datax-admin이 배포된 서버의 IP이고, port는 datax-admin이 지정한 운영 포트 9527입니다.) 시스템에 직접 접속하려면 사용자 이름 admin과 비밀번호 123456을 입력하세요.

로그인할 수 없고 계정과 비밀번호가 올바르지 않은 경우 먼저 데이터베이스로 이동하여 생성된 dataxweb 데이터베이스가 있는지 확인할 수 있습니다. 그렇지 않은 경우 datax_web.sql을 dataxweb 데이터베이스로 수동으로 가져와야 합니다. 먼저 dataxweb을 생성합니다. 데이터베이스를 선택한 다음 이 데이터베이스를 입력하고 마지막으로 datax_web .sql 파일을 가져오면 다음 작업이 수행됩니다.

(base) [root@hadoop03 /usr/local/datax-web-2.1.2/bin/db]# pwd
/usr/local/datax-web-2.1.2/bin/db
(base) [root@hadoop03 /usr/local/datax-web-2.1.2/bin/db]# ls
datax_web.sql

2.9 작업 로그

        배포가 완료된 후 모듈/해당 프로젝트/데이터/applogs(사용자가 직접 로그를 지정할 수도 있고 application.yml에서 로그 경로 주소만 수정하면 됨)에서 사용자는 프로젝트의 실제 시작 상태를 기반으로 추적할 수 있습니다. 이 로그

실행기가 관리자보다 빠르게 시작되면 실행기가 연결에 실패하고 로그에 "연결 거부됨" 오류가 보고됩니다.

해결 방법은 관리자를 먼저 시작한 다음 실행 프로그램을 시작하는 것입니다. 30초 후에 다시 연결됩니다. 성공하면 이 예외를 무시하세요.

(base) [root@hadoop03 /usr/local/datax-web-2.1.2/bin]# ./start.sh -m datax-admin

# 30s 后再启动
(base) [root@hadoop03 /usr/local/datax-web-2.1.2/bin]# ./start.sh -m datax-executor

3. DataX-Web 작업 배포

3.1 프로젝트 생성

3.2 실행자 관리

모든 온라인 집행자의 목록은 다음과 같습니다.

3.3 데이터 소스 생성

3.3.1 mysql 데이터 소스

3.3.2 하이브 데이터 소스

        datax-web은 ThriftServer를 통해 Hive에 연결됩니다. 따라서 Hive의 hiveserver2 서비스가 켜져 있는지 확인해야 합니다.  

3.4 작업 템플릿 생성

3.5 태스크 생성

3.5.1 리더 구축

3.5.2 빌드 작성자

3.5.3 필드 매핑 설정

3.5.4 빌드

4. DataX-Web 작업 관리

추천

출처blog.csdn.net/weixin_46560589/article/details/134592916