무료 오픈 소스 ETL 툴 주전자

1.ETL 개념

ETL : 추출물 변환 부하 약어, 즉 데이터 抽取、转换、装载처리. 이 용어는 일반적으로 더 많은 데이터웨어 하우스 ETL에 사용되지만, 오브젝트가 데이터 창고에 한정되지 않는다.
ETL이 데이터 세정 후, 원하는 데이터를 추출하는 소스 사용자로부터 데이터웨어 하우스 데이터 구축 최종 사전 정의 된 양호한 데이터웨어 모델에있어서 중요한 부분이며,이 데이터는 상기 데이터웨어 하우스에로드된다.
주전자 (공식 명칭 : 펜타 데이터 통합) JAVA 개발을 기반으로 오픈 소스 ETL 도구입니다 쉬운 시작 그래픽 인터페이스, 그래픽 GUI 디자인 인터페이스를 다음 양식 워크 플로우를 전송할 수, 숙련이 많이 감소시킬 수있다 R & D 노력, 업무의 효율성을 향상시킬 수 있습니다. 데이터 스테이지 가장 좋은 도구의 상용 버전에 추가됩니다
주전자는 데이터 변환을 추출뿐만 아니라 등 다른 데이터베이스, 엑셀 / CSV 및 기타 문서, 이메일, 웹 사이트 소스 크롤, 등 다양한 소스에서 데이터를 관리 할 수 있습니다, 또한 파일을 지원합니다 운영, 전자 메일, 변환 (트랜스) 및 워크 플로우 (작업) 작업에 설계된 그래픽 인터페이스를 제공함으로써 만들 수 있습니다.

주전자는 두 가지 스크립트 파일입니다, transformation하고 job.

  • Transformation(转换) 데이터 변환 완료 기준 이하로 약칭 트랜스
  • Job(作业)완료 워크 플로우 전체를 제어 할 수 있습니다. 작업의 집합으로 변환됩니다인가, 더 복잡한 논리를 달성했다.

Kettle 가족 : Spoon, Pan, Kitchen.

  • 그래픽 인터페이스를 숟가락 : ETL 디자인 변환 프로세스 (변환) 및 워크 플로우 (작업을).
  • 팬 무대 배치 : 일괄 변환 ETL 당신을 수 있습니다 숟가락 디자인 (트랜스)에 의해 실행됩니다. .
  • 주방 배경 일괄 : 스푼 디자인에 의해 실행되는 워크 플로우 배치 ETL 당신을 수 있습니다 (채용)

2. 설치

설치 : 다운로드, 설치 및 예비 주전자 학습 시리즈 (Windows 플랫폼)에서 주전자 사용
사용 : 주전자 자습서를 시작하기를

3. 실제 사용

3.1 새로운 트랜스 (변환) 만들기

주전자 변환은 가장 기본적인 작업을 정의하는 방법을 데이터 변환을합니다. 새로운 바로 가기가 변환되고 ctrl-N, 객체가 다양한 구성 요소가 완전한 변환을 위해 선택할 수있는 인터페이스 영역의 왼쪽 오른쪽 작업 공간, 어셈블리에 오른쪽으로 드래그합니다.
변환 텍스트의 유일한 데모 MySQL은, 그것은 단지 필요하다 输入-表输入, 转换-字段选择그리고 输出-文本文件输出이 세 가지 구성 요소는 작업을 완료 할 수 있습니다.
그림 삽입 설명 여기
시프트 다운 구성 요소, 보류를 선택 조립을 완료하기 위해 대상 지점으로 마우스를 드래그합니다.
각 구성 요소의 요구가 설정되는 두 번 클릭하여 편집 대화 상자를 열 수 있습니다 구성 요소를

  • 편집 테이블을 입력
    그림 삽입 설명 여기
  • 선택 편집 필드
    필드 선택 테이블을 사용하여 입력 및 출력 테이블을 감 수 있습니다
    그림 삽입 설명 여기
  • 편집 텍스트 출력
    -
  • 변환을 수행
    그림 삽입 설명 여기

3.2 작업 작업 만들기

동작의 일부 구성 요소 등의 전환을 포함하는 논리적 모음이다
그림 삽입 설명 여기

3.3 추출 변수

모든 변환, 작업이 사이트가 수행 할 수 있어야하지만 단지 시간에 작업이 서로 다른 환경에서 살고 그들이 추출 할 수 있다면, 다른 등 특정 IP, 경로, 많이 쓰고, 그것은 최고입니다 선택.

그냥 구성 파일 주전자 (이러한 매개 변수를 작성해야 kettle.properties,하실 수 있습니다) Windows에서이 파일은 사용자 디렉토리에 존재하는 .kettle文件夹下리눅스 시스템에서 사용자의 홈 디렉토리에이 파일 .kettle 디렉토리.
그림 삽입 설명 여기

3.4 데이터베이스 연결 공유

이전 단계에서 새 데이터베이스 연결을 생성하지만, 이러한 연결은 트랜스 독점 중 하나에 새로운 트랜스 필요 연결을 재 확립 할 때마다입니다, 이것은 당신이 할 수있는, 매우 귀찮은 작업이지만, 주전자 공유 기능이라는 기능을 제공합니다 데이터베이스 연결은 밖으로 공유.

"메인 오브젝트 트리 -DB 연결"에서 공유를 마우스 오른쪽 단추로 클릭 할 연결을 선택 选择共享하면됩니다. 공유 데이터베이스 링크가 굵은 글꼴로 표시됩니다
그림 삽입 설명 여기
데이터베이스 연결 실제로에서 동일 파일에 저장되어 .kettle가 다음 shared.xmlDB 연결을 공유 된 정보 저장, 파일.
그림 삽입 설명 여기

3.5 배포

그냥 톱, 새로운 트랜스와 작업은 별도의 파일입니다. 이러한 파일은 사이트에서 직접 실행할 수 있습니다 :

  • ETL 시스템의 현장에 배치 된 주전자 패키지, 팬, 주방 어디에 PATH 변수 디렉토리에 기록;
  • 구성 디렉토리 .kettle 配置文件shared.xml파일;
  • 미리 구성된 trans和job文件지정된 디렉토리 ETL 시스템에서;
  • 주방 실행 명령은 작업을 실행합니다.
  • 다음은 부엌 명령의 예입니다 :kitchen.sh -file=/path/demo.kjb -level-Minimal
게시 된 418 개 원래 기사 · 원의 찬양 (745) · 조회수 126 만 +

추천

출처blog.csdn.net/u013467442/article/details/89519789