1.ETL 개념
ETL : 추출물 변환 부하 약어, 즉 데이터 抽取、转换、装载
처리. 이 용어는 일반적으로 더 많은 데이터웨어 하우스 ETL에 사용되지만, 오브젝트가 데이터 창고에 한정되지 않는다.
ETL이 데이터 세정 후, 원하는 데이터를 추출하는 소스 사용자로부터 데이터웨어 하우스 데이터 구축 최종 사전 정의 된 양호한 데이터웨어 모델에있어서 중요한 부분이며,이 데이터는 상기 데이터웨어 하우스에로드된다.
주전자 (공식 명칭 : 펜타 데이터 통합) JAVA 개발을 기반으로 오픈 소스 ETL 도구입니다 쉬운 시작 그래픽 인터페이스, 그래픽 GUI 디자인 인터페이스를 다음 양식 워크 플로우를 전송할 수, 숙련이 많이 감소시킬 수있다 R & D 노력, 업무의 효율성을 향상시킬 수 있습니다. 데이터 스테이지 가장 좋은 도구의 상용 버전에 추가됩니다
주전자는 데이터 변환을 추출뿐만 아니라 등 다른 데이터베이스, 엑셀 / CSV 및 기타 문서, 이메일, 웹 사이트 소스 크롤, 등 다양한 소스에서 데이터를 관리 할 수 있습니다, 또한 파일을 지원합니다 운영, 전자 메일, 변환 (트랜스) 및 워크 플로우 (작업) 작업에 설계된 그래픽 인터페이스를 제공함으로써 만들 수 있습니다.
주전자는 두 가지 스크립트 파일입니다, transformation
하고 job
.
Transformation(转换)
데이터 변환 완료 기준 이하로 약칭 트랜스Job(作业)
완료 워크 플로우 전체를 제어 할 수 있습니다. 작업의 집합으로 변환됩니다인가, 더 복잡한 논리를 달성했다.
Kettle 가족 : Spoon, Pan, Kitchen.
- 그래픽 인터페이스를 숟가락 : ETL 디자인 변환 프로세스 (변환) 및 워크 플로우 (작업을).
- 팬 무대 배치 : 일괄 변환 ETL 당신을 수 있습니다 숟가락 디자인 (트랜스)에 의해 실행됩니다. .
- 주방 배경 일괄 : 스푼 디자인에 의해 실행되는 워크 플로우 배치 ETL 당신을 수 있습니다 (채용)
2. 설치
설치 : 다운로드, 설치 및 예비 주전자 학습 시리즈 (Windows 플랫폼)에서 주전자 사용
사용 : 주전자 자습서를 시작하기를
3. 실제 사용
3.1 새로운 트랜스 (변환) 만들기
주전자 변환은 가장 기본적인 작업을 정의하는 방법을 데이터 변환을합니다. 새로운 바로 가기가 변환되고 ctrl-N
, 객체가 다양한 구성 요소가 완전한 변환을 위해 선택할 수있는 인터페이스 영역의 왼쪽 오른쪽 작업 공간, 어셈블리에 오른쪽으로 드래그합니다.
변환 텍스트의 유일한 데모 MySQL은, 그것은 단지 필요하다 输入-表输入
, 转换-字段选择
그리고 输出-文本文件输出
이 세 가지 구성 요소는 작업을 완료 할 수 있습니다.
시프트 다운 구성 요소, 보류를 선택 조립을 완료하기 위해 대상 지점으로 마우스를 드래그합니다.
각 구성 요소의 요구가 설정되는 두 번 클릭하여 편집 대화 상자를 열 수 있습니다 구성 요소를
- 편집 테이블을 입력
- 선택 편집 필드
필드 선택 테이블을 사용하여 입력 및 출력 테이블을 감 수 있습니다
- 편집 텍스트 출력
- 변환을 수행
3.2 작업 작업 만들기
동작의 일부 구성 요소 등의 전환을 포함하는 논리적 모음이다
3.3 추출 변수
모든 변환, 작업이 사이트가 수행 할 수 있어야하지만 단지 시간에 작업이 서로 다른 환경에서 살고 그들이 추출 할 수 있다면, 다른 등 특정 IP, 경로, 많이 쓰고, 그것은 최고입니다 선택.
그냥 구성 파일 주전자 (이러한 매개 변수를 작성해야 kettle.properties
,하실 수 있습니다) Windows에서이 파일은 사용자 디렉토리에 존재하는 .kettle文件夹下
리눅스 시스템에서 사용자의 홈 디렉토리에이 파일 .kettle 디렉토리.
3.4 데이터베이스 연결 공유
이전 단계에서 새 데이터베이스 연결을 생성하지만, 이러한 연결은 트랜스 독점 중 하나에 새로운 트랜스 필요 연결을 재 확립 할 때마다입니다, 이것은 당신이 할 수있는, 매우 귀찮은 작업이지만, 주전자 공유 기능이라는 기능을 제공합니다 데이터베이스 연결은 밖으로 공유.
"메인 오브젝트 트리 -DB 연결"에서 공유를 마우스 오른쪽 단추로 클릭 할 연결을 선택 选择共享
하면됩니다. 공유 데이터베이스 링크가 굵은 글꼴로 표시됩니다
데이터베이스 연결 실제로에서 동일 파일에 저장되어 .kettle
가 다음 shared.xml
DB 연결을 공유 된 정보 저장, 파일.
3.5 배포
그냥 톱, 새로운 트랜스와 작업은 별도의 파일입니다. 이러한 파일은 사이트에서 직접 실행할 수 있습니다 :
- ETL 시스템의 현장에 배치 된 주전자 패키지, 팬, 주방 어디에 PATH 변수 디렉토리에 기록;
- 구성 디렉토리 .kettle
配置文件
및shared.xml
파일; - 미리 구성된
trans和job文件
지정된 디렉토리 ETL 시스템에서; - 주방 실행 명령은 작업을 실행합니다.
- 다음은 부엌 명령의 예입니다 :
kitchen.sh -file=/path/demo.kjb -level-Minimal