数据对接-ETL之StreamSet学习之旅一

StreamSet介绍

StreamSets是一个侧重数据集成、数据加工流程构建的平台,也是一个开源的产品。通过StreamSets,用户可以方便的接入不同的数据源,并且完成数据加工流程的构建。
SteamSets有可视化的数据流构建工具,并且能够对运行态的数据应用进行监控。该应用更侧重于数据的接入和数据流的构建、监控和管理
StreamSets数据操作平台是唯一旨在简化如何构建,执行和操作企业数据流的平台。构建在开源核心上,开发人员可以轻松构建批处理和流式数据流,而且代码少,而运营商使用云本地产品将数十或数百个数据流聚合到拓扑中,并通过实时可见性和性能控制集中管理。

根据StreamSet的介绍,我司准备引进其作为一款Api对接平台工具,与第三方的数据源进行对接,继而把数据流入到我司的SAAS平台。


在这里插入图片描述


StreamSet安装

安装StreamSet有多重方式,因为其是开源的项目,因此理论上你可以下载源代码,直接编译安装,这里介绍两种方式:

1. RPM安装

这里以Centos7.5为例进行安装。

导航至 https://streamsets.com/opensource ,按图示选择下载。
在这里插入图片描述
这个大家伙足足有5Gb,因此准备好足够的空间和耐心。
下载完成后,在该文件所在目录下执行如下命令:

tar xf streamsets-datacollector-<version>-<operating_system>-all-rpms.tar

解压好后,进入解压的目录内执行

yum localinstall streamsets*.rpm
systemctl start sdc

为了能在外部访问,检查下Centos的防火墙策略,允许需要的端口出去,这里简单粗暴的关闭防火墙:

systemctl stop firewalld.service

访问之:

http://<hostname>:18630/
默认账号和密码均为admin

2. Docker镜像安装

docker镜像官方已发布,因此步骤简单很多。

docker pull streamsets/datacollector
docker run --restart on-failure -p 18630:18630 -d --name streamsets-dc streamsets/datacollector dc

在这里插入图片描述

存储

镜像安装需要特别注意存储路径的问题,你需要把/data目录映射出来,否则建立的管道无法持久化。
全部安装的省略这些。

应用

StreamSet有可视化流程编辑界面,并且包括50种数据源、44种数据操作、46种目的地。
对于Streamsets来说,最重要的概念就是数据源(Origins)、操作(Processors)、目的地(Destinations)。创建一个Pipelines管道配置也基本是这三个方面。
StreamSet支持的源有Kafka、HTTP、UDP、JDBC、HDFS等;Processors可以实现对每个字段的过滤、更改、编码、聚合等操作;Destinations跟Origins差不多,可以写入Kafka、Flume、JDBC、HDFS、Redis等。
甚至可以直接建立HTTP微服务Api,以供第三方调用,强大的功能吸引我们继续去探索。


在此我向大家推荐一个微服务架构学习交流群。交流学习群号:864759589 里面会分享一些资深架构师录制的视频录像:高并发、高性能、分布式、微服务架构的原理,分布式架构等这些成为架构师必备的知识体系。
在这里插入图片描述


引用链接

  1. 口袋代码仓库
  2. 在线计算器
  3. 本节源码:github

猜你喜欢

转载自blog.csdn.net/webmote/article/details/84283557