[置顶] Apache Nifi技术内幕

1.1.2 数据流挑战
数据流(Data Flow)是用来抽象和概括各数据系统间数据交换和传递行为的专业术语。如果设计一个好的数据平台,主要面临以下一些挑战:
可靠性
企业往往会有很多数据系统,数据流负责将这些复杂的数据系统之间相互连接,所以数据系统的稳定性将直接影响连接这些系统的数据流的可靠性。
而数据流本身的网络不稳定、磁盘损坏问题、软件的Bug以及人为的操作失误等因素也都直接影响数据流可靠性。
数据缓冲
数据在传递的过程中往往需要进行复杂且耗时的运算和转换,以及最终消费或存储这些数据的系统端的处理能力等因素,都会导致数据流的生产和消费能力失衡,这就要求数据流有数据缓冲的能力来解决生产和消费能力的失衡问题。 
容错性
数据生产系统是多种多样的,且生产出来的数据质量也是参差不齐的。为了保证连接那些数据质量差的数据系统的数据流能正常稳定运行,数据流在设计时要充分考虑其必须拥有很强的容错性。
快速接入
随着业务的发展和需求的演变,不断的有新的数据接入需求。数据流如何快速的接入新的数据,是个巨大的挑战。
兼容性
数据系统都有各自的架构演进计划,例如数据生产系统对于生产出来的数据格式或者协议进行了变化调整,而此时数据消费或存储系统却由于种种原因而未能及时对新的调整变化作出相应的响应,此时为了保证数据流两端系统都能正常的工作,数据流本身就需要有能力兼容这种变化。
安全性
数据流中的数据有时候会涉及隐私以及企业的商业机密,数据流需要保证传输过程中数据的安全。
对于数据安全性有严格法律要求的区域机房来说,系统的安全性就显得尤为重要。
快速响应
随着业务的发展,不断有新的数据流需求以及对现有的数据流要优化调整需求。如何能快速的新建和优化调整一个现有的数据流,也是一个十分巨大的挑战。

猜你喜欢

转载自blog.csdn.net/wangmin1983/article/details/80031908