利用pipelinedb进行实时大数据统计应用

利用pipelinedb进行实时大数据统计应用

PipelineDB构建为在流数据上持续运行SQL查询。这些连续查询的输出存储在常规表中,可以像任何其他表或视图一样进行查询。
摘要和汇总; 在滑动时间窗口执行计算; 文本搜索过滤; 地理空间过滤等。通过减少其输入流的基数,PipelineDB可以显着减少需要保留到磁盘的信息量,因为只存储连续查询的输出。一旦读取需要读取的连续查询,原始数据将被丢弃。

  因此,通过PipelineDB传递的大部分数据可以被认为是虚拟数据。数据虚拟化的这一想法是PipelineDB所关心的核心,它使得它能够使用相对较小的硬件空间来非常有效地处理大量的数据。

  原始数据可以直接流式传输到PipelineDB中,并通过您已经声明的连续查询实时进行细化和蒸馏。这样就可以在将精细的输出加载到数据库之前定期处理粒度数据,只要这个处理可以由SQL查询定义。

猜你喜欢

转载自ye-guanwen.iteye.com/blog/2378979