FLINK 프로세스 및 기술 워터 마크 데이터와 지연 창

一 : 워터 마크

에센스 : 타임 스탬프

역할 : 순서가 이벤트를 처리

해당 장면 : 윈도우 작업은 시간 기반 이벤트를 수행하는

세대 주파수 : 기본값은 워터 마크에 데이터를 전송하지만, setAutoWatermarkInterval 워터 마크 간격 발행 된 매개 변수를 조정할 수있는 몇 가지 성능 향상이있을 것이다.

더 복잡한 경우는, 최소한, 예를 들어 wateramark 촬영되어 P1-> 12, P2-> 14 P3->도 8을 참조하면, 워터 마크는 최소 8 얻어

워터 마크 위치를 가져옵니다 : 가장 좋은 소스 다음

 

 

 

 

설명 : 소스 단부는 두 개의 동시 존재한다고 가정 wateramark 33의 복잡한 복잡 마크 (2)는 88이며,지도 후에 취득한 경우가 복잡하기 때문에 그 워터 마크 소스 (33), 작은하지만 워터 마크를 취할 수 있으며, 복수 인 아니오 동시 순서와 데이터를 wateramark 데이터 가능성 50되어야하지만, 생성 된 많은 워터 마크 데이터는 워터 마크가 최적의 소스를 얻었다되도록 상당한 데이터 손실을 초래하는하게는 50 이상이다.

2 : 창

2.1 유형 요약

창은 세 가지 유형, 시간 창, countwindow 및 사용자 정의 창으로 구분된다. 상기에서도. 미도 창 및 대화 창, 슬라이딩, 압연 창으로 나누어 시간 창, 그것은 일반적으로 창 압연 사용된다.

2.2 롤링 윈도우

창에 하나의 이벤트는, 윈도우가 겹치지 않는 동안 인공 창 크기가 설정됩니다.

윈도우 2.3을 슬라이딩

 

 

인공 윈도우 사이즈를 설정하고, 인위적으로 설정 슬라이드 양이 일정 윈도우 사이에 중첩 될 수있다 다수의 윈도우로 존재할 수있다.

 

2.4 세션 창

 

 

 

 어떤 윈도우 시작 및 종료 시간을 고정, 창하지 중첩 할 수 없습니다.

III : 스크램블 처리 데이터 윈도우의 워터 마크 문제 바인딩

 

 

 

 시간 스크램블 allowedLatest 허용 할 경우, 워터 마크를 생성하는이 시간 두 개념이있다.

通过运行结果可以看出:第一条数据进来的时候,生成一个窗口为[15,20),第二条数据进来的时候同样属于第一个窗口,当第三条数据进来的时候,产生的watermark大于第一个窗口的结束时间,所以第一个窗口触发计算,产生结果,当第四条数据进来的时候,由于第一个窗口还没有销毁并且属于第一个窗口,所以可以再次触发窗口运算,第一个窗口的销毁时间为2019-05-30 17:12:22,也就是当watermark的时间大于这个值的时候,再来属于该窗口的数据就属于延迟数据,不能触发运算,之后进来的数据依旧是如此。

추천

출처www.cnblogs.com/lyr999736/p/12092780.html