소켓 스트림 스트림 처리 스트리밍 스파크 - NC 프로그램의 데이터 입력 소스를 작성

클라이언트 코드는 서버 정력 NetworkWordCount.py에 연결 수립 요청 시작
#을!를 / usr / 빈 / ENV python3
from__future__import print_function
가져 오기 SYS
pyspark 가져 오기 SparkContext에서
가져 오기 StreamingContext을 pyspark.streaming에서

__ == if__name " "
.합니다 (sys.argv에) = 3 :! 렌 경우
: 인쇄를 (파일 = sys.stderror "<. 호스트 이름, 포트> NetworkWordCount.py 사용법")
종료 (-1)
SC = SparkContext (APPNAME = "PSWC")
SSC = StreamingContext (SC ,. 1)
선 = ssc.socketTextStream (sys.arg, INT (sys.arg [2] [1.]))
카운트 = lines.flatMap (람다 라인 : line.split ( " "))지도 (람다 :. X (X ,. 1)) reduceByKey (람다 A, B :. A + B)
counts.pprint ()
ssc.start ()
ssc.awaitTermination ()
서버 측 코드 여기 온다 의 NC 프로그램
$이 창이 자동으로 단어 빈도 통계를 얻을 듣고, 새로운 창을 열고 데이터 소스를 입력,이 페이지에 입력는 NC 9999 #을 -lk 노스 캐롤라이나 난 듣기는 k는에도 시대의 많은 깨진 재 연결, 그냥 듣고 있었다 라인에 빈 포트는 9999 여기서 사용과
CD는 / usr / 지방 / 스파크 / MyCode / 스트리밍 / 소켓
/ usr / 지방 / 스파크 / 빈 / 로컬 호스트 9999 NetWorkWordCount.py을 스파크 제출

发布了25 篇原创文章 · 获赞 0 · 访问量 374

추천

출처blog.csdn.net/qq_45371603/article/details/104617169