ZB 수준의 빅 데이터 탐색과 실천의 응용 프로그램 "첨부 PPT"

보고서 2025에 따르면, 세계는 데이터 180ZB를 생성합니다. 데이터의 이러한 방대한 양의은 생산 요소의 핵심 기업 디지털 변환이다, 그러나, 10 % 미만 실질 실효 데이터 저장, 사용 및 분석입니다. 어떻게 ZB 자료 및 피드백의 분석에서 가치있는 정보를 찾으려면 사업 개발의 ​​핵심입니다. 11월 30일 UCAN 기술 살롱 빅 데이터 세션 (북경 역)는 자신의 빅 데이터 탐사 및 빅 데이터의 실제 응용 프로그램을 공유하는 다섯 명 수석 기술 전문가를 초대했다.

대형 데이터 트래픽 정규화 처리 수단 및 아키텍처의 진화

실제 비즈니스 문제를 해결하는 많은 개발자들은 종종 빅 데이터 프레임 워크의 혼란을 선택하는 방법에 직면. 예를 들어, 중합 작업에 필요한 억 데이터는 데이터를 HBase를 + 피닉스 쿠두 임팔라에 여전히 또는 스파크 + 그것에 수있다? 결국 운영 비용과 높은 성능을 충분히 결과를 줄일 수 종류의 개발 프로그램의 무엇을 할 수? UCloud 빅 데이터 엔지니어 리우 Jingze는 자신의 생각을 공유했습니다.

그 후, 데이터 저장소에 수집 찾는 다음 소스가 제 데이터 판정 데이터를 분석하여이 데이터를 요약하기 위해, 중합 마침내 애플리케이션 계층 데이터에 대한 계산된다. 대형 데이터 프레임은 현재 주류 시장 우리는 데이터 수집 계층, 데이터 저장 층, 데이터 계층과 애플리케이션 계층 데이터 계산으로 나누어 결론, 수백있다. 또한, 빅 데이터 기술 스택의 완전한 세트는 또한 작업 스케줄러, 클러스터 모니터링, 권한 관리 및 메타 데이터 관리를 포함한다.

ZB 수준의 빅 데이터 탐색과 실천의 응용 프로그램 "첨부 PPT"

복잡한 기술 스택의 종류의 많은 수의 얼굴은, 선택의 자유가 높고,하지만 전제가 열려 분할하는 강력한 프레임 워크에 의존하지 않는 것입니다. 아래와 같이 리우 Jingze 여기에 범용 아키텍처를 제공합니다 :

ZB 수준의 빅 데이터 탐색과 실천의 응용 프로그램 "첨부 PPT"

왼쪽 OLTP SDK의 그림은 배경 인터페이스를 의미, 당신은 빅 데이터 서비스를 많이 호출 할 수 있습니다. 데이터는 직접 카프카으로, 인터페이스 또는 플룸으로부터 수집하고 ES로 전송하고 ES 의해 모델링. 전체 프로세스는 매우 간단하지만,이 시스템 만 사용하여 ELK에 해당하지만, 그것은 또한 빅 데이터 프레임 워크입니다. 보다 큰 데이터, 회사의 사업의 넓은 범위를 위해, 그들은 종종 데이터가 차가운 대기 클러스터로 다음 HDFS를 사용할 수 있습니다, 원시 데이터 보존의 콜드 백업을 수행하는 데 필요한, 차가운 대기로 HDFS + 하이브는 매우 일반적인 시나리오입니다.

사업 개발의 ​​규모가 큰만큼이 경우 하나의 데이터 프레임 밖으로 끌어 오기가 완료되지 않은 경우, 중합은 작업 효율이 매우 낮다 그래서, 프레임이 가입 후 동시에 여러 작업을 필요로하고 있고, 어떤 작업을해야합니다. MySQL의 HBase와의 내부에 저장된 첫 번째 또는 비즈니스 데이터의 첫 번째 단계 :이 문제를 해결하기 위해, 당신은 큰 폭 테이블의 아이디어를 사용할 수 있습니다. 그런 다음 스파크 또는 FLINK, MySQL의 또는 HBase를 가입 오는 데 필요한 비동기 IO 차원 데이터의 방법으로 내부에서, 좋은 데이터가 HBase를에 존재할 수 가입 할 수 있습니다. 이 레이어에 데이터의 모든 차원은 매우 완료되었습니다. 분석의 중요한 지표가 수행 할 때, 우리는 그냥에 HBase와 데이터 내부 싶어. 예, 비즈니스 원하는 결과의 출력은 비즈니스 요구를 도킹 직접 피닉스 또는 HBase를, 임팔라와 Trafodion을 통해 매우 무거운 지수는 없습니다.

그런 발전, 무겁거나 비정상적인 동작, 데이터 처리, 그러나 OLTP를 다음 예비 중합을위한 프레임 워크를 계산 개의 스트림으로 상세 데이터 영역 HBase를 안팎 및 FLINK 스파크를 넣고 수 있다면 시스템은 백 오피스 서비스를 제공합니다.

눈에 보이는, 빅 데이터 기술 스택을 선택하고 통일 된 표준, 다양한 비즈니스 시나리오가 다른 치료를 필요가 없다. 리우 Jingze의 말처럼 "우리가 일치하는 프레임 워크에 직면 할 때 진정한 자유가 아니라 그들까지로 제한 될 경우 내부의 많은 장면에서, 알아?"

상기 계산 된 데이터 추상화 연습 격리 저장

빅 데이터의 탄생의 시작은, 많은 기업들이 대형 데이터 클러스터는 분산 된 데이터 센터의 클러스터의 파워와 저장 용량을 계산이며, 많은 서버를 포함하는 클러스터의 광대 한 배열, 구성되어있다. 이것은 오버 헤드를 프로세싱 데이터 송신 작업 결과시 열악한 네트워크 조건으로 인해 매우 큰 반면, 데이터를 줄이기 위해 빨리 메인 아이디어는 데이터 중심의 계산을하는 네트워크 전송에 비해 로컬 디스크 마이그레이션, 계산 효율을 개선,이 맵리 듀스의 가장 대표적인입니다.

사실,이 "리소스 풀"프로그램이 폐기물이 많이 발생, 스토리지 및 컴퓨팅 자원을 최대한 활용 할 수 없습니다, 또한 직면 한 어려움은 우리가 다른 데이터 어려운 위치 문제, 자원의 임시 배치와 어려움의 시리즈를 구별 할 수없는, 다양한 구성 요소를 업그레이드 문제. 대규모 확장이 크게 네트워크 속도, 메모리, 디스크, 반복적 인 빅 데이터 소프트웨어 업데이트를 향상과 함께, 어떻게 개선 클러스터 솔루션을 계산하기 이전 +를 저장? 대형 데이터 저장 이사 BLUECITY Liubao 리앙은 아래와 같이 분할 아키텍처는 계산 제안 :

ZB 수준의 빅 데이터 탐색과 실천의 응용 프로그램 "첨부 PPT"

내부 메모리가 분리 될뿐만 아니라, 내부 분리를 산출하는 동안 처음 별도로 저장 계산 산출 저장 분리를 달성했다. 가장 중요한 빅 데이터는 데이터이기 때문에 스토리지 클러스터는이 아키텍처의 핵심입니다 컴퓨팅 클러스터는이 아키텍처의 영혼이며, 모든 것이 컴퓨팅 클러스터의 유연성에 의해 초래되기 때문이다. 또한, 비 차단 네트워크는 가장 중요한 네트워크 문제로 인해에 대한 읽기 및 쓰기 작업을하면,이 아키텍처에 의존하고, 스토리지 클러스터의 출현은 평면이 될 수 없습니다.

별도의 저장이에, 리우 Baoliang 특별히 강조 컴퓨팅의 장점에 대해 말하면서 "유연성" 일시적으로 긴급 문제에 대응하기 위해 새 클러스터를 작성, 쉽게 멀티 클러스터 하드웨어 및 소프트웨어 업그레이드, 확장 가능한 데이터 처리로 인해, 그래서 더, 더 유연 연산 속도를 향상시킨다.

데이터 드라이버 - 실천 방법

관련 정보 통합 및 분석은 의사 결정 지침을 형성 한 후 소위 데이터 기반은 다양한 기술적 수단을 통해 데이터, 정보 및 집계 형태의 거대한 양을 수집한다. 여기 Shence 공동 설립자 힘의 최고 설계자는 폐쇄 루프를 형성하는 네 개의 단계들, 즉, 데이터 수집, 데이터 모델링, 데이터 분석의 데이터 피드백, 이들 네 가지 영역으로 요약 전체 데이터 구동 양태를 지불 강제 결국 데이터 수집에 반환하는 데이터 피드백이다.

데이터 수집은 모든 데이터 애플리케이션의 기초 기술 아키텍처 설계 자체 설정 될 때, 사업이 종료 할 수 있습니다, 타사 데이터, 클라이언트 취득의 네 가지 측면을 통해 오프라인 데이터는, 어떤 방법으로, 할 것을 권장합니다 통합 데이터는 이후의 데이터 모델링을 용이하게하기 위해 API, SDK를 또는 서버 측 데이터 수집 도구는 단일 데이터를 수신 할 액세스 할 수 있습니다.

ZB 수준의 빅 데이터 탐색과 실천의 응용 프로그램 "첨부 PPT"

第二步是数据建模,一个基础的数据模型分为三部分:事件、用户、实体,在此之上,还可以做用户分群,例如根据用户的年龄、性别、省份、手机设备等属性进行划分。数据建模的过程中有一个难点就是 ETL,在多数据源采集的情况下,很难找到直接可用的 ETL 产品,因此我们可以搭建好调度、计算框架、质量管理和元数据管理等通用工作,尽量把数据的源头建设好,从而降低运营成本。

第三步数据分析,这里有两种非常典型的思路:一种是通过例行的报表满足基本的指标获取需求,如果是临时性的需求就要通过新的开发解决;另一种是使用抽象的模型覆盖指标体系以及大部分分析需求,通过友好的交互让需要数据的人自主获取数据。后者的灵活性远远大于前者,而数据分析对灵活性的要求会远大于对响应时间的要求。除此之外,数据的可解释性以及整体架构的简洁性也是非常重要的考量因素。

数字时代业务风控的挑战与机遇

企业的业务、营销、生态、数据等正面临日益严重的黑产威胁,面对黑产链条完备、分工明确的形势,现有的风控方案面临着哪些挑战?

ZB 수준의 빅 데이터 탐색과 실천의 응용 프로그램 "첨부 PPT"

数美科技 CTO 梁堃归纳了三点:第一,防御能力单薄,依赖黑名单、依赖简单人工规则、单点防御(SDK、验证码);第二,防御时效性差,依赖 T+1 离线挖掘、策略生效周期长;第三,防御进化慢,缺乏策略迭代闭环、无自学习机制。那么如何改善以上这些问题并建立完整的风控体系呢?

梁堃认为一个全栈式风控体系应该包括布控体系、策略体系、画像体系和运营体系。在布控体系上,我们可以增加设备风险 SDK、增加登录注册保护、 提供业务行为保护。在策略体系上,可以对虚拟机设备农场等风险设备、对机器注册撞库***等风险操作、对欺诈团伙高危群体进行识别检测等。画像体系可以在多个场景进行数据打通,多行业联防联控,共同对抗黑产。运营体系可通过案例分析、***研究、策略的设计、研发、验证、上线、运营等环节形成完整的闭环进行运转,这样才能保证风控一直有效。

这些体系跑在什么样的架构上呢?首先风控系统要跟业务系统解耦,这样业务规则随时升级变化不会影响风控,风控规则的变化不会影响业务。另外一个风控平台结构需要包括多场景策略体系、实时风控平台和风险画像网络,如下图所示:

ZB 수준의 빅 데이터 탐색과 실천의 응용 프로그램 "첨부 PPT"

最后,这整个风控平台的架构是运行在云服务基础设施上的 7 个全球服务集群,每日请求量达 30 亿,峰值 QPS 高达 10 万 +。该架构可分为接入层、策略引擎层、模型引擎层和存储层,通过负载均衡管理每一层的节点,实现动态的横向扩展。

Spark 在 MobTech 应用实操分享

MobTech 作为全球领先的数据智能科技平台,目前累计覆盖设备量有 120 亿,服务开发者 32 万,累计接入 APP 数量达 50 万,庞大的数据量也给 MobTech 带来了诸多挑战,例如运行的 Yarn/Spark 任务多、数据体量大、资源开销大、运算时间较长等。

在 Mob 有大量复杂的任务,业务需求促使其将部分慢任务、Hive 任务迁移到 Spark 上面,取得性能的提升,同时还对一些 Spark 任务进行优化。MobTech 大数据技术架构师张峻滔围绕复杂的 Spark 使用分享了两个案例:第一个是 Spark 动态裁减在 MobTech 的应用。

所谓动态分区裁剪,就是基于运行时(run time)推断出来的信息来进一步进行分区裁剪。假设 A 表有 20 亿数据,B 表有 1000 万数据,然后把 A 表和 B 表 join 起来,怎么才能过滤掉 A 表中无用的数据,这里我们引入了 bloomfilter。它的主要特性就是节省空间,如果 bloomfilter 判断 key 不存在,那么就一定不存在;如果 bloomfilter 判断 key 存在,那么可能存在,也可能不存在。简而言之,这是一种牺牲精度来换取空间的数据结构。Bloomfilter 在 MobTech 具体应用实现如下图所示:

ZB 수준의 빅 데이터 탐색과 실천의 응용 프로그램 "첨부 PPT"

其逻辑 SQL 如下:

선택 / + 블룸 필터 (b.id) / (A) , (B) A B로부터 ON은이 = b.id 가입 a.id
번째 경우가 검색되고 수십억 스파크 레벨 데이터를 산출한다. MobTech 4,000 개 이상의 태그는 데이터의 차가운 얼굴은 어떻게 오버 헤드 검색 요청 자원에서 사업을 상대적으로 작다하기 위해, 주파수가 매우 낮은 되돌아 2 년에 역사적인 검토 및 소급 기간을 필요로? 데이터 분포가 너무 느슨하기 때문에, 4,000 개 이상의 라벨 간접적으로 데이터 수십억 수백보기로 검색을 유발, (수직) 내부의 일정에 내부에 다른 테이블 (가로), 히스토리 데이터 및 유통에 분산. 여기에, 색인의 개념은 두 가지이다 :

데이터 통합 가로 : 테이블에 통합되어 날짜 태그 4000 인덱스 데이터의 복수의
수직 데이터 통합 : 일일 레벨 데이터 주 / 월의 집적도.

그들이하기로 결정하므로 데이터의 일정의 수평 통합은 날짜와 ID 데이터 통합 ​​인덱스 테이블, 조회의 일정을 가속화하기 위해 ID를 통해 직접 위치 확인 할 수 있도록, 여전히 너무 큰 팩트 테이블 행에있는 특정 파일에 ID 정보. 델타 인덱스를 생성하는 API, ORC 파일명, 행 번호 정보를 통해 스파크 RDD의 ID 데이터 수집 일정; UDAF 인덱스 도입 총량에 의해 델타 인덱스. 다음과 같이 구체적인 프로그램은 다음과 같습니다 :

ZB 수준의 빅 데이터 탐색과 실천의 응용 프로그램 "첨부 PPT"

제한된 공간으로 인해, 그래서 GET 강사 PPT ~에 더 흥미로운 콘텐츠 기술 "UCloud 기술"및 응답 "빅 데이터"에 대한 계속 지켜봐 주시기 바랍니다

ZB 수준의 빅 데이터 탐색과 실천의 응용 프로그램 "첨부 PPT"

추천

출처blog.51cto.com/13832960/2456726