실제 분석: 데이터 기반 의사결정을 강화하기 위한 위험 제어 특성 변수 플랫폼 생성

금융 비즈니스 상품의 신용 액세스 및 거래 마케팅과 같은 측면에서 광범위한 위험 제어 요구 사항이 있습니다. 비즈니스 유형이 증가함에 따라 기존의 전문가 규칙 및 스코어카드 모델은 점점 더 복잡해지는 위험 제어 시나리오에 대처할 수 없습니다.

전문가 규칙 시스템이 주류 애플리케이션인 전통적인 위험 통제의 맥락에서 규칙 모델의 입력 습관을 "변수"라고 합니다. 전문가 규칙을 기반으로 한 위험 평가는 규칙 트리거 임계값을 정량화하기 어렵고 규칙 적중의 정확도를 높이는 데 병목 현상이 발생하는 특성이 있습니다.

기계 학습 및 신경망 알고리즘의 기술적 구현으로 인해 알고리즘 모델에 제공되는 입력 매개변수를 참조하는 데 점점 더 많은 "기능" 이 사용되기 시작했습니다 . 구체적으로, "기능"은 출력 프로세스 동안 업스트림 외부 인터페이스의 출력 매개변수 역할을 하고, 애플리케이션 측 입력 프로세스 동안 다운스트림 규칙 모델의 입력 매개변수 역할을 합니다.

건설 배경

특징 변수 데이터 소스에는 기본 고객 정보, 재무 상태, 소비 행동 및 소셜 네트워크 그래프 등이 포함되며, 이는 차용자의 신용 상태 및 위험 수준을 반영하기 위해 다양한 위험 관리 모델 에 입력됩니다. 효율적인 특징 추출 관리는 일련의 온라인입니다. 위험 통제 조치를 위한 데이터 기반.

은행, 보험회사 등 금융 기관에서는 리스크 비즈니스 소스의 조직 구조가 복잡하기 때문에 필연적으로 서로 다른 라인 간의 특성 변수가 굴뚝식으로 개발되는 경우가 많습니다. 전략 모델러의 데이터 요구 사항은 특정 특정 항목으로 제한되는 경우가 많습니다. 제품이 개발 및 배포되었으나 통합된 관리 및 공유 플랫폼 메커니즘이 형성되지 않아 기업 간 데이터 사용 및 정책 생성의 일관성이 벗어났습니다.

따라서 특성변수의 도출, 저장, 호출, 모니터링을 표준화하기 위해 리스크 비즈니스 데이터 프로세스의 추상화를 더욱 상품화할 필요가 있으며, 통합된 리스크 통제 특성변수 플랫폼 도 등장했습니다.

문제점 분석

위험 통제 작업 개발 시나리오에서 모델 작업은 미리 개발된 변수 저장 테이블에서 숫자를 가져옵니다. 실제 개발에는 기능 개발 및 배포에 대한 높은 임계값, 복잡한 기능 추출의 어려움, 일관되지 않은 기능 적용 수준, 일관되지 않은 기능 처리 프로세스 등 비즈니스 및 개발 문제가 있는 경우가 많습니다.

01 실시간 특성변수 개발의 문턱이 높다

리스크 관리 비즈니스 관련 전략 모델러의 기술 스택은 주로 Python 및 SQL 기능을 기반으로 합니다. Java 의미론을 기반으로 한 Flink 개발에는 오프라인 데이터, 실시간 기능을 기반으로 한 모델 교육 및 배포에 대한 특정 학습 비용이 있습니다. 처리 능력이 부족합니다.

02 복잡한 특징변수 추출이 어렵다

일부 외부 데이터 소스 인터페이스의 반환 메시지에는 중첩된 수준이 많고, 매개변수 위치가 혼란스럽고, 인터페이스를 얻기 어렵고, 추출된 기능에 대한 통합 플랫폼 관리 및 유지 관리가 부족합니다.

03 특성변수의 적용정도가 일관되지 않다

위험 제어 모델을 구축할 때 모델 작업에는 동일한 기능 변수 요구 사항이 있지만 다른 팀이나 다른 프로젝트에서 동일한 원본 데이터에 대해 기능 엔지니어링 처리가 반복되어 이후 해당 SQL의 일관성과 정확성이 발생하는 상황이 있습니다. 기능 변수 논리가 변경되었습니다.

04 특징변수 처리과정을 일원화하기 어렵다

다운스트림 전략 및 모델 측의 새로운 기능 변수에 대한 요구 사항에는 일관되고 표준화된 처리 경로가 부족하여 해당 변수 테이블에서 들어오고 나가는 매개 변수의 이름이 혼동됩니다. 새 필드가 추가되면 업스트림 테이블을 읽을 수 없습니다. 파생된 기능과 변수 세트 의 구성으로 인해 작업 규모와 리소스 사용량을 제어하기 어려운 경우가 많습니다.

리스크 통제 특성변수 시스템 구축 방안

리스크 통제 특성변수 시스템 구축은 금융기관의 실시간 리스크 식별과 예방 및 통제에 중점을 두고 있으며 , 다소스 이기종 데이터의 일괄추출, 집계, 파생처리를 통해 표준화되고 확장이 용이한 통일된 특성변수 플랫폼입니다. 데이터 액세스, 특징 변수 생성 , 다운스트림 모델 교육 및 의사결정 실행을 위한 데이터를 제공하는 엔드투엔드 폐쇄 루프를 실현하여 위험 이벤트 응답 속도와 의사결정 정확도를 향상시킵니다.

01 기술역량

위험 제어 비즈니스는 고객 거래, 신용 승인 및 기타 시나리오에서 실시간 데이터 처리 요구 사항에 직면하는 경우가 많습니다. 스트림 컴퓨팅은 고객 신용 등급, 한도 제어 및 기타 위험 정보를 실시간으로 업데이트하여 실시간 교차 시스템 위험 식별 기능을 제공할 수 있습니다. 다운스트림 의사결정 엔진용.

파일

실시간 위험 제어 기술 시스템 아키텍처 에서 컴퓨팅에는 배치 컴퓨팅, 스트림 컴퓨팅 및 그래프 컴퓨팅이 포함됩니다. 스트림 컴퓨팅 기능을 예로 들면 Flink는 주로 데이터 ETL, 와이드 테이블 에 사용되는 기본 실시간 기능 컴퓨팅 기능을 제공합니다. 처리 및 창 처리 컴퓨팅, 듀얼 스트림 조인 및 기타 시나리오, 사전 계산, 상태 집계 계산 및 기타 기능을 통해 원래 기능 변수, 표준 기능 변수 및 파생 기능 변수 처리가 실현되어 기능 지원을 제공합니다. 의사결정 모델.

모델 엔진은 주로 신용 점수 모델, 사기 탐지 모델 , 이탈 경고 모델 등과 같은 다양한 학습된 모델을 저장하고 관리하는 역할을 담당합니다.

의사결정 엔진은 규칙 세트, 의사결정 트리, 의사결정 매트릭스, 스코어카드 등의 정책 모델을 중앙에서 관리합니다. 규칙 세트는 모델 엔진의 특징 변수 서비스 및 모델 서비스를 호출하여 의사결정 흐름의 논리적 작업에 참여합니다.

특징변수 엔진은 이기종 데이터 소스를 기반으로 데이터 추출, 처리 및 계산, 표준화된 관리 및 유지 관리를 수행하고, 리스크 관리 담당자의 셀프 서비스 쿼리를 가능하게 하여 비즈니스 데이터 검색 및 데이터 분석을 보다 편리하고 표준화합니다.

파일

02 데이터 소스

신용 비즈니스 데이터 소스를 예로 들면, 다양한 신용 기관에 따라 일반적으로 To C 개인 신용과 To B 기업 신용으로 나눌 수 있습니다. 실제 비즈니스 검토에서 계정 관리자는 일반적으로 현금 흐름 수준과 부채 수준이라는 두 가지 지표를 기반으로 고객 신용의 타당성을 분석합니다.

개인 신용 시나리오에서 고객 현금 흐름 수준은 사회 보장 지불, 은행 및 제3자 지불 플랫폼 소득 흐름으로 분류될 수 있습니다. 책임 수준은 주로 중국 인민은행 신용 보고서에서 나옵니다. 여기에는 개인 이름으로 금융 기관이 발행한 모든 대출, 위험 노출이 있는 금융 상품 및 외부 보증 정보가 포함됩니다. 중국 인민 은행 신용 보고서 데이터도 포함됩니다. 출처에는 Baihang Credit Information, Pudao Credit Information 및 Qiantang Credit Information과 같은 기타 제3자 개인 허가 신용 보고서가 포함됩니다.

기업신용 시나리오에서는 소액 및 소액포괄대출의 위험원이 실제 통제자에 집중되어 있으며, 실제 통제자의 개인흐름 외에 현금흐름 수준도 기업계좌흐름에서 동시에 수집되며, 부채수준도 추가로 집계됩니다. 중국 인민은행의 기업 신용 보고서에서 액세스할 수 있습니다. 중·대기업 신용공여 및 산업별 대출의 경우, 신용세금 데이터를 기반으로 주요 주체의 리스크 행동 사건을 직접 측정하기가 어렵고, 중소기업에 대한 포괄대출과 달리 오프라인 실사가 더 필요합니다. 회사의 현장 재고 및 계열사 운영 조건과 결합됩니다.

위의 두 가지 유형의 신용 비즈니스의 경우 기능 처리는 종종 다음과 같은 다차원 데이터 소스를 수집합니다.

파일

03 데이터 처리

다양한 위험 제어 시나리오의 데이터 소스에 대해 배치, 스트림, 사전 계산 및 기타 모드를 통합하는 기능 가변 처리 방법을 사용하여 비즈니스 요구 사항과 저장 및 계산 비용 제어의 민첩한 개발을 달성합니다.

일괄 컴퓨팅: 대규모 과거 데이터 세트의 경우 일괄 처리를 사용하여 특성 변수를 처리합니다. 데이터의 누락값, 이상값 등의 문제를 보간, 평활화 등의 방법으로 처리하여 데이터 품질을 확보합니다.

스트림 컴퓨팅: 실시간 데이터 스트림의 경우 기능 변수 처리에 스트림 처리 모드가 사용됩니다. 실시간 스트림 처리 기술을 통해 실시간 데이터 분석이 실현되어 위험 제어 시나리오의 실시간 요구 사항을 충족합니다. 동시에 데이터 처리의 효율성과 유연성을 보장하기 위해 이벤트 중심 아키텍처가 채택되었습니다.

사전 계산: 비즈니스 시스템 데이터의 경우 변경 빈도에 따라 특성 변수를 사전 계산하고 저장합니다. 이를 통해 흐름 계산 비용을 효과적으로 줄이고 특성 엔진에서 데이터를 가져올 때 의사 결정 시스템의 효율성을 높일 수 있습니다.

04 플랫폼 구축

구체적으로 특성 변수 플랫폼은 신용 보고 시스템, 제3자 데이터 소스, 기업 내부 시스템 등 다양한 소스의 데이터를 통합하고 일괄 처리 기능의 파생 처리를 수행하여 위험 제어 모델의 입력 요구 사항을 지원해야 합니다. 다양한 비즈니스 시나리오. 다양한 복잡성의 기능 변수에 대해 구성 가능한 비즈니스 중심의 로우 코드 처리 방법을 지원합니다. 따라서 특성 변수 플랫폼의 구성에는 일반적으로 다음과 같은 측면이 포함됩니다.

1. 특징 변수 추출 및 생성, 자동화된 데이터 정리 및 전처리, 원시 데이터를 모델링에 사용할 수 있는 특징으로 변환합니다. 캔버스 + 컴포넌트 기반의 원스톱 WEB IDE 모델을 제공하여 개발 효율성을 높이고 사용자 정의 또는 시스템 내장 기능 계산 로직을 지원합니다.

2. 변수 저장 및 관리 기능

분산 저장 메커니즘을 기반으로 대규모 이력 및 실시간 특성 데이터를 저장합니다. 기능 버전 제어를 구현하고, 기능 계산 로직의 변경 내역을 기록하고, 모델 교육을 특정 버전의 데이터로 추적할 수 있는지 확인하세요.

3. 특성변수의 서비스화

다양한 모델 학습, 예측, 의사결정 엔진에 대한 실시간 또는 일괄 기능 쿼리 서비스를 제공하기 위한 기능 서비스 인터페이스를 제공합니다. 출력 구성 요소를 통해 다운스트림 규칙 엔진, 실시간 데이터 웨어하우스 및 메시지 대기열에 빠르게 연결하여 복잡한 비즈니스 시나리오에서 낮은 대기 시간과 높은 동시 액세스에 대한 성능 요구 사항을 충족할 수 있습니다.

4. 특성변수의 탐색 및 분석

분석가가 특징 변수 분포, 상관 관계 등을 빠르게 이해할 수 있도록 풍부한 통계 분석 도구를 제공합니다. 시각적 인터페이스에는 기능 선택 및 반복을 지원하는 기능 중요도, 영향 및 기타 지표가 표시됩니다.

5. 내부 및 외부 시스템과의 통합

금융기관 내부 거래 시스템, CRM 시스템, ERP 시스템 등 다양한 데이터 소스를 통합합니다. 기타 위험 제어 구성요소 (예: 규칙 엔진, 모델 라이브러리 등) 및 외부 신용 보고와 같은 제3자 데이터 서비스 제공업체와의 연결을 지원합니다.

05 건설수익

은행의 고객 특성 변수 프로젝트 구현 시 플랫폼은 사전 대출 신용 시나리오에서 특성 변수의 처리 및 파생 관리 요구 사항을 충족하고 외부 운영자, 산업 및 상업, 사법 데이터 등 다양한 업스트림 데이터 소스와 연결됩니다. 및 대출 전 수집된 은행 내부 고객 장비 정보, 계좌 거래 정보, 한도 계산 데이터. 실시간 특징 변수 계산 기능을 통해 스코어카드와 같은 다운스트림 모델에 적용하여 데이터를 제공할 수 있습니다.

파일

1. 구성요소 기반의 특징변수 추출

플랫폼은 SQL 명령에서 일괄적으로 기능 변수를 구문 분석합니다. 모델 작업의 데이터 수집 요구 사항에 대해 사용자는 플랫폼에서 필요한 기능 변수를 자유롭게 처리하고 결합하고 읽고 처리하기 위해 해당 테마 하이브 테이블에 쓸 수 있습니다.

2. 기능 변수 세트의 동기 업데이트

이 페이지는 기능 변수 세트 추가, 삭제 및 편집을 지원하며 플랫폼 테이블 구조 작업은 물리적 모델 테이블에 자동으로 동기화됩니다. 기능 변수의 논리가 변경되면 해당 표준 기능 변수 파생 코드 또는 원래 기능 변수 표준화 작업만 편집하면 대규모 SQL 함수의 복잡한 개발을 피할 수 있습니다.

3. 안정성 및 이상 모니터링

플랫폼에서 제공하는 모니터링 대시보드 기능은 특성변수의 변동에 대한 모니터링과 변수 집합 호출을 지원합니다. 특성변수 값의 모니터링을 통해 업스트림 데이터에 이상이 있을 경우 다운스트림 작업이 적시에 중단됩니다. 모델 사용 시 특성변수의 과도한 차이로 인해 발생하는 문제 회피 가능성 극대화, 각 변수 세트의 호출 상태에 대한 통계, 기준 알람 및 강약 규칙 검증 정보 의 실시간 푸시.

4. 통합 플랫폼 관리 및 제어

플랫폼은 회원 관리, 승인 센터, 통화 분석, 자동 보관, 작업 재시작 및 기타 관리 및 제어 방법을 제공하고 작업 우선 순위 조정을 지원하며 작업 작업 일정을 균일하게 예약하여 데이터 서비스 성능 및 클러스터 리소스 활용도를 향상시킵니다.

이 플랫폼은 소비자 대출, 소액 및 소액 신용 대출, 기타 기업을 위한 30개 이상의 신용 시나리오를 포괄하고 지원하는 온라인으로 배포되었습니다. 특성변수 플랫폼은 다운스트림 규칙 모델 엔진과 결합하여 위험 관리 시나리오에서 실시간 의사결정 기능 구현을 실현합니다. 이는 신용카드 신청 및 대출 승인에서 사용자의 고객 경험 및 대출 효율성을 향상하려는 요구를 충족합니다. 또한 대출 후 수집, 거래 사기 방지 및 기타 시나리오에 대한 데이터를 제공하여 사용자의 비정상적인 거래 행위를 실시간으로 모니터링하고 자금 세탁 방지 신원 식별을 수행하는 다운스트림 시스템을 지원합니다. , 실시간 알람을 푸시합니다.

"Dutstack 제품 백서" 다운로드 주소: https://www.dtstack.com/resources/1004?src=szsm

"데이터 거버넌스 산업 실무 백서" 다운로드 주소: https://www.dtstack.com/resources/1001?src=szsm

빅데이터 제품, 산업 솔루션, 고객 사례에 대해 더 알고 싶거나 상담하고 싶은 분들은 Kangaroo Cloud 공식 홈페이지( https://www.dtstack.com/?src=szkyzg )를 방문해 주세요.

Linus는 커널 개발자가 탭을 공백으로 대체하는 것을 막기 위해 스스로 노력했습니다. 그의 아버지는 코드를 작성할 수 있는 몇 안되는 리더 중 한 명이고, 둘째 아들은 오픈 소스 기술 부서의 책임자이며, 막내 아들은 오픈 소스 코어입니다. 기고자 Robin Li: 자연 언어 새로운 범용 프로그래밍 언어가 될 것입니다. 오픈 소스 모델은 Huawei에 비해 점점 더 뒤쳐질 것입니다 . 일반적으로 사용되는 5,000개의 모바일 애플리케이션을 Hongmeng으로 완전히 마이그레이션하는 데 1년이 걸릴 것입니다. 타사 취약점. 기능, 안정성 및 개발자의 경험이 크게 개선된 Quill 2.0 출시되었습니다. Ma Huateng과 Zhou Hongyi는 "원한을 제거하기 위해" 공식적으로 출시되었습니다. Laoxiangji의 소스는 코드가 아닙니다. Google이 대규모 구조 조정을 발표한 이유는 매우 훈훈합니다.
{{o.이름}}
{{이름}}

추천

출처my.oschina.net/u/3869098/blog/11045960