Análise prática: Crie uma plataforma variável de características de controle de risco para capacitar a tomada de decisões baseada em dados

Existem extensos requisitos de controlo de risco em aspectos como o acesso ao crédito e a comercialização de transacções de produtos empresariais financeiros. À medida que os tipos de negócios aumentam, as regras especializadas tradicionais e os modelos de scorecard são incapazes de lidar com cenários de controlo de risco cada vez mais complexos.

No contexto do controle de risco tradicional, onde os sistemas de regras especializadas são a aplicação principal, os hábitos de entrada dos modelos de regras são chamados de “variáveis”. A avaliação de risco baseada em regras especializadas tem as características de que é difícil quantificar o limite de acionamento das regras e há um gargalo na melhoria da precisão dos acertos das regras.

Com a implementação técnica de algoritmos de aprendizado de máquina e de redes neurais, cada vez mais "recursos" estão começando a ser usados ​​para se referir aos parâmetros de entrada fornecidos ao modelo de algoritmo . Especificamente, "recursos" servem como parâmetro de saída da interface externa upstream durante seu processo de saída e servem como parâmetro de entrada do modelo de regra downstream durante o processo de entrada do lado do aplicativo.

fundo de construção

As fontes de dados variáveis ​​​​de recursos incluem informações básicas do cliente, situação financeira, comportamento de consumo e gráficos de redes sociais, etc., que são inseridos em diferentes modelos de controle de risco para refletir o status de crédito e o nível de risco do mutuário. O gerenciamento eficiente de extração de recursos é uma série de recursos on-line. base de dados para ações de controle de risco.

Em instituições financeiras, tais como bancos e companhias de seguros, devido à complexidade da estrutura organizacional das fontes de negócios de risco, há inevitavelmente um desenvolvimento em estilo chaminé de variáveis ​​características entre diferentes linhas. As necessidades de dados dos modeladores de estratégia são muitas vezes limitadas a um determinado número. produto. Ele foi desenvolvido e implantado, mas não formou um mecanismo unificado de plataforma de gerenciamento e compartilhamento, resultando em desvios na consistência do uso de dados e na geração de políticas entre as empresas.

Portanto, é necessário produzir ainda mais a abstração do processo de dados de negócios de risco para padronizar a derivação, armazenamento, chamada e monitoramento de variáveis ​​características, e também surgiu uma plataforma unificada de variáveis ​​características de controle de risco .

Análise do ponto problemático

No cenário de desenvolvimento da tarefa de controle de risco, a tarefa do modelo busca números da tabela de armazenamento de variáveis ​​pré-desenvolvida. No desenvolvimento real, muitas vezes há pontos problemáticos de negócios e desenvolvimento, como alto limite para desenvolvimento e implantação de recursos, dificuldade em extrair recursos complexos, calibres de aplicativos de recursos inconsistentes e processos de processamento de recursos inconsistentes.

01 O limite para o desenvolvimento de variáveis ​​de recursos em tempo real é alto

A pilha de tecnologia de modeladores de estratégia relacionados a negócios de controle de risco é baseada principalmente em recursos Python e SQL. Há um certo custo de aprendizado para o desenvolvimento do Flink baseado na semântica Java, além do treinamento e implantação do modelo com base em dados offline, recursos em tempo real. as capacidades de processamento são insuficientes.

02 É difícil extrair variáveis ​​de recursos complexos

As mensagens de retorno de algumas interfaces de fontes de dados externas têm muitos níveis aninhados, a localização dos parâmetros é confusa, a interface é difícil de obter e há falta de gerenciamento e manutenção de plataforma unificada para recursos extraídos.

03 O calibre do aplicativo das variáveis ​​de recurso é inconsistente

Ao construir um modelo de controle de risco , as tarefas do modelo têm os mesmos requisitos de variáveis ​​​​de recursos, mas há situações em que o processamento de engenharia de recursos é repetido para os mesmos dados originais em diferentes equipes ou projetos diferentes, resultando na consistência e precisão do SQL correspondente após a questão da lógica da variável de recurso é alterada.

04 É difícil unificar o processo de processamento de variáveis ​​​​de recursos

Os requisitos para novas variáveis ​​de recurso na estratégia downstream e no lado do modelo carecem de um caminho de processamento consistente e padronizado, resultando em nomenclatura confusa de parâmetros de entrada e saída na tabela de variáveis ​​correspondente. Quando os novos campos são adicionados, a tabela upstream não pode ser lida. o SQL original, resultando em operações de junção aninhadas mais complexas. Com a configuração de recursos derivados e conjuntos de variáveis , a escala de tarefas e o uso de recursos costumam ser difíceis de controlar.

Plano de construção de sistema variável de característica de controle de risco

A construção de um sistema de variáveis ​​​​características de controle de risco concentra-se na identificação e prevenção e controle de riscos em tempo real das instituições financeiras . Por meio da extração em lote, agregação e processamento de derivativos de dados heterogêneos de múltiplas fontes, uma plataforma unificada de variáveis ​​​​características padronizada e fácil de expandir. é precipitado para realizar o acesso aos dados, apresenta geração de variáveis , ciclo fechado ponta a ponta que fornece dados para treinamento de modelo downstream e execução de decisões, melhorando a velocidade de resposta a eventos de risco e a precisão da tomada de decisões.

01 Capacidades técnicas

Os negócios de controle de risco muitas vezes enfrentam requisitos de processamento de dados em tempo real . Nas transações dos clientes, na aprovação de crédito e em outros cenários, a computação em fluxo pode atualizar as classificações de crédito dos clientes, limitar o controle e outras informações de risco em tempo real, fornecendo recursos de identificação de risco entre sistemas em tempo real. para mecanismos de tomada de decisão a jusante.

arquivo

Na arquitetura do sistema de tecnologia de controle de risco em tempo real , a computação inclui computação em lote, computação de fluxo e computação gráfica. Tomando como exemplo os recursos de computação de fluxo, o Flink fornece recursos subjacentes de computação de recursos em tempo real, que são usados ​​principalmente para ETL de dados e tabela ampla . processamento e processamento de janela, junção de fluxo duplo e outros cenários, por meio de pré-cálculo, cálculo de agregação de estado e outros recursos, o processamento de variáveis ​​​​de recurso originais, variáveis ​​​​de recurso padrão e variáveis ​​​​de recurso derivadas é realizado para fornecer suporte de recurso para. modelos de tomada de decisão.

O mecanismo de modelo é responsável principalmente por armazenar e gerenciar diversos modelos treinados, como modelos de pontuação de crédito, modelos de detecção de fraude , modelos de alerta de rotatividade, etc.

O mecanismo de decisão gerencia centralmente modelos de política, como conjuntos de regras, árvores de decisão, matrizes de decisão e scorecards. O conjunto de regras chama o serviço de variável de recurso e o serviço de modelo do mecanismo de modelo para participar da operação lógica do fluxo de decisão.

Com base em fontes de dados heterogêneas, o mecanismo variável de recursos realiza extração, processamento e cálculo de dados, gerenciamento e manutenção padronizados e permite consultas de autoatendimento pela equipe de controle de risco, tornando a recuperação e análise de dados de negócios mais conveniente e padronizada.

arquivo

02 Fonte de dados

Tomando como exemplo a fonte de dados de negócios de crédito, de acordo com diferentes entidades de crédito, ela geralmente pode ser dividida em crédito pessoal To C e crédito corporativo To B. Nas análises reais de negócios, os gerentes de contas geralmente analisam a viabilidade do crédito ao cliente com base em dois indicadores: nível de fluxo de caixa e nível de endividamento.

No cenário de crédito pessoal, os níveis de fluxo de caixa dos clientes podem ser decompostos em pagamentos previdenciários, fluxo de receitas de bancos e plataformas de pagamentos de terceiros. O nível de responsabilidade provém principalmente do relatório de crédito do Banco Popular da China, que abrange todos os empréstimos emitidos por instituições financeiras em nome de um indivíduo, produtos financeiros que ocupam exposições de risco e informações sobre garantias externas. as fontes incluem outros relatórios de crédito licenciados individuais de terceiros, como Baihang Credit Information, Pudao Credit Information e Qiantang Credit Information.

No cenário de crédito corporativo, as fontes de risco de pequenos e micro empréstimos inclusivos estão concentradas no próprio controlador. Além do fluxo pessoal do controlador real, o nível de fluxo de caixa é coletado simultaneamente do fluxo da conta corporativa, e o nível de responsabilidade é adicionalmente. acessado do relatório de crédito corporativo do Banco Popular da China. No âmbito da concessão de crédito a médias e grandes empresas e de empréstimos específicos à indústria, os eventos de comportamento de risco das principais entidades são difíceis de medir diretamente com base em dados fiscais de crédito. Diferentemente dos empréstimos inclusivos para pequenas e microempresas, são necessárias mais diligências off-line. a ser combinado com o estoque local da empresa e as condições operacionais das empresas afiliadas.

Para os dois tipos de empresas de crédito acima, o processamento de recursos geralmente coleta as seguintes fontes de dados multidimensionais:

arquivo

03 Processamento de dados

Para fontes de dados em diferentes cenários de controle de risco, métodos de processamento variável que integram lote, fluxo, pré-cálculo e outros modos são usados ​​para alcançar o desenvolvimento ágil das necessidades de negócios e controle de custos de armazenamento e cálculo.

Computação em lote: para conjuntos de dados históricos em grande escala, o processamento em lote é usado para processar variáveis ​​de recursos. Problemas como valores ausentes e valores discrepantes nos dados são processados ​​usando métodos como interpolação e suavização para garantir a qualidade dos dados.

Computação de fluxo: para fluxos de dados em tempo real, o modo de processamento de fluxo é usado para processamento de variáveis ​​de recurso. Através da tecnologia de processamento de fluxo em tempo real , a análise de dados em tempo real é realizada para atender aos requisitos em tempo real dos cenários de controle de risco. Ao mesmo tempo, é adotada uma arquitetura orientada a eventos para garantir a eficiência e flexibilidade do processamento de dados.

Pré-computação: Para dados do sistema de negócios, pré-calcule e armazene variáveis ​​de recursos de acordo com sua frequência de alteração, o que pode efetivamente reduzir os custos de cálculo de fluxo e melhorar a eficiência do sistema de tomada de decisão na busca de dados do mecanismo de recursos.

04 Construção da plataforma

Especificamente, a plataforma variável característica precisa integrar dados de múltiplas fontes, como sistemas de relatórios de crédito, fontes de dados de terceiros e sistemas corporativos internos, e realizar processamento derivado de capacidades de lote, de modo a apoiar os requisitos de entrada dos modelos de controle de risco em diferentes cenários de negócios. Oferece suporte a métodos de processamento de baixo código configuráveis ​​e orientados para negócios para variáveis ​​de recursos de diferentes complexidades. Portanto, a construção de uma plataforma variável de recursos geralmente inclui os seguintes aspectos:

1. Extração e geração de variáveis ​​de recursos, limpeza e pré-processamento automatizado de dados, conversão de dados brutos em recursos que podem ser usados ​​para modelagem. Fornece um modelo WEB IDE completo baseado em tela + componente para melhorar a eficiência do desenvolvimento e oferece suporte à lógica de cálculo de recursos definida pelo usuário ou integrada ao sistema.

2. Recursos de armazenamento e gerenciamento de variáveis

Baseado em um mecanismo de armazenamento distribuído , ele armazena dados históricos e característicos em tempo real em grande escala. Implemente o controle de versão do recurso, registre o histórico de alterações da lógica de cálculo do recurso e garanta que o treinamento do modelo possa ser rastreado até uma versão específica dos dados.

3. Servitização de variáveis ​​características

Fornece uma interface de serviço de recursos para fornecer serviços de consulta de recursos em tempo real ou em lote para vários mecanismos de treinamento de modelo, previsão e tomada de decisão. Por meio do componente de saída, você pode conectar-se rapidamente a mecanismos de regras downstream, data warehouses em tempo real e filas de mensagens para atender aos requisitos de desempenho de baixa latência e alto acesso simultâneo em cenários de negócios complexos.

4. Exploração e análise de variáveis ​​características

Fornece uma variedade de ferramentas de análise estatística para ajudar os analistas a compreender rapidamente a distribuição de variáveis ​​de recursos, relações de correlação, etc. A interface visual exibe a importância, a influência e outros indicadores do recurso para auxiliar na seleção e iteração dos recursos.

5. Integração com sistemas internos e externos

Integre múltiplas fontes de dados, como sistemas de negociação internos de instituições financeiras, sistemas de CRM e sistemas ERP. Suporta conexão com outros componentes de controle de risco (como mecanismos de regras, bibliotecas de modelos, etc.) e provedores de serviços de dados terceirizados, como relatórios de crédito externos.

05 Renda de construção

Na implementação de um projeto de variáveis ​​características de clientes de um banco, a plataforma atende às necessidades de processamento e gestão de derivativos de variáveis ​​características em cenários de pré-crédito, e se conecta com fontes diversificadas de dados upstream, como operadores externos, industriais e comerciais, e dados judiciais. ; e informações de equipamentos de clientes internos do banco, informações de transação de conta e dados de cálculo de limite coletados antes do empréstimo. Por meio de recursos de cálculo de variáveis ​​​​em tempo real , ele pode ser aplicado a modelos downstream, como scorecards, para fornecer dados.

arquivo

1. Extração de variáveis ​​​​de recursos baseada em componentes

A plataforma analisa variáveis ​​de recursos em lotes a partir de comandos SQL. Para os requisitos de aquisição de dados das tarefas do modelo, os usuários podem processar e combinar livremente as variáveis ​​de recursos necessárias na plataforma e gravá-las na tabela de hive do tema correspondente para leitura e processamento.

2. Atualização síncrona de conjuntos de variáveis ​​de recursos

A página oferece suporte à adição, exclusão e edição de conjuntos de variáveis ​​de recurso, e as operações de estrutura da tabela de plataforma são sincronizadas automaticamente com a tabela do modelo físico. Quando a lógica das variáveis ​​de recurso muda, você só precisa editar o código derivado da variável de recurso padrão correspondente ou a operação de padronização da variável de recurso original para evitar o desenvolvimento complexo de grandes funções SQL.

3. Monitoramento de estabilidade e anormalidades

A função de painel de monitoramento fornecida pela plataforma suporta o monitoramento da flutuação das variáveis ​​​​características e a chamada de conjuntos de variáveis. O monitoramento dos valores das variáveis ​​​​características garante que quando os dados upstream são anormais, as tarefas downstream são interrompidas a tempo, assim. maximizar a possibilidade de evitar problemas causados ​​por diferenças excessivas nas variáveis ​​características quando o modelo é usado. Distorção das estatísticas do modelo no status de chamada de cada conjunto de variáveis, e envio em tempo real de alarmes de linha de base e informações de verificação de regras fortes e fracas.

4. Gerenciamento e controle de plataforma unificada

A plataforma fornece gerenciamento de membros, centro de aprovação, análise de chamadas, arquivamento automático, reinicialização de tarefas e outros métodos de gerenciamento e controle, oferece suporte ao ajuste de prioridade de tarefas e agenda operações de tarefas uniformemente para melhorar o desempenho do serviço de dados e a utilização de recursos do cluster.

A plataforma foi implementada online, abrangendo e apoiando mais de 30 cenários de crédito para empréstimos ao consumo, pequenos e microcréditos e outras empresas. Ao combinar com o mecanismo de modelo de regras downstream, a plataforma variável característica realiza a implementação de recursos de tomada de decisão em tempo real em cenários de controle de risco, o que satisfaz a necessidade de melhorar a experiência do cliente dos usuários e a eficiência do empréstimo na solicitação de cartão de crédito e na aprovação de empréstimos. processos em cenários de crédito pré-empréstimo. Além disso, também fornece dados para cobrança pós-empréstimo, antifraude de transações e outros cenários, apoiando sistemas downstream para monitorar comportamentos anormais de transações dos usuários em tempo real, conduzir identificação de identidade anti-lavagem de dinheiro. e empurre alarmes em tempo real.

Endereço de download do "White Paper do produto Dutstack": https://www.dtstack.com/resources/1004?src=szsm

Endereço para download do "White Paper sobre práticas da indústria de governança de dados": https://www.dtstack.com/resources/1001?src=szsm

Para quem deseja conhecer ou consultar mais sobre produtos de big data, soluções industriais e cases de clientes, visite o site oficial da Kangaroo Cloud: https://www.dtstack.com/?src=szkyzg

Linus assumiu a responsabilidade de evitar que os desenvolvedores do kernel substituíssem tabulações por espaços. Seu pai é um dos poucos líderes que sabe escrever código, seu segundo filho é o diretor do departamento de tecnologia de código aberto e seu filho mais novo é um núcleo de código aberto. contribuidor Robin Li: A linguagem natural se tornará uma nova linguagem de programação universal. O modelo de código aberto ficará cada vez mais atrás da Huawei: levará 1 ano para migrar totalmente 5.000 aplicativos móveis comumente usados ​​para Hongmeng. vulnerabilidades de terceiros. O editor de rich text Quill 2.0 foi lançado com recursos, confiabilidade e desenvolvedores. A experiência foi bastante melhorada. fonte de Laoxiangji não é o código, as razões por trás disso são muito comoventes. O Google anunciou uma reestruturação em grande escala.
{{o.nome}}
{{m.nome}}

Acho que você gosta

Origin my.oschina.net/u/3869098/blog/11045960
Recomendado
Clasificación