导读: 本文分享了在使用图分析引擎开发风控算法时遇到的挑战,以及我们采取的方案和措施,介绍环路检测算法在风控场景的探索和工程化方案,分享算法效率优化、硬件资源限制下的算法探索的一些经验。
▌环路检测的背景与挑战
简单介绍一下环路检测的背景。在风险管理领域,环路检测是一种常用的技术,主要用于分析金融交易。当一个交易中,一笔款项经过一系列的转账操作并最终回到初始账户时,就会被认为是一个环路,可能被标记为高风险场景。这种分析技术对于需要处理大量交易并识别潜在欺诈活动的银行和其他金融机构尤其重要。
环路检测技术也存在一些挑战。首先是金融交易数据量庞大,往往涉及数十亿甚至更多的交易。其次现有的图分析引擎大多只能处理简单图,而金融交易往往是多种点边类型的复杂图结构。最后,计算和存储资源的需求因客户而异,我们需要满足资源受限的客户需求。我们在客户交付过程中,针对上述挑战,开发并优化了环路检测算法,接下来我将详细介绍我们的方法及几个案例研究。
▌分布式图计算的优化方案
首先,我们采用了分布式图计算来处理大型图网络,这是业界常用的方法。我们的 ArcNeural 多模态智能引擎的分布式计算框架借鉴了 libgrape-lite,将大规模图数据切割为子图,并通过并行计算和消息传递方式实现高效的环路检测。ArcNeural 多模态智能引擎基支持 50+算法,覆盖路径分析、中心性分析、社区发现、关联性分析、子图挖掘等场景。我们使用了公开的 benchmark LDBC 数据集进行了内部测试。常见的算法包括 BFS、弱连通图、标签传播和 pagerank。如表格所示,ArcNerual 多模态引擎在性能方面大幅优于国内开源图计算引擎。
1. 剪枝策略优化
具体来说,我们如何优化环路检测算法呢?环路检测算法需要找出给定图中所有可能构成环路的路径。如果不对算法进行优化,由于需要遍历所有可能的路径,而不仅仅是遍历每个节点,这就使得需要遍历的数据量变得非常大,算法复杂度为 O(V*(V+E+R)),其中 V 为点数目,E 为边数目,R 为环路数目。
因