基于机器学习方法的企业非法集资风险预测-南开大学论文复现

企业非法集资背景

昆明泛亚非法吸收公众存款案

图片

基本案情:2011年11月至2015年8月间,昆明泛亚有色金属交易所股份有限公司董事长单九良等人,以稀有金属买卖融资融货为名推行“委托受托”业务,向社会公开宣传,承诺给付固定回报,诱使社会公众投资,变相吸收巨额公众存款。非法吸收公众存款1678亿余元,涉及集资参与人13万余人,造成338亿余元无法偿还。

裁判结果:本案由云南省昆明市中级人民法院一审,云南省高级人民法院二审。

这些案例表明,非法集资形式多样,手段隐蔽,投资者需提高警惕,增强防范意识,避免陷入此类骗局。识别企业非法集资是一项具有深远意义的工作,它不仅能够保护个人和企业的利益,还能维护金融市场的稳定和社会的和谐发展。

论文复现-基于机器学习方法的企业非法集资风险预测

今天看到一篇研究生毕业论文《基于机器学习方法的企业非法集资风险预测》。下载量上千。作者是南开大学学生,属于985高校。

图片

图片

论文目录

论文目录如下

摘要

Abstract

第一章 绪论

第一节 研究背景与意义

  • 1.1.1 研究背景

  • 1.1.2 研究意义

第二节 研究现状

  • 1.2.1 企业非法集资风险的相关研究

  • 1.2.2 分类问题中的机器学习方法应用

第三节 研究内容与方法

  • 1.3.1 研究内容

  • 1.3.2 研究方法

第四节 组织结构

第二章 数据信息与模型原理

第一节 数据信息

  • 2.1.1 数据来源

  • 2.1.2 数据预处理

第二节 模型原理

  • 2.2.1 RandomForest模型

  • 2.2.2 XGBoost模型

  • 2.2.3 Light GBM模型

  • 2.2.4 Cat Boost模型

第三章 模型实证分析结果

第一节 数据处理

  • 3.1.1 特征工程

  • 3.1.2 SMOTE处理不平衡数据集

第二节 模型评价指标

  • 3.2.1 拟合指标

  • 3.2.2 变量重要性

第三节 模型结果与参数设置

  • 3.3.1 RandomForest模型

  • 3.3.2 XGBoost模型

  • 3.3.3 Light GBM模型

  • 3.4.4 Cat Boost模型

第四章 研究结论及展望

第一节 研究结论

  • 4.1.1 模型对比

  • 4.1.2 模型组合

第二节 策略建议

第三节 研究不足与展望

  • 4.3.1 研究不足

  • 4.3.2 未来展望

参考文献

致谢

个人简历

在学期间发表的学术论文与研究成果

论文摘要

近年来,非法集资以互联网平台为依托,在民间资本市场中迅速发展,给民间资本的安全和监管带来了无法忽视的风险问题,社会损害日益严重。我国非法集资涉案的数量与金额逐年扩大,打击非法集资的形势仍然严峻。如何根据企业信息数据建立预测模型,判断企业是否存在非法集资风险,研发基于政务大数据和社会大数据融合的企业全息画像系统,为企业提供精准的画像和服务,对于掌握全面可靠信息、及时防范企业非法集资风险具有重要的意义和价值。

在研究企业非法集资风险的相关文献后,利用CCF BDCI已经脱敏处理过的真实数据,对企业的各项信息数据通过四种机器学习模型展开分析与挖掘,预测企业为非法集资企业的风险。

非法集资企业的分类建模共包含四个步骤:

第一步是数据处理。包括对原始数据填补缺失值、文本变量的量化处理等内容,为后续特征选择做铺垫。

第二步是特征选择和不平衡样本处理。对于处理后得到的全部变量,利用变量相关系数和逻辑回归lasso系数收缩实现变量筛选,并通过SMOTE算法对于正样本进行重采样合成数据,减少了不平衡样本的负向影响。

第三步是模型训练和预测。文中共应用了RandomForest、XGBoost、Light GBM、Cat Boost四种模型,在对各个模型进行参数优化后,通过k折交叉验证综合比较四种模型的预测效果,同时根据模型中获取的SHAP值作为衡量变量重要性的依据。第四步在横向比较四种模型的预测效果后,通过最高F1值对四种模型加权得到最优组合模型,并根据SHAP值大小为防范企业非法集资风险提供策略参考。

最后结合现有研究成果评述当前研究中存在的不足,并提出设立全国统一的企业非法集资大数据风险监测系统的相关建议。 

论文复现

重庆未来之智信息技术咨询服务有限公司Toby老师评估了一下这篇论文复现相对简单。我们公司准备了一个企业非法集资数据集,30变量+,数据量上万,样本量非常充足。

图片

变量分类汇总如下:

企业基本信息

  • 企业唯一标识

  • 行政区划代码

  • 行业类别代码

  • 行业细类代码

  • 经营地址

  • 经营范围

  • 企业类型

  • 企业类型小类

  • 经营期限起

  • 经营期限止

  • 经营状态

  • 机构标识

  • 职位标识

企业经营与管理信息

  • 是否广告经营

  • 是否城镇

  • 主题登记类型

  • 从业人数

  • 组织形式

  • 合伙人数

  • 执行人数

  • 经营方式

  • 兼营范围

  • 风险行业

  • 企业类型细类

  • 中西部优势产业代码

  • 项目类型

  • 经营场所

企业资本信息

  • 注册资本(金)

  • 实缴资本

  • 实缴资本(外方)

  • 注册资本(外方)

  • 投资总额

  • 企业(机构)类型

以下是构建企业非法集资机器学习预测模型的一般步骤:

图片

  1. 数据收集:收集企业的历史财务数据、市场数据、信用评级、行业信息等。

  2. 特征选择:从收集的数据中选择与能源企业相关的特征,如资产负债率、流动比率、净利润率、现金流量等。

  3. 数据预处理:对数据进行清洗,处理缺失值和异常值,进行归一化或标准化。

  4. 数据标注:确定目标变量,即企业是否逾期。通常,这需要根据一定的时间窗口来判断企业是否在观察期内逾期。

  5. 数据分割:将数据集分割为训练集和测试集,用于模型训练和评估。

  6. 模型选择:选择合适的机器学习算法。

  7. 模型训练:使用训练集数据训练选定的机器学习模型。

  8. 模型评估:使用测试集数据评估和验证模型的性能。

  9. 模型优化:根据评估结果调整模型参数,进行特征工程,或者尝试不同的算法来优化模型性能。

  10. 模型部署:将训练好的模型部署到生产环境中,用于实时或定期预测能源企业逾期风险。

  11. 监控与维护:持续监控模型的表现,定期更新模型以适应市场变化。

在构建能源企业逾期预测模型时,还需要注意以下几点:

  • 数据质量:确保数据的准确性和完整性,因为低质量的数据会导致模型预测不准确。

  • 特征工程:深入理解业务,选择和构建对预测能源企业逾期有重要影响的特征。

  • 模型解释性:在金融领域,模型的解释性很重要,需要能够解释模型的预测结果。

  • 合规性:确保模型的构建和应用符合相关法律法规和行业标准。

运行代码后,模型预测结果如下,性能极好:

model accuracy is: 0.9766816143497757model precision is: 0.8083067092651757model sensitivity is: 0.8518518518518519f1_score: 0.8295081967213115AUC: 0.9924669062310187good classifiergini 0.9849338124620375ks value:0.9524

图片

AUC,KS区分能力接近完美。

图片

图片

深度挖掘

图片

从变量重要性排序来看,企业的行业类别,经营期限起止时间,注册资本(金)属于企业非法集资识别的重要变量。部分变量属于噪音变量,可以剔除模型。

企业非法集资风险较高行业

企业非法集资风险较高的行业主要包括以下几个领域:

1. 房地产行业

房地产企业是非法集资的高发领域,主要表现为以下几种形式:

售后包租与回购:将商业建筑划分为小商铺进行销售,承诺售后包租、定期高额返还租金或到期回购,诱导公众购买。

未取得预售许可证前融资:在项目未取得商品房预售许可证前,以内部认购、发放VIP卡等形式变相进行销售融资,甚至存在“一房多卖”的情况。

直接向社会公众集资:打着房地产项目开发的名义,直接或通过中介机构向社会公众集资。

2. 私募基金

私募基金领域非法集资风险较高,主要表现为:

违规公开宣传:以虚假或夸大项目为幌子,以保本、高收益、低门槛为诱饵,向不特定对象募集资金。

业务复杂导致风险传导:私募机构同时从事股权投资、P2P网贷、众筹等业务,导致风险在不同业务之间传导。

3. 网络借贷(P2P)

网络借贷平台是非法集资的高风险领域,主要表现为:

构建资金池:将借款需求设计成理财产品出售,使投资人的资金进入平台中间账户,形成资金池。

借新还旧的自融模式:发布虚假借款标,采取借新还旧的方式进行资金诈骗,这是典型的庞氏骗局。

利用托管漏洞进行欺诈:部分平台利用管理不严的资金托管机构进行欺诈。

4. 养老领域

养老领域非法集资案件也较为常见,主要形式包括:

提供“养老服务”:以办理“贵宾卡”“会员卡”“预付卡”等名义,收取高额会员费、保证金或为会员卡充值,承诺提供养老服务。

投资“养老项目”:以销售虚构的养老公寓或长期出租养老床位等名义,通过返本销售、售后返租、约定回购、承诺高额利息等方式非法集资。

销售“老年产品”:以商品回购、寄存代售、消费返利等方式欺骗、诱导老年群体,实施非法集资。

5. 虚拟理财领域

虚拟理财领域非法集资风险较高,主要表现为:

无实体项目支撑:以“互助”“慈善”“复利”等为噱头,无明确投资标的,靠不断发展新的投资者实现虚高利润。

网络传销特征:通过设置“推荐奖”“管理奖”等奖金制度,鼓励投资人发展他人加入,形成上下线层级关系。

6. 地方交易场所

地方交易场所,尤其是大宗商品现货电子交易场所和区域性股权市场,存在非法集资风险:

现货电子交易场所:通过授权服务机构及网络平台将某些业务包装成理财产品向社会公众出售,承诺较高的固定年化收益率。

区域性股权市场:个别挂牌企业在中介机构协助下,向社会公众发售或转让“原始股”,承诺固定收益,其行为涉嫌非法集资。

7. 保健品销售型

金道堂非法集资案

基本案情:2011年6月,齐某某和李某某在呼和浩特市注册成立金道堂食品经销部,以销售保健品为掩护,采用会员制,以买一赠二的方式吸引投资,承诺9个月内返利200%。涉案金额上亿,大部分受害者为退休老人。

裁判结果:法院以集资诈骗罪判处齐某某、钱某某无期徒刑,并没收全部财产;其他同案被告亦受到刑事处罚。

8. 项目投资型

赵某某集资诈骗案

基本案情:2016年8月,被告人赵某某注册成立某商贸有限公司,在没有实际经营的情况下,对外宣称与上层领导有关系,投资可赚取政府养殖补贴,承诺到期返还本金并支付高额补贴。赵某某通过发放宣传卡等形式向社会公众非法集资,后将集资款部分用于支付到期的本金、补贴、偿还个人借款等。至案发前,非法集资3.5亿余元,造成经济损失2588余万元。

裁判结果:法院判处赵某某有期徒刑十四年,并处罚金五十万元。二审维持原判。

9 网络众筹型

孙某某、张某某集资诈骗案

基本案情:2016年8月起,孙某某、张某某在明知公司没有真实车辆交易的情况下,通过网络汽车众筹平台向社会公众发布虚假的汽车众筹项目信息,承诺高额还本付息,诱使集资参与人投资。非法集资670万余元,造成经济损失312万余元。

裁判结果:法院判处孙某某有期徒刑七年六个月,并处罚金五十五万元;判处张某某有期徒刑七年三个月,并处罚金五十万元。

版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。