量化策略多因子选股之SPSS MODLER建模

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_37195257/article/details/79681248

TARGET设置为当日股价/半年前股价,若大于1则为盈利,设为1.小于等于1,设为0。 以后可以考虑再减去无风险收益率或者沪深300收益率,以体现超额收益。

数据来自于20180324的股价,20170901的股价,股票池为中证500和沪深300成分股(与数千只A股总量相比,它们的流动性、市值和规模具有显著特点,所以测试结果并不保证适用于其他股票,尤其是小市值不稳定的创业板块)

部分财务数据取对数减少其流动性,训练集为70%,测试集30%,没有考虑采用迅雷+验证+测试,因为数据量不够大。


选取财务数据为:个股行业,201709月公布财报时的股价,log流通市值,log总市值,pe,roe,log净利润,利润同比增长,净利润率,毛利率,log营业收入,mbrg主营业务收入增长率(%),nprg净利润增长率(%),20180323(财报半年后股价)。mbrg和nprg都有部分空缺值。

目标为预测股价是否增长。

对13个分类算法模型进行测试并评分,选出测试集准确最高的3个模型进行加权组合为集合模型

排名前三位的是三个决策树类模型


组合模型的准确度显著高过三个单独的模型,但三个决策树的组合不禁让我怀疑是否会过度拟合。


变量重要性比较图,差别不大,ROE较为重要


CHAID 树查看器,75%


C&R树:




C5.0:


--

LOGISTIC 分类


  方程式用于 0


   + 0.00000000000000000000

  方程式用于 1


   0.0003492 * pe + 
   0.001576 * roe + 
   0.004322 * profits_yoy + 
   -0.05296 * net_profit_ratio + 
   0.005209 * gross_profit_rate + 
   0.007028 * mbrg + 
   -0.004223 * nprg + 
   -0.9064 * marketvalue_Log10 + 
   3.007 * totalvalue_Log10 + 
   2.537 * net_profits_Log10 + 
   -1.173 * business_income_Log10 + 
   9.481 * [industry=白酒] + 
   10.06 * [industry=百货] + 
   11.67 * [industry=半导体] + 
   8.279 * [industry=保险] + 
   9.406 * [industry=玻璃] + 
   -73.2 * [industry=仓储物流] + 
   9.078 * [industry=超市连锁] + 
   0.5356 * [industry=出版业] + 
   -1.141 * [industry=船舶] + 
   10.74 * [industry=电脑设备] + 
   10.54 * [industry=电气设备] + 
   2.065 * [industry=电器连锁] + 
   10.46 * [industry=电器仪表] + 
   9.407 * [industry=电信运营] + 
   -1.332 * [industry=多元金融] + 
   -0.1655 * [industry=房产服务] + 
   -0.2103 * [industry=服饰] + 
   1.235 * [industry=钢加工] + 
   9.663 * [industry=港口] + 
   9.816 * [industry=工程机械] + 
   0.7729 * [industry=公共交通] + 
   0.8514 * [industry=供气供热] + 
   0.1322 * [industry=广告包装] + 
   9.676 * [industry=航空] + 
   1.709 * [industry=红黄药酒] + 
   8.165 * [industry=互联网] + 
   2.06 * [industry=化工机械] + 
   10.09 * [industry=化工原料] + 
   10.54 * [industry=化纤] + 
   10.83 * [industry=化学制药] + 
   -0.04307 * [industry=环境保护] + 
   -0.1378 * [industry=黄金] + 
   7.757 * [industry=火力发电] + 
   10.49 * [industry=机场] + 
   9.776 * [industry=机械基件] + 
   9.982 * [industry=家居用品] + 
   10.75 * [industry=家用电器] + 
   7.33 * [industry=建筑施工] + 
   -1.836 * [industry=焦炭加工] + 
   7.917 * [industry=空运] + 
   53.2 * [industry=矿物制品] + 
   3.84 * [industry=林业] + 
   19.61 * [industry=旅游服务] + 
   9.343 * [industry=铝] + 
   -20.75 * [industry=煤炭开采] + 
   0.5587 * [industry=摩托车] + 
   11.34 * [industry=农药化肥] + 
   2.063 * [industry=农业综合] + 
   0.6792 * [industry=批发业] + 
   21.29 * [industry=啤酒] + 
   -7.317 * [industry=普钢] + 
   11.49 * [industry=其他建材] + 
   1.779 * [industry=汽车服务] + 
   8.598 * [industry=汽车配件] + 
   8.333 * [industry=汽车整车] + 
   -1.283 * [industry=铅锌] + 
   0.4774 * [industry=轻工机械] + 
   9.946 * [industry=区域地产] + 
   9.494 * [industry=全国地产] + 
   11.56 * [industry=染料涂料] + 
   18.25 * [industry=乳制品] + 
   9.661 * [industry=软件服务] + 
   1.447 * [industry=软饮料] + 
   -0.2329 * [industry=商贸代理] + 
   -0.7887 * [industry=商品城] + 
   10.86 * [industry=生物制药] + 
   6.504 * [industry=石油加工] + 
   0.4152 * [industry=石油开采] + 
   10.23 * [industry=食品] + 
   -0.216 * [industry=水力发电] + 
   -2.132 * [industry=水泥] + 
   -38.98 * [industry=水运] + 
   22.57 * [industry=饲料] + 
   3.261 * [industry=塑料] + 
   -2.684 * [industry=铁路] + 
   9.348 * [industry=通信设备] + 
   -0.4796 * [industry=铜] + 
   0.7619 * [industry=文教休闲] + 
   -1.559 * [industry=小金属] + 
   -1.829 * [industry=新型电力] + 
   10.36 * [industry=医疗保健] + 
   -0.4588 * [industry=医药商业] + 
   -0.7248 * [industry=影视音像] + 
   9.393 * [industry=元器件] + 
   -0.9525 * [industry=园区开发] + 
   17.83 * [industry=运输设备] + 
   20.67 * [industry=造纸] + 
   37.8 * [industry=证券] + 
   10.16 * [industry=中成药] + 
   21.55 * [industry=种植业] + 
   9.94 * [industry=专用机械] + 
   0.6874 * [industry=装修装饰] + 
   + -22.5


朴素贝叶斯:


神经网络:









SVM:


  

猜你喜欢

转载自blog.csdn.net/qq_37195257/article/details/79681248