从移动为例，看运营商的大数据能力

【摘要】本文以中国移动通信集团浙江有限公司为例，从平台、数据和技术3方面阐述了运营商的大数据能力。

| 科 | 技 | 杂 | 谈 |

中国通信行业第一自媒体

本文作者：三墩IT人

本文来源：三墩IT人（SanDunIT）

杂谈投稿邮箱：[email protected]

1 引言

随着互联网业务和应用的迅猛发展以及移动互联网的爆炸式增长，电信运营商客户基础属性、行为数据、信令数据和终端数据等海量数据的存储与分析日益成为电信运营商的重要挑战，大数据技术的出现与机器学习的发展为电信运营商深挖数据提供了新的技术手段，同时也为其更好地服务客户提供了新的机遇。

运营商通过大数据平台的建设、海量数据的加载、丰富的画像标签沉淀以及上层机器学习算法的深入研究，针对几大相关行业进行了深入探索和实践，也推出了系列创新产品，在支撑金融风险控制、用户征信领域和商业决策等方面发挥着越来越重要的作用。

本文以中国移动通信集团浙江有限公司为例，从平台、数据和技术3方面阐述了运营商的大数据能力，并结合企业实践和探索，分享了浙江移动在移动信用评分和智能选址产品的案例。

2 大数据基础能力

2.1 平台架构

中国移动通信集团浙江有限公司（以下简称浙江移动）大数据平台经过两期建设，已建成Hadoop、MPP、流处理和内存数据库等平台，集群规模已达1400+，日均处理离线数据100多TB、实时数据千亿条，融合了OSS（operation support system ，运营支撑系统）、BOSS（business support system ，业务支撑系统）、MSS（management support system ,管理支撑系统）三域内部数据+互联网外采多维数据，为大数据应用提供有力的PaaS能力支撑。浙江移动大数据平台如图1所示。

图1　浙江移动大数据平台

2.2 数据标签能力

运营商在数据方面天然具有优势，拥有垄断的通话关系网数据，最实时、最全面的位置数据，最丰富的上网行为数据，最全面的终端行为数据，最权威的用户身份信息数据，最详细的通讯消费数据。以下是各类数据的特点和价值。

（1）通话关系网数据

通话社交关系数据：基于通话交往圈的大小、主被叫及时间规律，就掌握了任何一个用户的社交特征，比如某人的影响力，人与人之间的亲密程度，人群之间的上下属关系，甚至可以得到人脉路径。

通话时序数据：通话的频次、时序、时长及对端等重要数据，又可以用来挖掘用户的性格甚至身份特质，作息规律等。

（2）位置数据

全方位的信令位置数据：运营商的位置数据不单单是需要通话、上网、短信才能获取，而是通过定期基站切换、周期性位置上报而直接获取用户全方位位置数据，不依赖用户是否登录使用某一手机应用，这是较GPRS（general packetradio service，通用分组无线服务技术）定位最大的优势。

实时性强：具备实时的流处理分钟级的用户位置数据，可用于各类实时位置服务应用。

（3）上网数据

拥有移动用户手机上网的所有行为数据，经过DPI（deeppacket inspection，深度分组检测技术）内容解析，互联网商品最深可到7级，APP（application，应用程序）识别近9000个；

用户搜索行为数据：用户手机上的搜索行为是用户近期最强的需求指向，只要进行语义解析并结合一定的知识库，就可以在精确营销中发挥巨大价值。

（4）用户终端信息

用户使用的终端信息：包括型号，品牌，换机频次，品牌忠诚度等，可以掌握终端市场，可以从终端看用户档次；

用户换机轨迹：可以用于分析终端品牌之间的流向。

（5）身份信息数据

实名制普遍推广后，运营商的身份数据质量极高，包括身份证号码、姓名等真实信息。

（6）通信消费数据

用户每月的通信支出、支出分布、充值情况、充值频次等，一定程度上可以体现用户的消费习惯，收入水平。

基于用户画像维度和运营商数据特点，标签体系从上往下结构化分为七大类60小类，分别从客户的基础属性、通信属性、习惯偏好、社交关系、App行为、线上事件和位置轨迹进行展现，标签规模突破了10万。浙江移动标签体系如图2所示。

图2　浙江移动标签体系

2.3 技术能力

（1）云爬虫平台

为丰富数据类型和规模，浙江移动自主研发了云爬虫平台来获取外部数据并提供分词和自然语言的解析能力。云爬虫平台可以抓取一切调用API访问的网站内容，支持定制化的垂直爬取需求，租户能够自主指定各主流网站所要爬取的数据。目前，云爬虫平台可实现日均1亿URL的采集量，有效爬取数据存储能力大于500TB，日均处理请求1500万+，日均爬取数据量超过2TB。目前已采集了工商企信、个人征信和POI（point of interest，兴趣点）等外部信息。

（2）MR精准定位

MR（measurementreport，测量报告）精准定位模型利用MR和OTT（over the top，通过互联网向用户提供各种应用服务）数据，通过定位算法对移动终端用户进行精准定位，能够精确到50m以内，可精准输出目标用户的位置规律，为解读用户的位置行为研究提供数据保障。当前，浙江移动的MR精准定位模型已经开展全量数据处理和试用，定位精度从基站的300~500m可有效提升到50~100m，定位误差达到商用要求。

（3）DPI深度解析技术

浙江移动运用DPI针对每天500亿网页进行解析，已解析9000+款App，涵盖金融、购物、游戏、娱乐、阅读等19大类，网页内容解析后，识别图书、视频、音乐、资讯、商品、点评等26大类8000细类。

3 运营商大数据案例分享

3.1移动信用评分应用

3.1.1项目背景

随着P2P市场的野蛮生长和消费金融在中国的兴起，个人征信市场的需求大幅爆发。在2015年1月，央行发布通知要求芝麻信用、腾讯征信等8家公司机构做好个人征信的准备工作，这一举动说明征信业正式向市场化发展，同时，也标志着中国征信业正式进入2.0时代。2.0时代的个人征信业存在两个特征：一是征信机构的多元主体化，征信牌照的发放使更多的机构进入市场，这有利于丰富和完善个人征信的服务体系；二是技术产品的创新，随着大数据的到来，数据规模越来越多，在征信数据源和征信模型方面都有较多的创新和突破，征信体系有很多的改善空间。

中国移动拥有全国近10亿用户的通信行为数据、用户位置数据及全网移动互联网数据以及公共事业单位拥有的日常支付消费数据。这些数据拥有全面性、及时性、形式多样性和可信度高等优势。中国移动可以依据多年积累的大数据技术，充分应用这些数据搭建个人征信评分体系，用于服务自身传统业务运营以及提供给其他征信金融机构作为个人信用评估标准或征信数据源的补充。

3.1.2模型介绍

浙江移动在充分借鉴FICO、芝麻信用等行业标杆先进做法的基础上，基于浙江移动的大数据平台，充分整合客户身份、通话、上网和位置等核心数据，利用决策树、逻辑回归和随机森林等数据挖掘模型，从身份特征、消费能力、行为偏好、人脉关系和信用记录五个维度构建客户信用评分模型，实现了对客户信用的客观评价，并通过欠费、坏账、行业违约等数据的验证，来不断迭代和优化模型。移动信用评分体系如图3所示，移动信用评分建模过程如图4所示。

图3移动信用评分体系

图4移动信用评分建模过程

3.1.3模型效果

模型在测试样本下预测的准确率如图5所示。图中可以看出，该模型ROC曲线的AUC值能达到80%，说明模型预测效果不错。模型在测试样本下K-S曲线如图6所示。从测试样本的K-S曲线来看，个人信用分的最大K-S值能达到0.7，区分度较好。

图5模型在测试样本下预测的准确率

图6模型在测试样本下K-S曲线

3.1.4产品应用

浙江移动首选欠费免停机场景作为试点业务启动，针对不同的星级客户给予了不同的信用额度（透支额度）。当客户产生的欠费在信用额度内时，对用户进行停机操作。通过该试点业务，在当前的星级体系下找出星级较低但是信用分较高的群体，赋予他们更高的信用额度，以减少用户的停机可能，提升收入同时控制欠费风险。

（1）目标客户捞取

从客户星级和信用分两个维度综合考虑欠费率情况，最终捞取信用分在700分以上，但星级在五星以下的客户提供免停机服务。

（2）信用额度调整

针对目标客户群体，根据不同的信用分等级，将其提升至不同档次的信用额度。高信用低星级用户信用额度调整规则如图7所示。

图7高信用低星级用户信用额度调整规则

（3）目标用户体验

基于信用的话费透支额度提升体验活动于8月1日开始在浙江多地开展，目标用户中随机选取用户进行外呼，8月份累计外呼25.6万人，其中接通11.3万人，成功7.1万人，最终转化率为27.6%。在8月份期间，共有2.2万人使用了话费透支服务（即8月份发生过欠费），占所有参与活动客户33%。

应用成效显著，主要体现在以下方面：停机得到明显改善。由于信用额度的提升，停机用户数下降98%以上，客户的服务感知得到了提升和改善。收入提升显著。为了排除自然增长等因素的影响，与全省同条件且未参加活动的用户相比，参加活动的用户8月份ARPU（averagerevenue per user,用户平均收入）提升2.17元。欠费风险较低。活动客户8月的欠费率为0.49%（39天后），显著小于全网客户同期的欠费率1.1%。

3.1.5产品展望

基于信用评分应用浙江公司当前已规划了六大基于信用分的场景，对内逐步从欠费免停机、国内漫漫免预存、信用购机方面开展；对外将从消费贷、免押金骑行和酒店信用住等领域拓展合作。

3.2智能选址

3.2.1项目背景

选址一直是实体商业、城市规划、基础设施建设领域的重要课题。目前，在学术界一直有非常广泛的研究和探索。才鑫等主要基于移动通信用户的上网数据、通话数据及位置更新数据对用户社会化行为进行有效分析，通过对具有相似兴趣的用户轨迹进行聚类、预测及可视化显示，来进行商业选址，而没有将交通、环境、竞争等因素考虑进去；同时，并不能解决系统自动决策网点位置的问题。黎夏等将遗传算法、蚁群算法、粒子群算法等人工智能算法应用到多点选址问题中; 黎海波等利用多目标粒子群优化算法和区域形状变异算法相结合来解决复杂的空间选址问题，取得了较好的效果。但这些都是基于GIS（geographic information system,地理信息系统）体系的POI（point of information,信息点）数据体系来构建的选址体系，都没有考虑人类活动的因素，造成选址结果与人们真实需要往往存在一定差距。随着信息技术的发展，手机信令数据、社交网络数据等大数据渐渐发挥出重要的作用，大数据技术就是将原本看起来很难利用的数据抽丝剥茧，发现其中的真正内涵，整合多方数据进行选址也成为可能。

浙江移动大数据体系目前已经整合用户特征数据、用户通信行为数据、用户位置数据、用户互联网行为数据以及外部的POI数据和商业网点数据，形成了涵盖地理空间、产业和居民的全量数据体系，具备了进行智能选址的数据基础。同时，鉴于目前大量的选址研究还仅仅是停留在GIS热力图展示的定性化研究的现状，本文将基于浙江移动大数据建模和分析平台能力，结合全量数据体系，提出基于地理数据、产业数据和用户数据的智能选址体系，对传统的单纯基于POI或“人”的选址方法进行优化补充，构建智能推荐和决策的选址系统。

3.2.2方案介绍

整合信令位置、客户特征、POI 3方面数据，采用分布式+MPP并行数据处理架构，构建基于地图网格式分析模型，实现智能选址应用。为规模性的连锁机构或高价值、低频次的大型商场提供商圈初筛、商圈分析、商圈对比等功能，辅助商家决策更加合适的选址点。对内提供区域客户对实体渠道、摆摊方式的需求评估、周边客户的效能评估、竞争环境监测与分析等能力，辅助评估备选点是否适合开实体渠道或进行摆摊。对内对外均可通过特征选取、导入客群、相似客群挖掘3种方式提取潜在客户，采用图形化界面展示目标客户的特征和分布，便于选择最佳营销触点方式和营销策略，力求更科学的精准营销，只能选址产品技术如图8所示。

图8智能选址产品技术

3.2.3应用效果

选址应用在对外应用方面，已经与房地产、商场零售等各行业商家开展选址、拓客合作。在对内应用方面，已开始支持中国移动的渠道布局决策、加盟厅评估和审核等工作。以加盟厅评估为例，原来加盟厅审批时，地市移动需人工采集和上报厅店周边人口、竞争、商圈业态等信息，现在由应用直接提供，简化了流程，开店时间缩短至原来1/3，低效厅控制在10%以下。在对外应用上，通过对点评评分排名前10的快餐店进行位置与模型智能推荐的排名前10位置进行对比，有7个点模型推荐的位置与实际的位置基本一致，同时实际排名靠前的另外3个点也都在模型推荐的理想开店地址。因此，能够明显地看到通过多方数据的结合以及智能推荐模型的构建，能够帮助餐饮行业实现智能化一键选址。

作者介绍：

汤劲松浙江移动信息技术部副总经理兼大数据中心主任

蔡韵大数据中心建模师

王晓亮大数据中心产品经理

傅一平大数据中心数据管理部经理

陈永刚大数据中心产品经理

张挺大数据中心产品经理

近期热点文章

科技杂谈：keji_zatan

从移动为例，看运营商的大数据能力

猜你喜欢