基于大数据POI基因图谱的再生技术研究

摘要:本文从海量POI数据中找出再生特征,构建基因图谱,基于大数据技术提出了POI数据横向扩展、地理描述纠正、错误信息的最优处理标准和方案。

 

关键词:大数据 POI再生技术

 

1.引言

伴随着网络数字地图与位置服务的迅速发展,以POI为代表的地理数据出现了快速增长,某移动GIS系统中的POI数据点已达上千万。POI是“Point Of Interest”的缩写,可以翻译成“兴趣点”,也有些叫做“Point Of Information”,即信息点,是一种代表真实地理实体的点状数据,像地图上的政府机构、医疗机构、餐饮店铺、购物公司都是POI。

POI数据作为位置服务的最核心数据,在数字地图方面运用场景广泛,如导航前选择目的地、查看附近旅店等用到的都是POI数据。POI数据的生命周期从采集、更新到消亡,共分为三个阶段。如何提升POI数据的地理覆盖范围与精准度已经成为网络数字地图提升核心竞争力的重中之重。本文基于研究POI的数据组成切片来构建POI基因图谱片段,通过大数据技术实现POI数据的再生,提高POI数据覆盖面与地理描述精准度。

1.1 国内研究现状

POI数据再生技术主要包括线下采集补充再生和线上融合再生。对于线下采集,国内主流图商对于POI数据采集工作分为室内和室外两种情况,室内是预先选取一些知名度比较高的商场,然后利用三维激光扫描车采集;室外是通过车载环绕摄像头采集,人工后期处理并录入关系型数据库,处理工作包括词语校验、数据结构化等。而基于POI数据线上融合技术,在过去的二十多年中得到了广泛的研究,融合开始于锚点的选择,即代表同一位置的对应实体POI点对的选择,与锚点相关的数据集进行三角形平面细分,并且在每个细分区域中使用 rubber-sheeting 转换,陈瑞[1]、高新院[2]、王世民[3]等国内诸多学者皆是在两个来源不同的POI 数据集合中找出表示同一个点状地理实体的POI对象,然后将这两个对应对象放到一个集合中进行相似融合。对于POI线上融合技术的核心就是判断对于同一POI实体的相似数据,根据阈值判断是否是同一POI实体,如果具备同一POI实体相似的属性,那么就对这个POI实体进行相互的信息补充,比如基准POI实体只有名称和门牌号描述,而其他POI源数据中有这个实体的电话号码和其它描述,则将其它POI源数据的电话号码和描述信息补充至基准POI实体中。

1.2 现有方法存在的缺点

作为地理信息系统的核心数据,线下采集POI数据使之补充或更新再生依然是打造基础POI库最重要的方式,但在数据采集过程中由于采集部门与采集标准规范不同,业务人员的操作能力参差不齐,数据后续规范处理的方法、数据集更新程度等差异,同一地区的不同来源数据集不但往往存在着一定程度上的几何位置差异,而且门牌地理描述也是各有差异,容易造成用户误解,比如以“金地长青湾”为关键字在某GIS中查询POI,输出的位置描述存在“辽宁省沈阳市浑南区学城路18号(长青桥以东800米)”、“辽宁省沈阳市浑南区五三街道南堤东路金地长青湾”、“浑南新区浑南区金地长青湾”等不规范信息。

通过这种方式采集的POI海量数据集还会有一个普遍的弊端,就是对于大多数写字间内和居于民宅内的企业POI数据存在漏采情况,这部分POI数据目前仍是靠企业主自己主动上传营业执照与相应点描述信息,图商审核人员经过粗略复核之后将其录入POI库中。从某移动GIS系统中近五年来企业主动上传的POI数量来看,每年只有不超过一百家主动上传,与工商总局发布的年均新增企业总数对比,有83.6%的新增企业缺失其POI信息,这部分企业主没有意识主动上传或不存在主动上传POI数据的技能。

而将来源不同的 POI 数据通过 POI 融合技术生成信息量更为丰富与完整的 POI 数据,确实从纵向实现了 POI 信息的复用与更新,从而降低 POI数据再生成本,但其只是对同一POI实体数据予以补充,没有横向考虑POI数据的扩展或修正,比如对POI总体数量没有补充,对错误POI数据缺乏有效的判定与纠正标准。

2.基于大数据POI基因图谱的再生技术原理

2.1 POI再生数据流

针对上述现有技术的不足,本文充分考虑GIS数据源、互联网POI点评的主流社区以及POI调用APP等多个数据源,从海量POI数据中找出再生特征,构建基因图谱,给出了横向POI数据量扩展及修正的解决方案,此方案的数据流导向图,如下图1所示。

                                                                         图1 POI再生数据流导向图

2.2 建立POI再生数据逻辑处理基本原理

依据数据源的不同,POI的再生逻辑处理流程亦不同。上文提到的国家企业信用信息公示系统是由国家工商行政管理总局、国家统计局与国家人力资源与社会保障部合办的,此系统于2017年3月6日在工信部备案,国内所有工商企业及个体户申请营业执照及年审时,数据信息会同步到国家企业信用信息公示系统,基本涵盖了除政府机构、公共交通、地名道路等之外的所有POI数据,从表1中可以看到带有工商性质的POI数据占总体POI数量的79.37%以上,这些POI数据在某移动和地图和亲情通业务的2017年11月份使用用户调用占比高达93.7%,是本文研究再生的重点数据。

             

                                                   表1 某GIS系统中海量POI数据的类型及数量分布

POI再生数据逻辑处理分两步,第一步是以国家统计局发布的信息为基准,抓取其发布信息中的企业名称与门牌号地址,通过某移动GIS系统中地理编码能力将门牌号地址转成地理经纬度标识,然后与POI数据库中的名称、门牌号、经纬度等数据信息进行匹配,根据结果进行不同的POI再生数据操作。

第二步是融合多源POI,包括三种情况:一是对某移动GIS系统中不存在,但其他GIS都存在,通过数学建模验证其置信度,对满足条件的POI数据给予其生命周期;二是对GIS系统都存在的POI数据,采用陈瑞[1]、高新院[2]、王世民[3]等公布多源POI融合技术对同一地理实体POI对象信息进行补充,本文不再阐述;三是某移动GIS系统中存在,但其他GIS都不存在的POI信息,通过数学建模验证其置信度,对满足条件的POI数据给予删除操作。其中,为描述POI的采集时间、评论等数据对POI数据本身产生的影响,建立了数学公式如下:

公式1中,α为POI评论数量相关的置信度,β为POI最晚评论时间相关的置信度,γ为POI登记的采集时间相关的置信度,分子为相应POI归属小分类的总数,M为POI总数,δ即为POI数据实体的相应综合置信度结果,0<δ<1。

综上,通过基于大数据POI基因图谱的再生方法,来保证某移动GIS中的POI数据覆盖面最全,精准度在业界领先的目的。 

3.基于大数据POI基因图谱的再生试验方案与应用效果

3.1 应用模型架构

本应用模型由资源层、数据采集层、数据存储与处理层、服务承载层、负载均衡接入层、应用入口层,共六层构成,如图2所示。

资源层是数据的汇聚来源,由GIS域、业务域和互联网域组成,其中互联网域数据由数据采集层通过爬虫模拟用户登陆网站之后遍历页面数据获得。数据采集层由离线数据采集、实时数据采集两个核心功能组成,采集到数据之后送到数据存储与处理层的Kafka消息队列中,通过Spark处理之后,中间数据转换成与SparkSQL兼容的HBASE数据,然后以HDFS形式存储到磁盘中,结果数据放到Oracle关系型数据库中以供上层应用访问。上层应用服务部署在Tomcat集群中,通过负载均衡接入应用提供服务。

         

                                                                       图2 POI再生数据应用模型架构

3.2 融合源数据与构建POI基因图谱

数据源来自于三个方面,分别是由某移动GIS、高德GIS、四维GIS组成的POI数据源,由某移动和地图业务与亲情通业务组成的POI使用行为数据源,以及由互联网域国家企业信用信息公示系统、大众点评与美团组成的工商企业POI数据和POI评论数据源。

对于多GIS源POI数据融合方面需要考虑统一空间坐标系和数据结构的问题。首先,国内地理信息系统坐标系之间有差异,如四维、高德均采用的是在WGS84坐标系做过一次偏转加密形成的GCJ02坐标系,而百度地图的坐标系是在GCJ02的基础上再做了一次加密形成的,如果做关联处理之前不统一坐标系,结果就是不匹配的。某移动的POI构建源取自四维GIS与高德GIS,这两个坐标系相同,均是GCJ02坐标系。

其次,每个地理信息系统中的POI数据存储的数据结构是有差异的,在做研究时需要做数据结构转换,做到字段的顺序、大小相容,然后才能做具体的融合再生操作,经过整理规范之后,基于大数据POI基因图谱的数据处理时以RDD的方式存在内存数据库中,最终处理结果以Hash表的形式存在磁盘数据库中,POI再生数据基因图谱片段的数据结构如图3所示: 

       

                                                                          图3 POI再生数据基因图谱片段

3.3 POI再生数据试验核心流程详细步骤

POI再生数据处理核心流程详细步骤,如图4所示。 

                                                    图4 POI再生数据处理核心流程详细步骤

POI再生数据决策算法通过开源的SPARK MLLIB决策树算法经过调优之后实现,示例核心代码如下:

                                                                 图5 示例核心算法代码

3.4 应用效果

以某移动GIS中的辽宁省沈阳市浑南区8563条POI数据为样本做研究,经过基于大数据POI基因图谱的再生技术处理,其中7371条数据得到补充,3752条数据的地理描述得到修正与统一,新增51条数据,删除16条数据,再生率85.6%,活跃修正率58%,修正之后在该地区的POI数量、单体描述丰富程度、描述准确度均超过高德GIS与四维GIS。

4.结束语

本文从海量POI数据中找出再生特征,构建基因图谱,基于大数据技术提出了POI数据横向扩展、地理描述纠正、错误信息的逻辑处理标准和方案,弥补了业界多源GIS融合POI数据的不足,让某移动位置服务在 POI数据覆盖面、精准度领域处于业界领先地位。下一步计划继续研究用户通过开放式应用程序与POI数据的交互对POI搜索与访问结果的命中率之间的关系,从而提升在搜索POI数据结果列表排名命中领域的用户体验。

 

参考文献:1 陈瑞。基于多源POI数据的匹配融合方法研究。兰州交通大学,2014

2 高新院。基于空间位置信息的多源POI数据融合问题的研究。中国海洋大学。2013

3 王世民,王晓霞。基于复合相似度计算模型的兴趣点关联方法研究。辽宁省通信学会论文集(增刊)。2017,61-66

发布了27 篇原创文章 · 获赞 17 · 访问量 6万+

猜你喜欢

转载自blog.csdn.net/pharos/article/details/89392451