冯扬文:基于数据仓库的集装箱运价信息集成研究

摘 要:【目的/意义】针对现有集装箱运价指数编制中信息源不足、信息及时性不够等问题,设计一套信息集成的模型和方法,为航运指数编制提供实时、海量的真实成交的运价信息,提高指数的效率和能力。【方法/过程】提出基于大数据的指数编制思路,以数据仓库模型为目标数据模式,构建面向海量多源异构信息的数据集成模型,设计Web信息获取和集成流程以及增量信息的处理方法,通过具体实证研究检验模型和流程的运行效果。【结果/结论】实证结果显示,本文提出的数据模型和信息处理流程能有效的实现多源异构信息的集成,支持基于海量数据对的指数编制模式,为全世界各类指数编制的改变提供理论和技术方面的探索,也为数据集成在其他领域的应用提供有益参考。
关键词:集装箱运价指数 信息集成 数据仓库 模型 技术
中图分类号:G203

Container freight information integration research on Based Data Warehouse
WANG Zhan-ping, FENG Yang-wen
(School of Information Management, Central China Normal University, Wuhan 430079)
Abstract:[Purpose/significance]This paper presents a review on current methods of information acquisition in container freight index, and analyzes the main problems and shortcomings of it. To address the gaps such as lack of information source and information timeliness for container freight index. [Method/process]proposes new methods of container freight index based on big data, designs a set of oriented container freight index multi-sources heterogeneous information integration model and the Web information gathering and integration process . [Result/conclusion] The model and process can support multi-sources heterogeneous container freight information integration, it given the empirical results and an example of container freight index, the study provide a new methodology for index.
Keywords: container freight index information integration data warehouse model technique

1引言
近年来,随着世界贸易格局的变化和标准化进程的加快,集装箱船运输方式在国际海运中所占的比重在逐渐增加,集装箱运价的变化也一直受到业内人士的关注,研究国际集装箱运价指数的科学编制体系,及时准确地反映国际集装箱运价波动的程度和趋势,提高集装箱运价预测的能力,成为全球业内人士的共识。按照目前普遍的模式,运价样本信息的采集是按照如下准则来操作的:由指数编制机构指定若干企业或组织作为信息源提供者,提供者根据指数编制机构给出的信息标准和要求定期向指数编制机构单独报送信息,编制机构先对信息进行预处理,然后按照既定的算法得出某周期的航运运价指数[1];现行编制体系在理论层面具备科学性,可操作性强,所以被世界范围内的航运运价指数包括集装箱运价指数广泛采用,但其缺陷也长期存在,主要体现在以下两个方面:
(1)运价信息的属性
目前集装箱运价指数编制所用的运价信息采集自班轮公司和代理机构,且主要来自班轮公司的报送运价信息,该运价信息并非自由竞争市场的价格。这正是包括波罗的海交易所在内的诸多航运运价指数编制机构一直致力于找到实际市场价格来编制航运运价指数的原因。
(2)运价信息的及时性和广泛性
班轮公司报送的运价信息变化周期长,反映集装箱市场变化的及时性不够,在实际操作中容易受到人为因素而影响运价信息的准确性;而且运价信息的来源不够广泛[2]0。
互联网和电子商务的浪潮席卷全球,同样也在深深影响着航运业,全世界范围内出现了大量航运电子商务平台,这些平台将航运服务资源如集装箱船的舱位作为商品,基于互联网实现全流程在线交易;随着这些平台的运营和发展,越来越多的行业用户选择使用在线交易方式代替传统的纸面交易模式。这种模式表现出业务信息高度集中、实时性强、准确率高以及易于存储、传输和使用等优点。本文认为,集装箱运价指数编制的信息源完全可以从传统的使用采样数据的方法转变到以从事国际集装箱舱位交易电商平台和信息化系统上沉淀的运价信息为基础,运用信息集成技术整合多个平台和系统的运价数据,为集装箱运价指数的编制提供实时的、海量的、真实成交的运价信息[3]。
2常用的信息集成方法
信息集成技术经历了三十多年的发展,不同的阶段,针对的信息对象不同,采用的技术方法和体系结构也不同。
(1)联邦数据库
1980年代,数据集成的对象主要是异构数据库,多采用联邦数据库集成框架和多数据库语言方法集成架构等技术,联邦数据库管理系统通过执行控制和协调来实现对组件数据库中数据的集成[4]。前期采用紧密耦合的方式,但由于这种方式太脆弱,后期渐渐采用松散耦合的方式[5]。
(2)数据仓库
联邦数据库模式对于数据的集成是逻辑上的,随着信息用户对于决策支持的需要,物化方法(Materialized)开始出现,最常见的就是数据仓库方法,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策[6]。数据仓库的特点主要体现在以下三个方面:实现了分析数据与生产线数据的分离;实现多个异构数据源的集成;数据处理和分析能力强。
(3)Wrapper-Mediator方法
1990年代,随着面向对象和分布式网络技术的发展,针对异构数据库的数据集成研究主要集中在Wrapper-mediator体系结构方面[7]。Wrapper-Mediator方法又被称为中间件集成法[8]本质上是一种逻辑集成或者模式集成[9]。模式集成方法可以弥补物化方式在数据实时性上的一些不足,同时具备在网络延时小和参与运算的数据规模小的情况下计算速度更快、支持应用系统的应用模式经常变化、适用于某些特殊的数据源(如保密数据)等优势。该方法的弱点一是会对数据源所在的系统产生负担;二是应用系统的效率和结构在很大程度上依赖网络状况。
联邦数据库方法目前已很少被采用,模式集成的方法适用于数据源所在的系统庞大、数据更新频率高、目标数据所服务的系统要求数据实时性高且数据应用模式不固定的情况,数据仓库的方式适用于数据源分布广且网络延时较大、数据应用模式变化不多、应用对于数据的实时性要求不高但对系统响应时间要求短等情况,随着大数据时代的到来、硬件成本的不断下降以及分布式存储和计算技术的发展,越来越多的基于大数据的应用倾向于使用数据仓库的方式;当然也有学者提出了基于上述两种方法的综合方案[10]。
3基于数据仓库的运价信息集成模型
3.1运价信息集成模型的基本框架
集装箱运价指数编制的运价信息分布在处于异构环境中的不同航运电商平台或系统上,所以运价信息必然是异构的,需要找到一种有效的方法,根据集装箱运价指数编制的要求对运价信息进行集成,信息的集成不但要遵循完整性、针对性和动态性等原则[11],且集成后的结果能根据指数编制的模型进行组织和序化,能够针对指数分析的需求进一步进行多维度、多粒度融合和分析[12]。编制集装箱运价指数所需要的运价信息是历史数据,根据集装箱海运业务的惯例,数据采集的最高的频率为每日一次即可;为了实现运价指数编制的高效,必须实现对异构信息源的物理集成,通过序化使得结果数据的结构统一,同时为了保证指数结果的可回溯性,必须将运价信息与原业务系统分离,本文设计的基于数据仓库方法的信息集成模型如图1。
在这里插入图片描述

         图1 基于数据仓库的运价信息集成模型基本框架

其基本思想是:按照指数编制的需求,定义基于数据仓库的目标数据模式,针对三类异构信息,通过连接或解析或提取等手段操作信息源,再依照规则库和元数据模型对数据进行映射、抽取、清洗和转换,然后根据目标数据模式定义的格式将数据装载到数据仓库中,作为指数编制和指数服务等应用程序的信息处理对象,设置中间数据作为数据装载的写入缓冲。
3.2实现运价信息集成的关键技术
根据图1,基于数据仓库的运价信息集成模型要正常运转,其实现的关键技术有三个方面。
(1)定义数据仓库模型
定义多维的、有冗余的数据模型,方便使用上卷、下钻和切片等方法进行多层次多角度的分析,集装箱运价指数编制和分析的雪花模型如图2,这些信息以事实表和维表的方式存放在数据仓库中。
在这里插入图片描述

                   图2指数编制和分析的雪花模型

(2)集成异构信息
异构信息的集成首先要建立元数据库和规则库。事实表和维表确定元数据库的属性,根据指数编制的需求来确定属性的值域、格式和描述等内容。
在预处理环节,对于不同的信息源采用不同的方法,在本文的研究中,运价数据的主要来源是结构化和半结构化信息,非结构化信息主要用作本体库和知识库的完善和扩展;本体库主要包含与集装箱海运运价相关的概念以及这些概念之间的关系,随着信息的不断增加本体库将不断被完善,为了提高准确率,本体库的更新过程需要行业专家的人工介入,本体库为知识库的建立和完善提供概念和关系方面的支持。
在本文的研究中,知识库采用产生式知识表示方法,采用三元组或四元组的形式表示,根据概念、关系的不同分别采用(关系、概念1、概念2…)或(对象、属性、值)等表示形式,如(相等、起运港、装货港、POL)、(出错、20GP运价、小于0),知识库中存放的一条一条的规则,且规则之间不能相互调用[13],在本体库和知识库的基础上,建设和维护规则库,以形成计算机可执行的指令。
本文讨论的结构化信息主要针对关系型数据库。通过ODBC与原运价数据库建立数据连接,基于运价表或其他相关数据表创建本地数据副本;也可采用数据库工具或编写脚本将运价信息转换为易于识别的数据模式(如报文等),同时针对属性设计校验,对存在明显错误的运价数据记录实施过滤,以提高运价数据的使用效率。
本文讨论的半结构化信息特指Web信息。因运价信息分布在互联网的各个平台和系统上,先确定信息资源获取范围,获取后将Web信息存储在临时存储区,然后进行解析[14]。对于以Html、XML、Json等格式存储在临时存储区的运价信息,可采用两种方式。第一种方式是将文件视为字符流,读取运价文件的同时读取知识库,若文件中有字符内容与知识库相符,采用堆栈技术,根据特殊字符判断属性和内容,并抽取运价内容,读取规则库对属性的数据实施转换并插入目标数据仓库,若不相符,则根据特殊字符结合属性和内容推测,并向用户提示人工介入,判断抽取或舍弃该部分信息,同时更新知识库;第二种方式是采用文档对象模型(DOM),将XML文件中的运价信息内容解析为文档树,读取文档树中的子结点信息即可抽取出运价相关的属性和值。这两种方法在实际运用中都可调用开源的API。前者解析速度快,占用内存少,但开发较复杂,后者易于实现,但不适合大型文件的操作,也可以采用JDOM方法实现二者的结合。
Web信息获取和集成流程如图3所示。
在这里插入图片描述

                 图3 Web信息获取和集成流程图

流程简要描述如下:
①根据配置好的任务定向获取运价Web信息,策略为先广度再深度,直到指定的Web信息源获取完成;
②以文件形式存储运价Web信息至临时存储区;
③读取元数据库、转换规则库和知识库;
④采用相应的方法解析Web信息并抽取需要的运价相关信息以数据仓库的方式存储;
⑤错误日志在行业专家的介入下更新知识库和规则库。
(3)处理增量信息
必须设置周期性触发的定时任务以获取增量运价信息。对于结构化信息,定时任务自动扫描预定的所有数据库,若运价数据库中有Creattime字段,则直接采用时间戳判断增量信息,若无时间戳或无法获取到时间戳字段,则利用数据库主键值判断新增运价信息,对于分布式数据库(如RAC),数据库主键可能产生顺序混乱而导致增量运价数据无法完整采集的情况,则采取数据对比判断的方法,根据数据对比后的结果调用任务(Job),实施增量更新。
设原数据库运价表为PTA(Ac1、Ac2、……Acn),目标数据库运价表为PTB(Bc1、Bc3、Bc5、Bc7);定义:PTA CONN PTB
定义:视图V
Select (Ac1,Ac3,Ac5,Ac7)from PTA@CONN PTA
When not exist(select Bc1 from PTB when PTA.Ac1=PTB.Bc1)定义:任务job
Insert into PTB
Select * from V
对于Web信息的增量采集,根据URL的特征采用不同的方法。若URL是动态的,即URL是由“固定值+$Param(参数)”构成,不同的运价页面参数不同,则构建如表1样例所示URL模式表,
表1 URL模式样例表
URL Model Variable
acompany.com/price N
$param?(POD,POL)…… Y
运价采集程序读取目标URL,对比URL模式表,如可变化参数部分的内容与目标库中已有的URL完全一致,则判断该Web为已存在信息,则放弃,反之则判断其为增量运价信息;若URL是静态的,但运价信息持续更新,则提取homepage或者startpage中输入下拉菜单列表中的内容,针对这些内容进行深度和广度遍历,获取所有运价Web,将获取的信息输入已定义好的Hash表达式计算得新获取Web信息的Hash值,将结果与目标库中已有的URL的Hash值对比,值相同,则舍弃,反之则判断其为增量运价信息。
非结构化信息通常以文件形式存储在既定的目录中,定时任务扫描文件根目录,按照文件系统的规则确定新文件,只读取和发送新文件。
4实证研究
4.1数据来源与处理
使用某市集装箱舱位订舱平台的后台运价数据库信息与某几个集装箱舱位订舱网站的Web运价信息对本文提出的信息集成模型进行检验。其中该订舱平台运价数据库(如图4所示)共包含379314条运价信息,包括起运港、中转港、目的港、船公司、货代公司、发布日期、有效日期(有效期起和有效期止)和各箱型运价(四种箱型:20GP、40GP、40HC和45HQ)等13个属性字段;配置Web信息获取任务,从多个网站获取运价信息,各个网站运价信息的属性都不尽相同,样例见图2;在行业专家的协助下建立知识库和转换规则库,经过数据预处理之后,利用信息集成模型对这些数据实施抽取、转换,最后将数据存储在数据仓库中,集成后的数据仓库样例见图6。
在这里插入图片描述

                     图4:某运价数据库截图

在这里插入图片描述

 图5:电商平台web页截图(Freight list from dayinghome.com)

在这里插入图片描述

              图6:集成之后的数据仓库图

4.2数据集成的效果
将结构化信息、半结构化信息以及非结构化信息按照上述模型进行信息集成,作为集装箱运价指数编制的基础信息,指数编制系统根据实际业务情况执行数据清洗和运算之后,得出运价指数结果,如图7所示;指数分析系统从不同的维度和粒度进行数据挖掘,以支撑指数报告等其他服务。
在这里插入图片描述

             图7:**出口集装箱运价指数示例

5结语
在针对航运运价指数领域中,大多数学者进行的是航运运价指数编制模型和应用层面的研究,很少涉及用于编制航运运价指数的基础信息来源和信息集成的研究。本文从大数据背景出发,面向集装箱运价指数编制的需要,设计信息集成模型,探讨其原理和实现技术,并进行了实证研究,结果说明将分散在各航运电商平台和系统上的运价通过信息集成作为集装箱运价指数编制的可行性,今后研究的重点在于进一步完善针对半结构和非结构化数据的集成模型和算法,以提高其准确度、自动化程度和集成效率。

参考文献
[1]周甫宾. 基于EDI的集装箱运价指数生成与技术分析[J]. 中国航海,2006,03:82-86.
[2]Zhao Yifei ,Zhang Dali ,Tatsuo Yanagita .World Conference on Transport Research WCTR 2016 : Container liner freight index based on data from e-booking platforms:Shanghai,10-15 July 2016
[3]付东方,赵一飞. 集装箱运价指数数据源及算法分析[J]. 大连海事大学学报,2015,03:87-92.
[4]陈海敏. 异构信息集成系统研究[J]. 情报科学,2008,12:1902-1907.
[5]JM Smith,PA Bernstein,U Dayal. Multibase: integrating heterogeneous distributed database systems… - American Federation of Information Processing Societies: National Computer Conference – 1981;487-499
[6]W.H.Inmon. Building the Data Warehouse .Boston: QED Technical Publishing Group,1992
[7]谷岩,冯华. 利用数据仓库技术解决异构数据库的集成问题[J]. 计算机应用与软件,2005,06:24-26.
[8]Wiederhold G. Mediators in the architecture of future information systems. IEEE Computer . 1992,25(3):38-49
[9]D. Florescu,A. Levy,and A. Mendelzon.Database Techniques for the World Wide Web: A Survey. . 1998
[10]陈跃国,王京春. 数据集成综述[J]. 计算机科学,2004,05:48-51.
[11]马大川 ,杨红平.信息资源的集成整合研究 [J].中国图书馆学报,2004,(3):36-40.
[12]刘平峰,章佩璐,张军,余文艳. 面向主题的Web信息融合模型[J]. 图书情报工作,2011,08:40-43.
[13]徐宝祥,叶培华. 知识表示的方法研究[J]. 情报科学,2007,05:690-694.
[14]孟小峰. Web信息集成技术研究[J]. 计算机应用与软件,2003,11:32-36,63.

猜你喜欢

转载自blog.csdn.net/wesleyfyw/article/details/117319706