Online algorithms for uploading deferrable big data to the cloud文章阅读笔记

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/yangss123/article/details/78077864

问题挑战:

用户和云平台之间的数据传输过程中,除了计算成本控制(云平台中心的费用计算),通信成本控制(带宽费用)也是一个很大的挑战,本文就带宽费用(传输费用)最小化问题做出了研究。已存在的研究都是假设用户生成的数据必须立即上传到云端,没有任何延迟,这种解决办法只能限制在流量比较平滑这种情况。基于延迟传输的传输费用最小化在线算法还没有出现(有一个例外),难度较大。

一个例外:Simple Smoothing,简单平摊算法,将所有任务平摊至其允许的时间延迟中。缺点:简单平摊算法忽略了一些信息,比如迄今为止传输的最大流量,任务累积以及最后期限的压力等。

第一个算法:The Heuristic SmoothingAlgorithm。启发式平摊算法,首先将截至当前最大流量与当前总平均任务数(此刻任务数+缓冲任务数然后平摊至各自的时间延迟中)进行比较,取最大值,然后与当前任务总数进行比较,取最小值作为当前时刻需处理任务数。

启发式平摊算法弥补了简单平摊算法的缺陷,当当前任务总数极大时,会将当前任务总数平摊后处理;当当期那任务总数极小时,会全部即刻处理;当当前任务总数适中时,会按照历史最大流量进行处理。

启发式平摊算法竞争比上界和简单平摊算法相同(2-1/(D+1))。这两个竞争比都是在一对一简单模型上面进行讨论的,在实际云环境中,在线算法竞争比要大得多,在第五节讨论。

实际云环境下,在线算法的竞争比与云中mapper的数量有关,而且是一个幂函数。本文提出分布式随机在线算法,旨在随机分配任务给随机的mapper,分配好mapper后,依据启发式平摊算法进行传输调度。随机在线算法的竞争比与mapper数量无关。

费用计算函数是自定义的,包含参数α,但为什么这样定义没有说明白。在实验环节,假设有5个mapper,5个reducer,α=2。

在一对一模型下,考虑最大流量时,启发式平摊算法要比简单平摊算法小28%,启发式平滑算法可以更好地分摊峰值,并且对数据波动不那么敏感。

可容忍的延迟大小对性能的影响:计算出离线最优算法作为benchmark,且实现了简单平摊算法、启发式平摊算法、即时传输算法。结论:启发式平摊算法好于简单平摊算法好于ITA;启发式平摊算法接近于离线最优算法;竞争比低于1.5,在1.2附近,好于证明结果。随着延迟的增大,ITA表现肯定越来越差,简单平滑算法表现先差(0-2)后好(2-25),启发式平滑算法影响不是很明显,平稳波动。

随后改变输入数据的波动情况,有泊松分布、高斯分布、自定义随机分布。看三个算法的表现。

云场景仿真实验:the randomizedalgorithm VS the native algorithm

随机算法要比传统算法费用要低,尤其是延迟越大时。D=5时,随机算法节省大约45%;D=10时,随机算法节省大约68%;

在调查β影响的实验中,D很小时,β越大会造成越大的花费;当D很大时,β即使很大,费用依旧很低,影响很小。


猜你喜欢

转载自blog.csdn.net/yangss123/article/details/78077864
今日推荐