Online algorithms for uploading deferrable big data to the cloud文章阅读笔记

问题挑战：

用户和云平台之间的数据传输过程中，除了计算成本控制（云平台中心的费用计算），通信成本控制（带宽费用）也是一个很大的挑战，本文就带宽费用（传输费用）最小化问题做出了研究。已存在的研究都是假设用户生成的数据必须立即上传到云端，没有任何延迟，这种解决办法只能限制在流量比较平滑这种情况。基于延迟传输的传输费用最小化在线算法还没有出现（有一个例外），难度较大。

一个例外：Simple Smoothing，简单平摊算法，将所有任务平摊至其允许的时间延迟中。缺点：简单平摊算法忽略了一些信息，比如迄今为止传输的最大流量，任务累积以及最后期限的压力等。

第一个算法：The Heuristic SmoothingAlgorithm。启发式平摊算法，首先将截至当前最大流量与当前总平均任务数（此刻任务数+缓冲任务数然后平摊至各自的时间延迟中）进行比较，取最大值，然后与当前任务总数进行比较，取最小值作为当前时刻需处理任务数。

启发式平摊算法弥补了简单平摊算法的缺陷，当当前任务总数极大时，会将当前任务总数平摊后处理；当当期那任务总数极小时，会全部即刻处理；当当前任务总数适中时，会按照历史最大流量进行处理。

启发式平摊算法竞争比上界和简单平摊算法相同（2-1/（D+1））。这两个竞争比都是在一对一简单模型上面进行讨论的，在实际云环境中，在线算法竞争比要大得多，在第五节讨论。

实际云环境下，在线算法的竞争比与云中mapper的数量有关，而且是一个幂函数。本文提出分布式随机在线算法，旨在随机分配任务给随机的mapper，分配好mapper后，依据启发式平摊算法进行传输调度。随机在线算法的竞争比与mapper数量无关。

费用计算函数是自定义的，包含参数 α，但为什么这样定义没有说明白。在实验环节，假设有5个mapper，5个reducer，α=2。

在一对一模型下，考虑最大流量时，启发式平摊算法要比简单平摊算法小28%，启发式平滑算法可以更好地分摊峰值，并且对数据波动不那么敏感。

可容忍的延迟大小对性能的影响：计算出离线最优算法作为benchmark，且实现了简单平摊算法、启发式平摊算法、即时传输算法。结论：启发式平摊算法好于简单平摊算法好于ITA；启发式平摊算法接近于离线最优算法；竞争比低于1.5，在1.2附近，好于证明结果。随着延迟的增大，ITA表现肯定越来越差，简单平滑算法表现先差（0-2）后好（2-25），启发式平滑算法影响不是很明显，平稳波动。

随后改变输入数据的波动情况，有泊松分布、高斯分布、自定义随机分布。看三个算法的表现。

云场景仿真实验：the randomizedalgorithm VS the native algorithm

随机算法要比传统算法费用要低，尤其是延迟越大时。D=5时，随机算法节省大约45%；D=10时，随机算法节省大约68%；

在调查β影响的实验中，当D很小时，β越大会造成越大的花费；当D很大时，β即使很大，费用依旧很低，影响很小。

Online algorithms for uploading deferrable big data to the cloud文章阅读笔记

猜你喜欢