NitroSketch: Robust and General Sketch-based Monitoring in Software Switches研读笔记

文章目录

设计思路

基于采样的测量方法只有当测量时间足够长以后才能够提供准确率的保证. 我们把收敛时间定义成为从开始测量到获得准确的测量结果所用的时间.

NitroSketch的关键创新点:
想法一: 保持原有的多哈希表结果, 并且基于哈希表进行采样 (而不是基于信息流进行采样). 当一个数据包到达的时候, 对于每一个哈希表, 我们都以概率 p p 对其进行更新. 通过选取合适的 p p 的值, 我们可以使对每个数据包进行的进行哈希和更新哈希表的次数减少到1以下. 但是这个想法对于每个数据包都需要进行多次取随机数的操作, 而取随机数是一个相当耗时的操作.

想法二: 通过几何采样 (Geometric Sample)来减少取随机数的操作的次数. 为了避免对每一个数据包都取多个随机数, 我们采用对几何分布进行采样的方式来决定(1)下一步更新哪一个哈希表, 以及(2) 在更新哈希表之前需要跳过多少个数据包. 假设采样成功概率为 p p , 则我们对下一个数据包(即跳过0个数据包)进行采样的概率为 Pr ( X = 0 ) = p \Pr(X=0) = p , 跳过1个数据包进行采样的概率为 Pr ( X = 1 ) = ( 1 p ) p \Pr(X=1) = (1-p)p , 依此类推, 跳过 k k 个数据包进行采样的概率为 Pr ( X = k ) = ( 1 p ) k 1 p \Pr(X=k) = (1-p)^{k-1}p . 因此, D ( n ) = k = 0 n Pr ( X = k ) = 1 ( 1 p ) n + 1 D(n)=\sum_{k=0}^n\Pr(X=k)=1-(1-p)^{n + 1} 即为一个几何分布. 因此, 为决定下一次对哪一个数据包进行采样, 我们可以取一个随机数 Y Y . 如果 Y D ( 0 ) Y\le D(0) , 则我们对下一个数据包进行采样; 否则, 如果 D ( k ) < Y D ( k + 1 ) D(k) < Y \le D(k+1) , 则我们从下一个数据包开始, 跳过 k + 1 k+1 个数据包再进行采样. 假设我们有5个哈希表 H 0 , H 2 , , H 4 H_0, H_2, \cdots, H_4 , 当前我们对数据包进行采样并更新哈希表 H 3 H_3 . 通过几何采样我们得知, 我们需要跳过5个数据包进行采样, 即我们需要从下一个数据包开始的第6个数据包进行采样, 则我们对这个数据包采样的时候需要更新的哈希表为 H ( 3 + 6 ) % 5 H_{(3+6)\%5} H 4 H_4 . (这部分内容大多是根据我的理解写的, 而非直接抄录原文的内容)

想法三: 根据数据包到达速率调整采样频率来减少收敛时间. 如果我们使用固定的采样频率, 那么我们必须要兼顾到可能的最大的数据包到达速率, 因此不得不选择一个较小的采样频率. 但是当数据包到达速率较小的时候, 一个过小的采样频率会导致收敛时间不必要地增加, 因此根据数据包到达速率动态调整采样频率能够在兼顾CPU负荷的情况下获得更高的准确率和更短的收敛时间.

我们有两种自适应的采样模式. (1) AlwaysLineRate: 将采样频率 p p 设为当前数据包到达频率的倒数, 因此在单位时间内, 我们进行采样的次数是一定的. (2) AlwaysCorrect: 开始的时候采用 p = 1.0 p=1.0 的采样频率对数据流进行采样, 但是我们的采样结果能够收敛以后就切换到AlwaysLineRate模式进行采样.

想法四: 把需要更新的数据包和哈希桶缓存起来, 并使用SIMD进行并行操作来提高效率. 这个只是作者采样的一个小技巧, 没有什么值得讨论的.

理论分析

假设 U \mathcal{U} 为所有数据流的集合, 而 f x f_x 是数据流 x x 的长度 (比如数据包数), 其中 x U x\in \mathcal{U} . L k F k k = x U f x k k L_k\triangleq\sqrt[k]{F_k} = \sqrt[k]{\sum_{x\in\mathcal{U}}f_x^k} 是频数向量 f f 的第 k k 范数 (k-th norm). 特别地, L 1 L_1 是被测数据包的总数. 假设我们采用恒定的采样概率 p p (这里的采样概率是计算几何分布时候的概率, 而不是采样频率)对网络流量进行采样.

定理1. d log 2 δ 1 d\triangleq \log_2\delta^{-1} , w 4 ϵ 1 w\triangleq 4\epsilon^{-1} . 对于给定信息流, 如果存在一个足够大的常数 c c , 有 L 1 c ( ϵ 2 p 1 log δ 1 ) L_1 \ge c\cdot (\epsilon^{-2}p^{-1}\sqrt{\log\delta^{-1}}) , 则NitroSketch + Count-Min满足如下不等式:
Pr [ f x ^ f x ϵ L 1 ] δ \Pr[|\widehat{f_x} - f_x|\ge \epsilon L_1]\le \delta
其中 f x f_x f x ^ \widehat{f_x} 分别是数据流 f f 的真实频率和估计频率.

定理1在原文中没有给出证明; 按照作者的说法, 它的证明过程来自< Constant Time Updates in Hierarchical Heavy Hitters>(SIGCOMM 2017)这篇文章. 如果我之后读完这篇文章, 那将会在此处给出我的研读笔记的链接.

定理2. w = 8 ϵ 2 p 1 w=8\epsilon^{-2}p^{-1} , d = O ( l o g δ 1 ) d=O(log\delta^{-1}) . AlwaysLineRate模式的空间复杂度为 O ( ϵ 2 p 1 log δ 1 ) O(\epsilon^{-2}p^{-1}\log \delta^{-1}) , 分摊时间复杂度为O(1 + dp), 并且在信息流中, 如果 L 2 8 ϵ 2 p 1 L_2 \ge 8\epsilon^{-2}p^{-1} , 则有 Pr ( f x f x ^ > ϵ L 2 ) δ \Pr(|f_x - \widehat{f_x}| > \epsilon L_2) \le \delta .

证明: 假设当一个数据包到达的时候, 我们会为每一个哈希表进行采样. (我理解的原文应该就是这个意思; 如果真是这样, 那就比较有意思了, 因为NitroSketch的一个主要优势就是我们不需要为每一个哈希表对数据包进行采样.) 令 S i S S_i\subseteq S 为被采样并更新哈希表 H i H_i 的数据包的集合, 其中 i = 1 , , d i = 1, \cdots, d . 此外, 我们令 f i , x { j ( x j S i ) ( x j = x ) } f_{i, x}\triangleq|\{j | (x_j \in S_i) \wedge(x_j = x)\}| 为数据流 x x S i S_i 中出现的频数, 即来自数据流 x x 的数据包被用来更新哈希表 H i H_i 的次数. 令 L 2 x U f x 2 L_2\triangleq\sqrt{\sum_{x\in\mathcal{U}}f_x^2} 表示信息流 S S 的频数向量的第二范数. 类似地, L 2 , i x U f i , x 2 L_{2, i} \triangleq\sqrt{\sum_{x\in\mathcal{U}}f_{i,x}^2} 表示信息流 S i S_i 的频数向量的第二范数. 因此, i { 1 , , d } , L 2 , i L 2 \forall i\in \{1, \cdots, d\}, L_{2, i}\le L_2 . p p 为对数据包的采样概率.

在引理3中, 我们将会证明
E ( L 2 , i 2 ) 2 p L 2 2 . E(L_{2, i}^2)\le 2pL_2^2.

C ( i , h i ( x ) ) C_{(i, h_i(x))} 为哈希表 H i H_i 中索引为 h i ( x ) h_i(x) 的哈希桶的计数值, g i ( x ) g_i(x) 的含义可见原文的算法1. 在引理4中, 我们将会证明
V a r [ C i , h i ( x ) g ( x ) p 1 f i , x ] 2 p 1 L 2 2 / w . Var[C_{i, h_i(x)}g(x) - p^{-1}f_{i, x}]\le 2p^{-1}L_2^2/w.
在这里我们将首先使用这两个引理的结论, 并在之后给出具体的证明过程.

因为 f i , x B ( f x , p ) f_{i, x}\sim B(f_x, p) , 即 f i , x f_{i, x} 服从二项分布, 所以 E ( f i , x ) = f x p E(f_{i,x})=f_xp , V a r ( f i , x ) = f x p ( 1 p ) Var(f_{i, x}) = f_xp(1-p) . (如果一个数据包随机地映射到 d d 个哈希表中的一个, 则f_{i,x}不应该服从参数为 f x f_x p p 的二项分布, 所以这里我的理解是, 数据包都会被映射到 d d 个哈希表中的每一个.)

A C i , h i ( x ) g i ( x ) , B p 1 f i , x A\equiv C_{i, h_i(x)}g_i(x), B\equiv p^{-1}f_{i, x} . 因为 V a r ( f i , x ) = f x p ( 1 p ) Var(f_{i, x}) = f_xp(1-p) , 所以 V a r ( B ) = f x p 1 ( 1 p ) Var(B) = f_xp^{-1}(1-p) .

因为 A B A-B (除 x x 以外的所有数据流)和 B B (数据流 x x )是独立的, 所以有
V a r ( A ) = V a r ( ( A B ) + B ) = V a r ( A B ) + V a r ( B ) 2 p 1 L 2 2 / w + f x p 1 ( 1 p ) 2 p 1 L 2 2 / w + f x p 1 Var(A) = Var((A-B) + B) = Var(A - B) + Var(B)\le 2p^{-1}L_2^2/w + f_xp^{-1}(1-p)\\ \le 2p^{-1}L_2^2/w + f_xp^{-1}

因为
E ( C i , h i ( x ) g i ( x ) ) = p 1 x U h i ( x ) = h i ( x ) E ( f i , x g i ( x ) g i ( x ) ) = p 1 E ( f i , x ) = f x E(C_{i, h_i(x)}\cdot g_i(x)) = p^{-1}\sum_{x'\in\mathcal{U}|h_i(x)=h_i(x')}E(f_{i,x'}\cdot g_i(x')\cdot g_i(x)) = p^{-1}E(f_{i,x})=f_x
(关于以上这个不等式, 我认为存在这篇文章中的第二个疑点, 即它似乎认为当 x x x'\neq x 时, E ( f i , x g i ( x ) g ( x ) ) = 0 E(f_{i,x'}\cdot g_i(x')\cdot g(x)) = 0 , 然而我不能理解这么做得理由.)

所以记哈希表 H i H_i 对数据流 x x 的频数的估计值为 f x ( i ) ^ A = C i , h i ( x ) g ( x ) \widehat{f_x(i)}\triangleq A = C_{i, h_i(x)}g(x) , 则根据切比雪夫不等式有:
Pr [ f x ( i ) ^ f x ϵ L 2 ] = Pr [ C i , h i ( x ) g ( x ) E ( C i , h i ( x ) g ( x ) ) ϵ L 2 ] = Pr [ A E ( A ) ϵ L 2 ] Pr [ A E ( A ) δ ( A ) ϵ L 2 2 p 1 L 2 2 / w + f x p 1 ] 2 p 1 L 2 2 / w + f x p 1 ( ϵ L 2 ) 2 = 2 / w p ϵ 2 + f x p ( ϵ L 2 ) 2 2 / w p ϵ 2 + 1 p ϵ 2 L 2 \Pr[|\widehat{f_x(i)} - f_x| \ge \epsilon L_2] = \Pr[|C_{i, h_i(x)}g(x) - E(C_{i, h_i(x)}g(x))|\ge \epsilon L_2] = \Pr[|A - E(A)|\ge \epsilon L_2]\\ \le \Pr[|A - E(A)|\ge \frac{\delta(A)\cdot \epsilon L_2}{\sqrt{2p^{-1}L_2^2/w + f_xp^{-1}}}]\le \frac{2p^{-1}L_2^2/w+f_xp^{-1}}{(\epsilon L_2)^2}=\frac{2/w}{p\epsilon^2} + \frac{f_x}{p(\epsilon L_2)^2}\le \frac{2/w}{p\epsilon^2} + \frac{1}{p\epsilon^2L_2}

L 2 8 p 1 ϵ 2 , w 8 p 1 ϵ 2 L_2\ge 8p^{-1}\epsilon^{-2}, w \ge 8p^{-1}\epsilon^{-2} , 则有
Pr [ f x ( i ) ^ f x ϵ L 2 ] l e 3 8 \Pr[|\widehat{f_x(i)} - f_x| \ge \epsilon L_2]le \frac{3}{8}

因为我们的算法使用了 d = O ( log δ 1 ) d=O(\log\delta^{-1}) 个相互独立的哈希表, 所以令 f x ^ = m e d i a n i { 1 , , d } f x ( i ) ^ \widehat{f_x} = \mathrm{median}_{i\in\{1, \cdots, d\}}\widehat{f_x(i)} , 则由切诺夫界可知, Pr ( f x f x ^ > ϵ L 2 ) δ \Pr(|f_x - \widehat{f_x}| > \epsilon L_2)\le \delta 成立. (我并不知道切诺夫界应该怎么应用于这里所述的情况.)

引理3. E [ L 2 , i 2 ] 2 p L 2 2 E[L_{2, i}^2]\le 2pL_2^2
证明: 因为 f i , x B ( f x , p ) f_{i, x}\sim B(f_x, p) , 所以 E ( f i , x ) = f x p , V a r ( f i , x ) = f x p ( 1 p ) E(f_{i,x}) = f_xp, Var(f_{i, x}) = f_xp(1-p)
所以有
E [ L 2 , i 2 ] = x U E [ f i , x 2 ] = x U ( V a r [ f i , x ] + ( E [ f i , x ] ) 2 ) = x U ( f x p ( 1 p ) + ( f x p ) 2 ) x U 2 p f x = 2 p L 2 2 E[L_{2, i}^2] = \sum_{x\in\mathcal{U}}E[f_{i,x}^2] = \sum_{x\in\mathcal{U}}(Var[f_{i,x}] + (E[f_{i, x}])^2) = \sum_{x\in\mathcal{U}}(f_xp(1-p) + (f_xp)^2)\le \sum_{x\in\mathcal{U}}2pf_x=2pL_2^2

引理4. V a r [ C i , h i ( x ) g i ( x ) p 1 f i , x ] 2 p 1 L 2 2 / w Var[C_{i, h_i(x)}g_i(x) - p^{-1}f_{i, x}]\le 2p^{-1}L_2^2/w
证明: 首先, C i , h i ( x ) g i ( x ) = p 1 x U h i ( x ) = h i ( x ) f i , x g i ( x ) C_{i, h_i(x)}g_i(x) = p^{-1}\sum_{x'\in\mathcal{U}|h_i(x)=h_i(x')}f_{i, x'}g_i(x')
如定理3中所述, 因为本人不能理解的原因, 当 x x x'\neq x 时, E ( f i , x g i ( x ) g i ( x ) ) = 0 E(f_{i, x'}g_i(x)g_i(x')) = 0 , 且当 x = x x=x' 时, E ( f i , x g i ( x ) g i ( x ) ) = E ( f i , x ) E(f_{i, x'}g_i(x)g_i(x')) = E(f_{i,x}) . 所以
E ( C i , h i ( x ) g i ( x ) ) = p 1 x U h i ( x ) = h ( x ) E ( f i , x g i ( x ) g i ( x ) ) = p 1 E ( f i , x ) = f x E(C_{i, h_i(x)}\cdot g_i(x)) = p^{-1}\sum_{x'\in\mathcal{U}|h_i(x')=h_(x)}E(f_{i,x'}\cdot g_i(x')\cdot g_i(x)) = p^{-1}E(f_{i, x}) = f_x
E ( C i , h i ( x ) g i ( x ) p 1 f i , x ) = 0 E(C_{i, h_i(x)}\cdot g_i(x) - p^{-1}f_{i,x}) = 0
此外, x U / { x } , Pr [ h i ( x ) = h i ( x ) ] = 1 w . \forall x'\in\mathcal{U}/\{x\}, \Pr[h_i(x) = h_i(x')] = \frac{1}{w}.
V a r [ C i , h i ( x ) g ( x ) p 1 f i , x ] = E ( ( C i , h i ( x ) g i ( x ) p 1 f i , x ) 2 ) = E ( ( C i , h i ( x ) g ( x ) ) 2 2 p 1 C i , h i ( x ) g ( x ) f i , x + p 2 f i , x 2 ) = E [ ( p 1 x U h i ( x ) = h i ( x ) f i , x g i ( x ) g i ( x ) ) 2 2 p 1 ( p 1 x U h i ( x ) = h i ( x ) f i , x g i ( x ) g i ( x ) f i , x ) + p 2 f i , x 2 ] = p 2 E [ ( x U h i ( x ) = h i ( x ) f i , x 2 ) f i , x 2 ] = p 2 E [ x U / { x } h i ( x ) = h i ( x ) f i , x 2 ] p 2 E ( L 2 , i 2 ) / w 2 p 1 L 2 2 / w Var[C_{i,h_i(x)}g(x)-p^{-1}f_{i,x}] = E((C_{i, h_i(x)}\cdot g_i(x) - p^{-1}f_{i,x})^2)\\ = E((C_{i,h_i(x)}g(x))^2 - 2p^{-1}C_{i,h_i(x)}g(x)f_{i,x} + p^{-2}f_{i,x}^2)\\ = E[(p^{-1}\sum_{x'\in\mathcal{U}|h_i(x)=h_i(x')}f_{i, x'}g_i(x')g_i(x))^2-2p^{-1}(p^{-1}\sum_{x'\in\mathcal{U}|h_i(x)=h_i(x')}f_{i, x'}g_i(x')g_i(x)f_{i,x}) + p^{-2}f_{i,x}^2]\\ = p^{-2}E[(\sum_{x'\in\mathcal{U}|h_i(x)=h_i(x')}f_{i,x'}^2) - f_{i, x}^2]\\ =p^{-2}E[\sum_{x'\in\mathcal{U}/\{x\}|h_i(x)=h_i(x')}f_{i,x'}^2 ]\\ \le p^{-2}E(L_{2, i}^2)/w\le 2p^{-1}L_2^2/w

猜你喜欢

转载自blog.csdn.net/nankai0912678/article/details/105876402