《统计学习方法》--核函数的学习:对字符串核函数的补充

  在《统计学习方法》第一版P123或第二版P141中提到:
  字符串核函数的映射 ϕ n ( s ) \phi_n(s) 将字符串 s s 对应于希尔伯特空间的一个向量,其在子串 u u 维上的取值为: [ ϕ n ( s ) ] u = i : s ( i ) = u λ l ( i ) [\phi_n(s)]_u=\sum_{i:s(i)=u}{\lambda^{l(i)}}   这里, 0 < λ 1 0<\lambda\leq1 是一个衰减参数, l ( i ) l(i) 表示字符串 i i 的长度,求和在 s s 中所有与 u u 相同的字串上进行。
  两个字符串 s s t t 上的字符串核函数是基于映射 ϕ n \phi_n 的特征空间中的内积:
k n ( s , t ) = u n [ ϕ n ( s ) ] u [ ϕ n ( t ) ] u = u n ( i , j ) : s ( i ) = t ( i ) = u λ l ( i ) λ l ( j ) \begin{aligned} k_n(s,t) & =\sum_{u\in\sum^n}{[\phi_n(s)]_u[\phi_n(t)]_u} \\ & =\sum_{u\in\sum^n}{\sum_{(i,j):s(i)=t(i)=u}{\lambda^{l(i)}\lambda^{l(j)}}} \\ \end{aligned}   这里, n \sum^n 表示所有长度为 n n 的字符串的集合。
  其他博文中出现了以下这个例子:

在这里插入图片描述
  按上述公式,
k ( f o g , f o g ) = u n [ ϕ n ( f o g ) ] u [ ϕ n ( f o g ) ] u = λ 2 × λ 2 + λ 3 × λ 3 + λ 2 × λ 2 = 2 λ 4 + λ 6 \begin{aligned} k(fog,fog) & =\sum_{u\in\sum^n}{[\phi_n(fog)]_u[\phi_n(fog)]_u} \\ & =\lambda^2\times\lambda^2+\lambda^3\times\lambda^3+\lambda^2\times\lambda^2 \\ & =2\lambda^4+\lambda^6 \end{aligned}

发布了27 篇原创文章 · 获赞 10 · 访问量 5005

猜你喜欢

转载自blog.csdn.net/l1l1l1l/article/details/103487992