机器学习——SVM核函数

核函数这块，原理理解起来，相对比较简单

但还是会有一些不太理解的地方

对于非线性可分的数据而言，在当前维度，直接使用SVM有分不出的情况

那么就可以从当前维度，直接升到更高维度，进行计算。

例如原本数据只有3个影响因素 $x_a,x_b,x_c$ （性别）（年龄）（样貌）,那么根据这三个维度的数据，可以拓展成更高维度（更多个不具名的影响因素），例如xc、xd、xe、xf、xg，再代入SVM的对偶问题里进行计算

其实有一本书《人工智能数学基础》里，描述的还是挺清晰的
在这里插入图片描述

另外讲到高斯核函数的时候，还给出了推导

在这里插入图片描述

这里的推导，实际就是在印证高斯核函数中，是如何拓展成高维向量，并且高维向量的点积，是如何用当前低维数据进行计算的。

$e^{-||x-y||²}=e^{-x^2}e^{-y^2}[1+\frac{(2x.y)^1}{1!}+\frac{(2x.y)^2}{2!}+\frac{(2x.y)^3}{3!}...]$

这里高维向量的点积，体现在 $e^{-x^2}e^{-y^2}[1+\frac{(2x.y)^1}{1!}+\frac{(2x.y)^2}{2!}+\frac{(2x.y)^3}{3!}...]$

在SVM对偶函数求解里，正是需要求解点积

假设原数据的x总共分为3个影响因素 $x_a,x_b,x_c$

则两条数据分别为 $x_{a1}，x_{b1}，x_{c1})$ , $x_{a2}，x_{b2}，x_{c2})$

则它们的点积为 $x_{a1}x_{a2}+x_{b1}x_{b2}+x_{c1}x_{c2}$

但如果，现在将3个影响因素通过某种关系，上升到无穷个影响因素， $x_e,x_f,x_g,x_h,x_k$

这两条数据就变为了
$x_{e1},x_{f1},x_{g1},x_{h1},x_{k1}...$
$x_{e2},x_{f2},x_{g2},x_{h2},x_{k2}...$

则它们的点积为
$x_{e1}x_{e2}+x_{f1}x_{f2}+x_{g1}+x_{h1}x_{h2}+x_{k1}x_{k2}+...$

但由于高维度的点积计算量太大，找到一个原低维的计算式等于高维的点积结果，那个计算式就是核函数！

高斯核函数中的 $e^{-x^2}e^{-y^2}[1+\frac{(2x.y)^1}{1!}+\frac{(2x.y)^2}{2!}+\frac{(2x.y)^3}{3!}...]$ 无穷维的两条数据点积，对应的计算式正是 $e^{-||x-y||²}$ ，这正是核函数

只是高斯核函数还有一个参数σ，也叫核半径

$e^{\frac{-||x-y||²}{2σ}}$ ，当x,y两条数据差距非常小，很接近时，核函数值接近1，
当x,y两条数据差距非常大时，核函数值接近0

这就像是正态分布（高斯分布）

那么σ的作用，就是调节用的：

极端来看，当σ值非常非常非常非常大时，如果x和y两条数据差距比较大，核函数值也依然接近1

因此，核函数正是一个低维升高维求解线性关系，并用低维数据计算替代高维点积的计算式。