支持向量机–SVM与核学习–kernel

原话说的是，主要考察思想…\ …你搁这搁这呢

讨论最基本的二分类的支持向量机（ $support\ vector\ machines, SVM$ ），考虑训练样本集 $D=\left(\overrightarrow{x_{1}}, y_{1}\right), \ldots,\left(\overrightarrow{x_{m}}, y_{m}\right), y_{i} \in-1,+1$ 。从最基本的超平面划分训练样本开始，导出 $SVM$ 的基本问题，再利用对偶问题求解，最后讨论 $SVM$ 的核技巧。

SVM

超平面

超平面（Hyper Plane）是在样本空间中的一个平面。在我们熟悉的二维平面上, 一条直线的方程可以表示为 $a x+b y+c=0$ , 推广到多维的情况之后，超平面可以用向量的形式表示为 $\vec{w} \cdot \vec{x}+b=0$ , 记为 ( $\vec{w}, b$ ) 的形式，其中 $\vec{w}$ 是法向量，而 $b$ 为位移项。
考虑任意一点 $\vec{x}$ 到超平面之间的距离，可以表示为:

$\gamma=\frac{|\vec{w} \cdot \vec{x}+b|}{\|\vec{w}\|}$

超平面能将样本空间划分成两部分。假设超平面 ( $\vec{w}, b$ ) 将所有样本正确分类, 即对于任意的 $\left(\overrightarrow{x_{i}}, y_{i}\right) \in D$ , 若 $y_{i}=+1$ , 那么 $\vec{w} \cdot \vec{x}+b>0$ , 若 $y_{i}=-1$ , 那么 $\vec{w} \cdot \vec{x}+b<0$ 。像这样的决策函数可以表示为:

$y_{i}=\operatorname{sign}\left(\vec{w} \cdot \overrightarrow{x_{i}}+b\right)$

那么，在一个空间中，会存在多个超平面能够将训练样本分开，那么究竟该努力去找哪一个超平面呢?

最大间隔

对于 $\left(\vec{x}_{i}, y_{i}\right)$ , 可以将上面的距离公式的分子部分代入 $y_{i}$ 改写成:

$\gamma_{i}=\frac{y_{i}(\vec{w} \cdot \vec{x}+b)}{\|\vec{w}\|}$

定义间隔（ $margin$ ） $\gamma$ 为所有样本中离超平面最近的那个, 即 $\gamma=\min \gamma_{i}$ , 那么 $\gamma_{i} \geq \gamma$ 总是成立的，代入上式可得:

$\frac{y_{i}(\vec{w} \cdot \vec{x}+b)}{\|\vec{w}\|} \geq \gamma$

因此， $SVM$ 的问题就变成了找到 “最大间隔”（ $maximum\ margin$ ）的超平面，使得 $\gamma$ 最大，即:

$\begin{array}{l} \max _{(\vec{w}, b)} \min _{i} \frac{1}{\|\vec{w}\|}\left|\vec{w} \cdot \vec{x}_{i}+b\right| \\ \text { s.t. } \quad y_{i}\left(\vec{w} \cdot \vec{x}_{i}+b\right)>0, \quad i=1,2, \ldots, m \end{array}$

因为间隔始终大于 0 , 即 $\left|\vec{w} \cdot \vec{x}_{i}+b\right|>0$ , 则可以通过缩放 ( $\vec{w}, b$ ) 使得 $\min _{i}\left|\vec{w} \cdot \vec{x}_{i}+b\right|=1$ , 那么上面的问题就变成 $\max \frac{1}{\|\vec{w}\|}$ , 即 $\min \|\vec{w}\|$ , 在其它书里通常会被等价成 $\min \frac{1}{2}\|\vec{w}\|^{2}$ , 于是上式可以重写成:

$\begin{array}{ll} \min & \frac{1}{2}\|\vec{w}\|^{2} \\ \text { s.t. } & y_{i}\left(\vec{w} \cdot \vec{x}_{i}+b\right) \geq 1, \quad i=1,2, \ldots, m \end{array}$

是一个凸二次规划（ $convex\ quadratic\ programming$ ）问题，这样就能够利用上现有的求解优化问题的方法。（没错，就是一个运筹学的线性规划问题）

对偶问题

浅浅回顾一下

首先考虑一个最优化问题:

$\begin{array}{l} \min f(\vec{z}) \\ \text { s.t. } \quad h_{i}(\vec{z}) \leq 0 \end{array}$

引入拉格朗日函数 $\mathcal{L}(\vec{z}, \vec{\alpha})$ , 其中 $\vec{\alpha}=\left(\alpha_{1}, \ldots, \alpha_{m}\right), \alpha_{i} \geq 0$ 为拉格朗日乘子，则有：

$\mathcal{L}(\vec{z}, \vec{\alpha})=f(\vec{z})+\sum \alpha_{i} h_{i}(\vec{z})$

那么上面的最优化问题等价于：

$\min _{\vec{z}} \max _{\vec{\alpha} \geq 0} \mathcal{L}(\vec{z}, \vec{\alpha})$

称为 原始问题（ $primal\ problem$ 。下面来证明其等价于一开始的优化问题，主要思路是将拉格朗日函数展开代入，再利用 $\vec{\alpha} \geq 0$ 的条件消去第二项：

$\begin{aligned} & \min _{\vec{z}} \max _{\vec{\alpha} \geq 0} \mathcal{L}(\vec{z}, \vec{\alpha}) \\ = & \min _{\vec{z}}\left(f(\vec{z})+\max _{\vec{\alpha} \geq 0} \sum \alpha_{i} h_{i}(\vec{z})\right) \\ = & \min _{\vec{z}}\left(f(\vec{z})+\left\{\begin{array}{ll} 0, & \text { if } h_{i}(\vec{z}) \leq 0 \\ \infty, & \text { if } h_{i}(\vec{z})>0 \end{array}\right)\right. \\ = & \min _{\vec{z}} f(\vec{z}) \end{aligned}$

将该问题的中的 $\min$ 和 $\max$ 交换位置，即可得到其对偶问题（ $dual\ problem$ ）:

$\max _{\vec{\alpha} \geq 0} \min _{\vec{z}} \mathcal{L}(\vec{z}, \vec{\alpha})$

原始问题与对偶问题的关系:

$\max _{\vec{\alpha} \geq 0} \min _{\vec{z}} \mathcal{L}(\vec{z}, \vec{\alpha}) \leq \min _{\vec{z}} \max _{\vec{\alpha} \geq 0} \mathcal{L}(\vec{z}, \vec{\alpha})$

在某些条件下，原始问题与对偶问题的最优值相等，这时候可以用解对偶问题代替解原始问题。该条件称为 KKT（Karush-Kunh-Tucker）条件，具体证明超出了本文的涉及范围，我自己也不会，就先略过。在这个条件下，可以从 $SVM$ 问题的 对偶问题 求解，进而得到 $SVM$ 的解。

SVM 求解（99%

将 $SVM$ 的问题用拉格朗日函数的形式重写为:

$\mathcal{L}(\vec{w}, b, \vec{\alpha})=\underbrace{\frac{1}{2}\|\vec{w}\|^{2}}_{f(\vec{w}, b)}+\sum \alpha_{i} \underbrace{\left(1-y_{i}\left(\vec{w} \cdot \vec{x}_{i}-b\right)\right)}_{h_{i}(\vec{w}, b) \leq 0}$

令 $\mathcal{L}(\vec{w}, b, \vec{\alpha})$ 对于 $\vec{w}$ 和 $b$ 的偏导数等于零:

$\left\{\begin{array}{l} \frac{\partial \mathcal{L}}{\partial \vec{w}}=\vec{w}-\sum \alpha_{i} y_{i} \vec{x}_{i}=0 \\ \frac{\partial \mathcal{L}}{\partial b}=\sum \alpha_{i} y_{i}=0 \end{array}\right.$

可得：

$\begin{aligned} \vec{w} & =\sum \alpha_{i} y_{i} \vec{x}_{i} \\ 0 & =\sum \alpha_{i} y_{i} \end{aligned}$

将上式代入 $\mathcal{L}(\vec{w}, b, \vec{\alpha})$ 可得:

$\begin{aligned} \mathcal{L}(\vec{w}, b, \vec{\alpha})= & \frac{1}{2}\left(\sum \alpha_{i} y_{i} \vec{x}_{i}\right) \cdot\left(\sum \alpha_{i} y_{i} \vec{x}_{i}\right) \\ & \left.+\sum \alpha_{i}\left(1-y_{i}\left(\left(\sum \alpha_{i} y_{i} \vec{x}_{i}\right) \cdot \vec{x}_{i}-b\right)\right)\right) \\ = & \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(\vec{x}_{i} \cdot \vec{x}_{j}\right) \end{aligned}$

这样，对偶问题就变成:

$\begin{aligned} & \max _{\vec{\alpha} \geq 0} \min _{\vec{z}} \mathcal{L}(\vec{z}, \vec{\alpha}) \\ \Longrightarrow & \max _{\vec{\alpha} \geq 0} \sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i=1}^{m} \sum_{j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(\vec{x}_{i} \cdot \vec{x}_{j}\right) \\ & \text { s.t. } \quad \sum \alpha_{i} y_{i}=0, \alpha_{i} \geq 0 \end{aligned}$

解出 $\vec{\alpha}$ 后，求出 $\vec{w}$ 与 $b$ 即可得到模型:

$\begin{aligned} f(\vec{x}) & =\vec{w} \cdot \vec{x}+b \\ & =\sum_{i=1}^{m} \alpha_{i} y_{i}\left(\vec{x}_{i} \cdot \vec{x}\right)+b \end{aligned}$

具体求解过程需要满足上面提到的 $KTT$ 条件:

$\left\{\begin{array}{l} \alpha_{i} \geq 0 \\ y_{i} f\left(\vec{x}_{i}\right)-1 \geq 0 \\ \alpha_{i}\left(y_{i} f\left(\vec{x}_{i}\right)-1\right)=0 \end{array}\right.$

求解上面的对偶问题的一个著名算法是 SMO (Sequential Minimal Optimization), 这里不展开叙述。

软间隔

啥是软间隔，就是近似线性可分问题

上面我们考虑的都是数据可以分隔的情况，那么当数据集并不是完全能被超平面分隔，即有些点不满足约束 $y_{i}\left(\vec{w} \cdot \vec{x}_{i}+b\right) \geq 1$ , 那可以设定一个惩罚项：

$\xi_{i}=\max \left\{1-y_{i}\left(\vec{w} \cdot \vec{x}_{i}+b\right), 0\right\}$

那么原来的 $SVM$ 的优化问题就会变成：

$\begin{array}{ll} \min _{\vec{w}, b} & \frac{1}{2}\|\vec{w}\|^{2}+C \sum_{i=1}^{m} \max \left\{1-y_{i}\left(\vec{w} \cdot \vec{x}_{i}+b\right), 0\right\} \\ \text { s.t. } & 1-y_{i}\left(\vec{w} \cdot \vec{x}_{i}+b\right) \leq 0, \quad i=1,2, \ldots, m \end{array}$

其中的 $\max (1-z, 0)$ 称为 “折页损失” （ $hinge\ loss$ ）。接着引入 “松他变量” $(slack variable) \xi_{i} \geq 0$ , 将上式重写为:

$\begin{array}{ll} & \min _{\vec{w}, b} \frac{1}{2}\|\vec{w}\|^{2}+C \sum_{i=1}^{m} \xi_{i} \\ \text { s.t. } & y_{i}\left(\vec{w} \cdot \vec{x}_{i}+b\right) \geq 1-\xi_{i} \\ & \xi_{i} \geq 0, i=1,2, \ldots, m \end{array}$