作者归档:隋辨

SVM 基础:间隔、对偶

综述

SVM(support vector machine, 支持向量机),是一个二元分类模型,采用方法是高维空间下用超平面分割不同数据点,并使两类的之间的间隔最大化,SVM 的三大核心在于间隔对偶核技巧

  1. hard-margin SVM
  2. soft-margin SVM
  3. kernel Method

参考资料:

Doto, 统计学习方法|支持向量机(SVM)原理剖析及实现

《统计学习方法》李航

支持向量机通俗导论(理解SVM的三层境界)

硬间隔分类器 hard margin

最大化泛化能力,减少过拟合

\mathcal{D} = {\{(x_i, y_i)\}}_{i=1}^{N}, x_i \in \mathbb{R}^p, y_i \in \{ +1, -1\}y_i = 1 为正例, y_i=-1 为负例。超平面为


w^Tx+b = 0

一个分类正确的超平面要满足


y_i(w^Tx_i+b) > 0

让超平面在正确分类所有数据点的前提下,改变 w,b 的值,就获得了新的超平面,使得该超平面与所有数据点的距离之中的最小值,在其他所有能正确分类的超平面中是最大的。那么目标就是


\begin{aligned}
&\mathop{\max}_{w, b} margin(w, b)\\
&\text{s.t. } y_i(w^Tx_i + b) > 0\text{. }\forall{i = 1, 2, \dots,N}
\end{aligned}

距离函数为


\begin{aligned}
margin(w, b) = & \mathop{\min}_{i}distance(w, b, x_i)
\\ = & \mathop{\min}_{i}\frac{1}{\|w\|}\mid w^Tx_i + b \mid
\end{aligned}

代入式子,常数 \frac{1}{\|w\|} 可以提出来,绝对值符号可以去掉,目标是


\begin{aligned}
\mathop{\max}_{w, b} margin(w, b)
 = & \mathop{\max}_{w, b} [\mathop{\min}_{i}\frac{1}{\|w\|}\mid w^Tx_i + b\mid ]\\
 = & \mathop{\max}_{w, b}[\frac{1}{\|w\|}\mathop{\min}_{i}y_i(w^Tx_i + b) ]   \\
& \text{s.t. } y_i(w^Tx_i + b) > 0\text{. }
\end{aligned}

函数间隔和几何间隔 funtional margin & geometric margin

\mid w^Tx_i+b\mid 可以确定数据点与超平面的距离,从 w^Tx_i+by_i 的符号是否一致可以确定分类是否正确,于是自然就有了函数间隔的定义,来确定分类结果正确的置信度


\hat{\gamma_i} = y_i(w^Tx_i + b)

其最小值为


\hat{\gamma} = \mathop{\min}_{i}{\hat{\gamma_i}}

但这个定义有问题,例如 2x_1+4x_2+2 = 0x_1+2x_2+1 = 0 是同一个平面,但函数间隔算出来是不同的。 w,b 成比例变化 \lambda 倍,超平面不会发生改变,最小函数间隔变成了 \lambda\hat{\gamma} ,所以要让同一个超平面的方程形式也是一致的。

函数间隔同除以超平面的法向量的 L_2 范数,就有了几何间隔的定义


\gamma_i = y_i(\frac{w^Tx_i}{\|w\|} + \frac{b}{\|w\|}) \\

最小值为


\gamma = \mathop{\min}_{i}{\gamma_i}

回顾高中数学说的点到平面距离公式(向量描述)


d = \frac{\mid w^Tx+b\mid}{\|w\|}

是不是有点像?其实几何间隔就是点到超平面的距离。回到 SVM 上,要最大化最小的几何间隔,其与最小函数间隔的数量关系


\gamma = \frac{\hat{\gamma}}{\|w\|} = \frac{y_i(w^Tx_i + b)}{\|w\|}

结合上式,目标就变成了


\begin{aligned}
&\mathop{\max}_{w,b}\gamma 
&\text{s.t. }\frac{y_i(w^Tx_i + b)}{\|w\|} \ge \gamma \\
\Rightarrow&\mathop{\max}_{w,b}\frac{\hat{\gamma}}{\|w\|} 
&\text{s.t. }y_i(w^Tx_i + b) \ge \hat{\gamma}
\end{aligned}

改变函数间隔,就是改变分子, w,b 会相应地改变。若更新使得 w_{i+1}=\lambda w_i, b_{i+1} = \lambda b_i, \lambda \neq 0 ,那超平面不会改变(可以验证),函数间隔变为 \lambda 倍,几何间隔不变。反之, w,b 不按同样的比例改变,超平面和几何间隔才会变。

换句话说,如果我们调整 w,b 使得函数间隔变为 \lambda 倍,并不会改变几何间隔。

函数间隔不为 0 ,放缩 w,b 使最小函数间隔 \hat{\gamma }= 1 ,令 w^T_{i+1} = \frac{w^T_i}{\hat{\gamma}}, b_{i+1} = \frac{b_i}{\hat{\gamma}}


\begin{aligned}
&y_j(\frac{w^T_ix_j}{\hat{\gamma}} + \frac{b_i}{\hat{\gamma}}) =\frac{\hat{\gamma}}{\hat{\gamma}}=  1 \\
\Rightarrow&y_j({w^T_{i+1}x_j} + b_{i+1}) = 1
\end{aligned}

没有改变平面本身和几何间隔,实际上,我们可以让最小函数间隔取任意值且 \hat{\gamma} \neq 0 ,都有 w^T_{i+1} = \frac{w^T_i}{\hat{\gamma}}, b_{i+1} = \frac{b_i}{\hat{\gamma}} ,我们最终求解出的SVM参数 w,b 仍然和目标的超平面参数是一致的,不会对不等式的约束和目标函数造成影响。取最简单的 \hat{\gamma} = 1 ,原问题就变成了


\begin{aligned}
&\mathop{\max}_{w,b}\frac{1}{\|w\|}\\
&\text{s.t. }\mathop{\min}_iy_i(w^Tx_i + b) = 1 \Leftrightarrow y_i(w^Tx_i + b) \ge 1
\end{aligned}

对偶问题 dual problem

最大值问题可以转换为最小值问题,刚才的目标函数可以化为


\begin{aligned}
&\mathop{\min}_{w,b} \frac{1}{2}\| w \| \\
&\text{s.t. }y_i(w^Tx_i + b) \ge1,\forall i=1,2,\dots,N
\end{aligned}

有这种形式,是因为凸优化问题一般都为求最小值,目标函数的常数不会造成什么影响, \frac{1}{2} 主要是为了后续计算。

为了消除约束条件,引入拉格朗日算子


\mathcal{L}(w, b, \alpha) = \frac{1}{2}\|w\| + \sum_{i = 1}^{N} \alpha_i(1 - y_i(w^Tx_i + b))

算子 \alpha = [\alpha_1, \alpha_2, \cdots, \alpha_N]^T,\alpha_i \ge 0,i=1,\cdots,N. ,令 \Delta_i = 1 - y_i(w^Tx_i + b) , \forall i= 1, \cdots, N.

其实就有


\mathop{\max}_{\alpha}\mathcal{L}(w, b, \alpha) =  \left \{
\begin{aligned}
&\frac{1}{2}\|w\| + \infty = +\infty , &\text{if }\Delta_i > 0 \\
&\frac{1}{2}\|w\| ,&\text{if }\Delta_i \le 0
\end{aligned}
\right.

\mathop{\max}\mathcal{L} 的最小值就等于刚才的目标函数,把约束归并到目标中,相当于丢弃了 \Delta_i >0 的解空间,目标变为


infty\mathop{\min}_{w,b}\mathop{\max}_{\alpha}\mathcal{L}(w, b, \alpha) = \mathop{\min}_{w,b}(+ \infty, \frac{1}{2}\|w\|) = \mathop{\min}\frac{1}{2}\|w\|

w,b 约束的原问题转化为无约束的


\begin{aligned}
&\mathop{\min}_{w,b} \mathop{\max}_\alpha \mathcal{L}(w, b, \alpha) \\
&\text{s.t. } \alpha_i \ge 0,\forall i=1,2,\dots,N
\end{aligned}

它的对偶问题是


\begin{aligned}
&\mathop{\max}_{w,b} \mathop{\min}_\alpha \mathcal{L}(w, b, \alpha)  \\
&\text{s.t. } \alpha_i \ge 0,\forall i=1,2,\dots,N
\end{aligned}

如何理解这个问题?


\mathop{\min}\mathop{\max}f \ge \mathop{\max}\mathop{\min} f

举个栗子,宁为鸡头,不为凤尾。(or 瘦死的骆驼比马大) \mathop{\max}f 就是凤, \mathop{\min}f 就是鸡, \mathop{\max}\mathop{\min}f 就是鸡头, \mathop{\min}\mathop{\max}f 就是凤尾。

凸优化二次问题就满足强对偶关系,即等号也成立。

回到 SVM ,刚才的目标是


\begin{aligned}
&\mathop{\max}_{w,b} \mathop{\min}_\alpha \mathcal{L}(w, b, \alpha)  \\
&\text{s.t. } \alpha_i \ge 0,\forall i=1,2,\dots,N
\end{aligned}

先求 \mathop{\min}_\alpha \mathcal{L} ,可以求偏导得到最优解


\begin{aligned}
\frac{\partial \mathcal{L}}{\partial b} 
&= \frac{\partial}{\partial b}(\frac{1}{2}\|w\| + \sum_{i = 1}^{N} \alpha_i(1 - y_i(w^Tx_i + b))) \\
&= \frac{\partial}{\partial b}(\frac{1}{2}\|w\| +  \sum_{i = 1}^{N} \alpha_i - \sum_{i = 1}^{N} \alpha_i y_i w^T x_i - \sum_{i = 1}^{N} \alpha_i y_i b)
\\
&= \frac{\partial}{\partial b}(-\sum_{i = 1}^{N} \alpha_i y_i  b) \\
&= -\sum_{i = 1}^{N} \alpha_i y_i
\end{aligned}

\frac{\partial \mathcal{L}}{\partial b} = 0 ,得 \sum_{i = 1}^{N} \alpha_i y_i = 0 ,将其代入 \mathcal{L} ,求关于 w 的偏导


\begin{aligned}
\frac{\partial \mathcal{L}}{\partial w} 
&= \frac{\partial}{\partial b}[ \frac{1}{2}\|w\| + \sum_{i = 1}^{N} \alpha_i(1 - y_i(w^Tx_i + b))] \\
&= \frac{\partial}{\partial b}[\frac{1}{2}w^Tw +  \sum_{i = 1}^{N} \alpha_i - \sum_{i = 1}^{N} \alpha_i y_i w^T x_i - 0] \\
&= w - \sum_{i = 1}^{N} \alpha_i y_i  x_i
\end{aligned}

\frac{\partial \mathcal{L}}{\partial w} = 0 ,得最优解参数 w* = \sum_{i = 1}^{N} \alpha_i y_i x_i 。结合之前公式,推出 \sum_{i = 1}^{N} \alpha_i y_i b = 0b 不是向量),将其代入 \mathcal{L}


\begin{aligned}
\mathop{\min}_\alpha \mathcal{L}(w, b, \alpha) 
&= \frac{1}{2}\|w\| +  \sum_{i = 1}^{N} \alpha_i - \sum_{i = 1}^{N} \alpha_i y_i w^T x_i - \sum_{i = 1}^{N} \alpha_i y_i b 
\\
&=  \frac{1}{2}(\sum_{i = 1}^{N} \alpha_i y_i  x_i)^T (\sum_{j = 1}^{N} \alpha_j y_j  x_j) 
+ \sum_{i = 1}^{N} \alpha_i
- \sum_{i = 1}^{N} (\alpha_i y_i  x_i )^T(\sum_{j = 1}^{N} \alpha_j y_j  x_j)
\\
&= \frac{1}{2} \sum_{i = 1}^{N}\sum_{j = 1}^{N}  \alpha_i \alpha_j y_iy_j  x_i^Tx_j 
- \sum_{i = 1}^{N}\sum_{j = 1}^{N}  \alpha_i \alpha_j y_iy_j  x_i^Tx_j  + \sum_{i = 1}^{N} \alpha_i
\\
&= -\frac{1}{2} \sum_{i = 1}^{N}\sum_{j = 1}^{N}  \alpha_i \alpha_j y_iy_j  x_i^Tx_j + 
\sum_{i = 1}^{N} \alpha_i
\end{aligned}

进一步得到目标


\begin{aligned}
&\mathop{\max}_{w,b}[ -\frac{1}{2} \sum_{i = 1}^{N}\sum_{j = 1}^{N}  \alpha_i \alpha_j y_iy_j  x_i^Tx_j + \sum_{i = 1}^{N} \alpha_i] \\
&\text{s.t. } \alpha_i \ge 0, \text{且} \sum_{j = 1}^{N} \alpha_iy_i = 0, \forall i=1,2,\dots,N
\end{aligned}

KKT条件

原问题和对偶问题满足强对偶关系的充要条件为其满足 KKT 条件:


\begin{aligned}
&\frac{\partial \mathcal{L}}{\partial w}=0,\frac{\partial \mathcal{L}}{\partial b}=0
\\&\alpha_k(1-y_k(w^Tx_k+b))=0\text{ (slackness complementary, 松弛互补条件)}\\
&\alpha_i\ge0\\
&1-y_i(w^Tx_i+b)\le 0
\end{aligned}

得出最优解参数为


w^* =\sum\limits_{i=1}^N\alpha_iy_ix_i \\

w^* 是训练集的线性组合, \alpha_i 其实只在支持向量上时才有值,其他地方是0。

对于参数 b 和( x_k 是支持向量)


\begin{aligned}

\exists k, 1-y_k(w^Tx_k+b) =0,
\text{s.t. }b^* 
=y_k-w^Tx_k 
=y_k-\sum\limits_{i=1}^N\lambda_iy_ix_i^Tx_k
\end{aligned}

发现其实 b^* 也是是训练集的线性组合。决策函数就出来了


f(x) = sign(w^* + b^*)

软间隔分类器 soft margin

soft: 允许一点点错误。保持泛化的能力,降低噪声对模型的影响。

Hard-margin 的 SVM 只对可分数据可解,如果不可分的情况,我们的基本想法是在损失函数中加入错误分类的可能性。错误分类的个数可以写成( \mathbb{I} 为指示函数)


loss =\sum\limits_{i=1}^N\mathbb{I}\{y_i(w^Tx_i+b)\lt1\}

这个样本点分类错误则输出0,正确则输出1,容忍一点错误。但这个函数不连续,可以将其改写为:


loss =\sum\limits_{i=1}^N\max\{0,1-y_i(w^Tx_i+b)\}

求和符号中的式子又叫铰链函数 ( Hinge Function ) 。前面说的函数间隔 \hat{\gamma}_i = y_i(w^Tx_i+b) ,这个函数本质就是


H = \left \{
\begin{aligned}
&\hat{\gamma}_i , &\text{if } \hat{\gamma}_i < 1
\\
&0 , &\text{if } \hat{\gamma}_i \ge 1
\end{aligned}
\right.

我个人的理解是


某样本点 \hat{\gamma}_i 的意义  = \left\{
\begin{aligned}
  &\text{分类正确的置信度很高,}&\hat{\gamma}_i > 1 \\ 
 &\text{是支持向量,} &\hat{\gamma}_i = 1 \\
 &\text{噪声,} &0 < \hat{\gamma}_i < 1  \\
 &\text{分类错误的置信度,} &\hat{\gamma}_i < 0
\end{aligned}
\right.

将这个错误加入 Hard-margin SVM 中,于是:


\begin{aligned}
&\arg\min_{w,b}\frac{1}{2}w^Tw+C\sum_{i=1}^N\max\{0,1-y_i(w^Tx_i+b)\}
\\
&\text{s.t. }y_i(w^Tx_i+b) \ge 1 ,i=1,2,\cdots,N
\end{aligned}

这个式子中,超参数 C 可以看作允许的错误水平,同时上式为了进一步消除 \max 符号,对数据集中的每一个观测,我们可以认为其大部分满足约束,但是其中部分违反约束,因此令 \xi_i=1-y_i(w^Tx_i+b) ,这部分约束变成 y_i(w^Tx+b)\ge1-\xi_i\xi_i 实际上是可以容忍错误的那部分间隔,进一步的化简:


\begin{aligned}
&\arg\min_{w,b}\frac{1}{2}w^Tw+C\sum\limits_{i=1}^N\xi_i 
\\
&\text{s.t. }y_i(w^Tx_i+b)\ge 1- \xi_i, \xi_i \ge 0,i=1,2,\cdots,N
\end{aligned}

二元分类方法综述

来源

Binary relevance for multi-label learning – Zhang, Li, Liu, Geng, 2018, [Frontiers of Computer Science]

传统的二元相关性方法

1、 二元相关性方法依赖概念的简洁。它是一个一阶方法,忽略了标签间的相关性,其计算复杂度与标签空间的大小呈线性关系。
2、 它是一种问题转换法。它可以将多标签问题转化为二元分类问题。
3、 它优化了宏平均(Macro-average)的多标签指标。
4、 它能轻易地适应缺失标签的训练集。

提升二元相关性方法的泛化能力的两个方法

1、开发标签间的相关关系。
2、研究标签内在属性,例如标签不平衡状态、标签间的相对重要性。

标签间相关关系开发

1、 假设随机标签相关的链结构,如分类器链算法。
2、 假设全序标签相关的堆栈结构,如堆栈式集成分类器算法。
3、 假设标签相关性剪枝的控制结构,LEAD算法。

链式结构

核心思想:分类器链是一种高阶算法,按照特定顺序排列分类器的顺序,将这一个分类器的结果 y^\ast 作为 x 的额外特征来训练,得到新的训练集。
一般的分类器链算法:
利用多标签训练集的m个训练数据\left(x,y_i\right)

\mathcal{D}_\mathcal{j}=\{\left(x^i,y_j^i\right)\mid1\le i\le m\}

按算法指定顺序\pi生成训练数据:

\mathcal{D}_{\pi\left(\mathcal{j}\right)}=\left\{\left(\left[\boldsymbol{x}^{i},y_{\pi\left(1\right)}^i,\ldots,y_{\pi\left(j-1\right)}^i\right],y_{\pi\left(j\right)}^i\right)\mid1\le i\le m\right\}

q 个分类中,按照特定顺序 \pi 训练分类器,对每个数据应用二元学习算法 \mathcal{B}

g_\pi\left(j\right):\mapsto\mathcal{B}\left(\mathcal{D}_\pi\left(j\right)\right)

例如,对于第 j\left(1\le j\le q\right) 个分类器,按照一定的顺序先由 \left(x,y_1\right) 训练出 y_1 的分类器,再利用\left(x,y_1,y_2\right) 训练 y_3 的分类器,以此类推,从\ \left(x,y_1,\ldots,y_n\right)得到最后的分类器。其中y_1,y_2,\ldots,y_q 的生成顺序\pi根据具体算法而定。g_{\pi\left(j\right)}同时决定了标签\lambda_j与其他标签的相关性。
输入一个未知向量x^\ast,按照顺序 \pi 应用分类器 g_j 算法将预测输出标签空间 \mathcal{Y} 内的 Y^\ast ,输出概率,最终得出所有的分类标签:

\eta_{\pi\left(1\right)}^{x^\ast}=sign\left[g_{\pi\left(1\right)}\left(x^\ast\right)\right]
\\
\eta_{\pi\left(j\right)}^{x^\ast}=sign\left[g_{\pi\left(j\right)}\left(\left[x^\ast,\eta_{\pi\left(1\right)}^{x^\ast},\ldots,\eta_{\pi\left(j-1\right)}^{x^\ast}\right]\right)\right]
\\
Y^\ast=\left\{\lambda_{\pi\left(j\right)}\mid\eta_{\pi\left(j\right)}^{x^\ast}=+1,1\le j\le q\right\}

还值得注意的是,先前分类器中发生的预测错误将沿着链结构传播到后续分类器,并且如果容易出错的分类标签碰巧放置在起始链接位置,则这些不良影响会变得更加明显。在训练阶段,我们用的是y真值,而在预测阶段,我们用的是分类器给出的值,纠正这种差异的办法是,统一都用分类器给出的值。从概率论的视角来说,分类器链通过条件概率预测结果:

p\left(y\mid x\right)=\prod_{j=1}^{q}{p\left(y_{\pi\left(j\right)}\mid x,y_{\pi\left(1\right)},\ldots,y_{\pi\left(j-1\right)}\right)}

堆栈结构

核心思想:堆叠式的分类器算法假设标签间皆存在相关关系,利用的是标签间的全序结构,集成所有基础分类器来得到标签关系。
堆叠式分类器算法:
利用训练集数据训练 j 个基础分类器 g_j,它是数据集在通过学习算法生成的映射:

\mathcal{D}_\mathcal{j}=\{\left(x^i,y_j^i\right)\mid1\le i\le m\} \\
g_j:\mapsto\mathcal{B}\left(\mathcal{D}_{\left(\mathcal{j}\right)}\right)

利用训练集数据和基础分类器的结果 \mathcal{D}_j^M ,训练 j 个元分类器 \ g_j^M

\mathcal{D}_j^M=\left\{\left(\left[x^i,sign\left[g_2\left(x^i\right)\right],\ldots,sign\left[g_q\left(x^i\right)\right]\right],y_j^i\right)\mid1\le i\le m\right\}

利用 g_j^Mg_j 推导出结果标签集:

Y^\ast=\left\{\lambda_j\mid g_j^M\left(\tau^{x^\ast}\right)>0,1\le j\le q\right\}
\\
\text{where }\tau^{x^\ast}=\left[x^\ast,sign\left[g_1\left(x^\ast\right)\right],\ldots,sign\left[g_q\left(x^\ast\right)\right]\right]

评价:同样,与分类器链类似,训练阶段使用真值而预测阶段使用分类器预测值,会让输入空间造成差异。最好是统一训练和预测的y值。除了元分类器输出结果,还能汇总元分类器和基础分类器来输出预测结果。除了使用二元标签分配作为额外的堆叠功能外,还可以采用特定技术来生成量身定制的堆叠功能,如判别分析和规则学习。

贝叶斯网络

image-20201126163559482

贝叶斯网络利用DAG表述条件概率模型。图中的节点代表随机变量,可以是可观察到的变量,或隐变量、未知参数等。认为有因果关系(或非条件独立)的变量或命题则用箭头来连接。若两个节点间以一个单箭头连接在一起,表示其中一个节点是“因(parents)”,另一个是“果(children)”,两节点就会产生一个条件概率值。总而言之,连接两个节点的箭头代表此两个随机变量是具有因果关系,或者非条件独立。假设节点E直接影响到节点H,即E→H,则用从E指向H的箭头建立结点E到结点H的有向弧(E,H),权值(即连接强度)用条件概率P(H|E)来表示。把某个研究系统中涉及的随机变量,根据是否条件独立绘制在一个有向图中,就形成了贝叶斯网络。其主要用来描述随机变量之间的条件依赖,用圆圈表示随机变量(random variables),用箭头表示条件依赖(conditional dependencies)。

image-20201126163614818

对于任意的随机变量,其联合概率可由各自的局部条件概率分布相乘而得出:

p\left(y\mid x\right)=\prod_{j=1}^{q}{p\left(y_i\mid p a_j,x\right)}

恰好可以应用在开发标签间关系上。
导致图结构难以生成的原因:
1、 混合类型,x 是连续变量,标签 y 是离散变量。
2、 计算复杂度很高

LEAD算法

核心思想:估计特征的影响以简化贝叶斯网络的生成过程。
LEAD一般算法:
按照独立按每个标签训练各自的二元分类器 g_j
根据训练集 \mathcal{D}_\mathcal{j} 的每个 x 进行计算,对每个标签引入误差随机变量:

e_j=y_j-sign\left(g_j\left(x\right)\right)

使用现成的工具的贝叶斯学习算法,根据误差随机变量建立贝叶斯网络结构。

\mathcal{G}\gets\mathcal{L}\left(e_1,e_2,\ldots,e_q\right)

类似于之前两种结构的训练过程,按照网络结构得到每个标签的特定分类器组合,输入特征,训练二元模型:

\eta_{\pi^G\left(1\right)}^{x^\ast}=sign\left[g_{\pi^G\left(1\right)}^G\left(x^\ast\right)\right]
\\
\eta_{\pi^G\left(j\right)}^{x^\ast}=sign\left[g_{\pi^G\left(j\right)}^G\left(\left[x^\ast,\left\langle\eta_a^{x^\ast}\right\rangle_{y_a\in p a_nG_{\left(j\right)}}\right]\right)\right]
\\
g_j^\mathcal{G}:\mapsto\mathcal{B}\left(\mathcal{D}_\mathcal{j}^\mathcal{G}\right)

按照贝叶斯网络的图结构确定分类器排序,依次判断每个标签:

Y^\ast=\left\{\lambda_{\pi^G\left(j\right)}\mid\eta_{\pi^G\left(j\right)}^{x^\ast}=+1,1\le j\le q\right\}

标签间关系剪枝还有其他方法:
1、 基于树的贝叶斯网络,用作简化的DAG,通过修剪(最多)有一个父标签的标签来考虑二阶关系。
2、 通过为堆叠的元分类器,修剪基分类器的不相关输出,堆栈式结构的改造能满足受控的标签间相关关系开发。
3、带有易错预测的标签甚至可以从标签池中过滤掉,以进行相关关系开发。

标签内在属性开发的算法

关注训练集标签不平衡问题

标签空间中存在大量标签时,标签数量不平衡现象大量存在。不平衡指标为:

ImR_j=\frac{max\left(\left|\mathcal{D}_\mathcal{j}^+\right|,\left|\mathcal{D}_\mathcal{j}^-\right|\right)}{min\left(\left|\mathcal{D}_\mathcal{j}^+\right|,\left|\mathcal{D}_\mathcal{j}^-\right|\right)}

现有方法采用二元相关性算法作为学习过程的中间步骤,来解决标签不平衡问题,例如过采样、欠采样、阈值决策边界。然而它们忽略了利用标签间的相关性。

COCOA算法

交叉解耦聚集(cross-coupling aggregation),高阶方法,利用标签相关性研究标签失衡问题。在训练阶段,成对标签耦合用以开发标签关系。在判别阶段,由类不平衡学习算法生成的聚集分类器,研究标签类不平衡。
一般算法描述:
对于每个标签j进行如下步骤:
按类不平衡的二元学习算法,训练常规的二元分类器 g_j^I

\mathcal{D}_\mathcal{j}=\{\left(x^i,y_j^i\right)\mid1\le i\le m\}
\\
g_j^I:\mapsto\mathcal{B}^I\left(\mathcal{D}_{\left(\mathcal{j}\right)}\right)

生成一个K标签随机子集 J_K\subset\mathcal{Y}\left\{\lambda_j\right\}

对于每个 \lambda_k\in J_K,每个成对标签,有三元训练集

\mathcal{D}^{\boldsymbol{tri}} = \{ \boldsymbol{x}^i ,  \psi^{\boldsymbol{tri}}(\boldsymbol{y}^i , \lambda_j, \lambda_k )) \mid  1 \le i \le m  \}
\\
\text{where }
\psi^{\boldsymbol{tri}}(\boldsymbol{y}^i , \lambda_j, \lambda_k ) = 
\left \{
\begin{aligned}
0, & \text{ if } y_j^i = -1 \text{ and } y_k^i = -1  \\
+1, & \text{ if } y_j^i = -1 \text{ and } y_k^i = +1  \\
+2, & \text{ if } y_j^i = +1 
\end{aligned}
\right .
\left(y_j^i,y_k^i\right) +1, +1 +1, -1 -1, +1 -1, -1
2 2 1 0

由此,训练类不平衡学习算法 g_{jk}^I:\gets\mathcal{M}^I\left(\mathcal{D}_{jk}^{tri}\right)
至此,训练结束,通过判别算法计算标签

Y^\ast=\left\{\lambda_j\mid f_j\left(x^\ast\right)>t_j,1\le j\le q\right\}
\\
\text{where }f_j\left(x^\ast\right)=g_j^I\left(x^\ast\right)+\sum_{\lambda_k\in J_K}{g_{jk}^I\left(x^\ast,+2\right)}

通过 K+1 个分类器判断是否是正类。阈值 t_j 可通过F度量判断和某些经验指标确定。
精确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),也就是

P=\frac{TP}{TP+FP}

而召回率是针对我们原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。

R=\frac{TP}{TP+FN}

在信息检索领域,精确率和召回率又被称为查准率和查全率,

查准率=检索出的相关信息量 / 检索出的信息总量 \
查全率=检索出的相关信息量 / 系统中的相关信息总量

F 度量为

F = \frac{2\times P\times R}{P+R}

关注标签相对重要性

以往的多标签方法都默认标签之间都有同等的重要性,然而,现实场景中相关性标签,重要性常常是不同的,而且不能从训练集中获得其信息。如下图,显示了一个多标签自然场景图像,其相关的标签重要性递减:天空 ? 水 ? 云 ? 建筑物 ? 行人。类似的情况也适用于其他类型的多标签对象,例如具有不同主题重要性的多类别文档,具有不同表达水平的多功能基因等。

image-20201126163631623

也有一些利用辅助信息的算法,如每个标签的全序排序的定序尺度、相关标签的全排序、所有标签的重要性分布、对未标记实体查询标签的Oracle反馈。但在标准的多标签学习问题中,唯一可用的信息只有实体与标签的相关性。通过利用隐式的标签相对重要性,多标签学习的泛化能力可以进一步增强。

RELIAB算法

算法一般性描述:
第一阶段计算相对重要性 \mathcal{U}=\{\mu_{x_i}^{\lambda_i}|1\le i\le m,1\le j\le q\}
构建全连接图 G=\left(V,E\right) ,其中 V=\{x^i|1\le i\le m\},为图构建相似度矩阵 W=\left[w_{ik}\right]_{m\times m},其中i不等于k时,该标签与其他标签比较,通过高斯核函数计算相似

\forall_{i, k=1}^{m}: w_{i k}=\left\{\begin{array}{cl}
\exp \left(-\frac{\left\|x^{i}-x^{k}\right\|_{2}^{2}}{2 \sigma^{2}}\right), & \text { if } i \neq k \\
0, & \text { if } i=k
\end{array}\right.

得出标签传播矩阵

P=D^{-\frac{1}{2}}WD^{-\frac{1}{2}} \\
\text{ where  }D=diag\left[d_1,d_2,\ldots,d_m\right]\mathrm{\ with\ }d_i=\sum_{k=1}^{m}w_{ik}

初始化标签重要性矩阵 R=\left[r_{ij}\right]_{m\times q}

R^{\left(0\right)}=\Phi=\left[\phi_{ij}\right]_{m\times q}

迭代传播标签重要性矩阵

R^{\left(t\right)}=\alpha PR^{\left(t-1\right)}+\left(1-\alpha\right)\Phi

最终R收敛于 R^\ast,得出标签相对重要性

\forall1\le i\le m,\forall1\le j\le q:\mu_{x_i}^{\lambda_j}=\frac{r_{ij}^\ast}{\sum_{j=1}^{q}r_{ij}^\ast}

第二阶段,选择最大熵模型参数化多标签预测变量

f_j\left(x\right)=\frac{1}{Z\left(x\right)}\exp{\left(\theta_j^\top x\right)}\left(1\le j\le q\right)
\\
\mathrm{\ where\ }Z\left(x\right)=\sum_{j=1}^{q}exp\left(\theta_j^\top x\right)

最大化目标函数以得出参数

V\left(\Theta,\mathcal{U},\mathcal{D}\right)=V_{dis}\left(\Theta,\mathcal{U}\right)+\beta\cdot V_{emp}\left(\Theta,\mathcal{D}\right)

第一项的 V_{dis}\left(\Theta,\mathcal{U}\right) 评估预测模型的效果与相对标签重要性信息 \mathcal{U} 的拟合程度(如通过Kullback-Leibler散度),第二项评估预测模型 \Theta 在训练集 \mathcal{D}上的分类能力(如经验排序损失)。\beta 是平衡目标函数这两项的正则化参数。
最后,对任意新样本 x^\ast 输出结果标签 Y^\ast

Y^\ast=\{\lambda_j|f_j\left(x^\ast\right)>t\left(x^\ast\right),1\le j\le q\}

2020年了,我怎么写博客

我怎么写博客

很奇怪,在这样一个中心化的互联网时代,仍然有人自建博客,维护着自己这一亩三分地。不知道他们是怎么想的,于我而言,在互联网上占上一个位子,自己的域名、自己的服务器,某种程度上给我一种安全感。

初中的时候就跟着别人用 WordPress 搭博客,后来断断续续停了。到了大学自己赚了点钱,才一直续费这个域名。写什么呢?技术文章、科普或者故事感悟都可以发在微信公众号、知乎、掘金、思否、甚至 CSDN。相对于公众平台能盈利,博客并没有多少优势,反而要花钱维护。

情怀在十年前是个褒义词,现在是老板画大饼的专属词汇了。现在人们在知乎上写故事,在公众号叫人学英语,在今日头条直接赚稿费。这是正常的,这才是一个商业社会该有的样子。某种程度上,付费文章的水平均值总要比免费的高,而免费的文章总是要在别处收费——广告或者智商税。具体而言,由于程序员圈内的开源文化,人们热衷于公开自己的源代码和思路,这就让大牛的博客主页常常吸引无数程序员。他顺便引流公众号,再发些《Python 之父教你如何提升办公技能》、《你还在为 Spring 源码看不懂而烦恼吗?》……博客在这样的环境下变成了创造技术影响力的工具。说实话谁不想赚钱呢,利用技术影响力赚钱无可厚非。

读研之后,似乎表达欲望大大下跌,就当博客是个公开的备份吧。


我是怎么写博客

  1. 不要折腾。
  2. 只管写。

这是几年来我写公众号的血泪教训,这里就不展开说了。在工具上花费太多时间,没意义。具体而言就是:

  1. 够用就行
  2. 少用插件
  3. 不用爱好者做的主题
  4. 少更新

为什么?

  1. 我们最好专注写作,而不是折腾半天没有产出。
  2. 插件会随着时间推移而过时,以前的多看插件就没了,评论随着就没了,要想恢复还得折腾。还有很多 WordPress 插件当年红极一时,现在也随着博客的没落而式微了。
  3. 爱好者做的主题按他的喜好来,时不时更新,偶尔不兼容某某功能,又得折腾。
  4. 别随便更新 WordPress ,怕不兼容。别换 typecho, Jekyll, Hexo 等静态主题,它们没有啥基础设施,干啥都得折腾,何必要放着一个成熟且稳定的平台不用,去用静态博客呢?

有几个原则我安装了几个必须的功能:

  1. WordPress 2012年主题,经典自适应不需要解释。

  2. Clean Archives ,归档插件。

  3. Table of Contents Plus ,目录生成插件。

  4. WP Editor.md ,markdown编辑器

  5. Wenprise Pinyin Slug ,转文字链接插件,方便检索。

  6. 屏蔽垃圾评论。在 function.php 加入以下代码,屏蔽其他语言的垃圾评论

    /*屏蔽纯英文或者日语*/
     function refused_spam_comments($comment_data) {
     $pattern = '/[一-龥]/u';
     if (!preg_match($pattern, $comment_data['comment_content'])) {
     wp_die(__('来一波汉字吧,苦逼的站长只认识汉字!You should type some Chinese word!'));
     }
     return ($comment_data);
    }
     add_filter('preprocess_comment', 'refused_spam_comments');
    
  7. WP CN Excerpt, 主页摘要插件。这里我修改了主题文件,参考了 站长笔记

    1、首先在此主题中找到 content.php 文件,路径:wp-content/themes/twentytwelve/
    2、找到is_search(),后面会有批注:// Only display Excerpts for Search
    3、添加is_category() || is_archive() || is_home()判断条件,在这些情况下都显示摘要,只有查看文章时才全部显示。

    <?php if ( is_search() || is_category() || is_archive() || is_home()) : // Only display Excerpts for Search category archive home?>

  8. 数学公式,可选。WP Githuber MD 自带 Katex 和 MathJax, 如果不用这个编辑器,可以在首页添加了 JavaScript 代码——MathJax

那些标签学习问题

从输出空间定义问题

二分类:对输出空间的定义,将输入空间通过学习方法处理为一个输出,有$P(Y | X)$ 概率模型或者是非概率模型,一般是分为0或者1 (negative or positive),典型问题如垃圾邮件过滤。

多分类问题:对于输出空间定义,训练后的模型需要在多个分类中确定一个,典型问题如手写数字识别 (0-9 中预测正确的一个数字) 、预测出行是开车/步行/公交/自行车。

多标签学习问题:对输出空间的定义,训练后的模型需要在标签空间中确定多个标签,典例有图像标注。

从输入空间定义问题

多实例学习问题 (MIL, Multiple-Instance Learning):假如一段视频由很多张图组成,假如10000张,那么我们要判断视频里是否包含某一物体,比如气球。单张标注每一帧是否有气球太耗时,通常人们看一遍说这个视频里是否有气球,就得到了多示例学习的数据。

部分多标签学习 (PML, Partial Multi-Label Learning):由于标注者的专业知识不足或者数据本身模糊含混,标注者可能不太确定某标签,若不标注会丢失信息,若随机标注会带来噪声,于是把所有怀疑的标签都标注。即训练集中有伪正例 ( false positive example) ,也有正确的标签,PML的前提假设是所有的标签都会包含在候选标签中。

部分标签学习 (PLL, Partial Label Learning):PML的特例,训练数据中只有一个标签是正确的。

缺失标签学习 (MLML, Multi-Label Missing Labels ):标注者遗漏真标签,即训练集某些数据缺失了一些真标签。

极端多标签学习 (XML, Extreme Multi-label Learning) :XML的挑战在于指数标签空间涉及到可能有$2^L$种标签大小的标签集,特别是当标签尺寸$L$很大的时候,例如:维基百科的标签。

真正的互联网,已经死了

1991年8月是万维网向公众开放的时间,实际上万维网仅仅是互联网的一个功能子集。今天的人们习惯了 HTTP、URL 和 HTML 技术,把 URL 叫做链接,把 HTML 页面叫做网页,将万维网称为互联网,也能看出万维网的影响之深远。(下文仍用互联网指代万维网)

今天我们谈到互联网,基本上是指手机上那几个 APP。在中国,手机上又基本上是腾讯系、阿里系、美团系、字节系、百度系的应用,在国外,你又绝无可能离开谷歌、亚马逊、推特、脸书……几个巨无霸公司占据互联网的大部分流量,掌握的垄断的资本,其他的小鱼小虾则在缝隙中生存,这样的现象不分国界。

互联网生意是一场零和游戏,你增加聊微信的时间,就会减少刷淘宝的时间。因为每人每天使用手机的时间有限,所以依靠广告或者电商收取利润的互联网企业必须得做点什么。他们的手段,我们也体验过:一个是收集用户的数据更好地推送广告,另一个是让用户在 APP 上待更长的时间。

因为政府相关法律法规缺失,且惩罚力度较低,所以公司为谋利收集数据,和众多互联网公司共享数据,创建广告联盟,形成精确的用户画像,使广告转化能力大大提高。如何让用户待在 APP 上不走?这一点字节跳动比谁都清楚。字节跳动在近年能与腾讯阿里并肩,除了强大的运营能力,不可缺少的就是算法推荐技术,二者成就了今日头条和抖音,提高了用户在线时间,生生从巨头手里剜下一块肥肉。

如今的用户流量集中在屈指可数的几个地方,互联网企业拥有前所未有的权力。你大可想象,我们去早餐店吃牛肉面,老板却在粉里放罂粟让人上瘾,同时偷偷拿到你身份证号码、手机号、昨天去了哪、前天晚上买了什么……

数据掌握在公司手上,于是你只好去某个特定的网站买会员,看你爱豆的电视剧,却被告知你应该再加钱提前点播。你发文十分钟,收到满屏的评论,突然系统告诉你不知道因为什么法规帖子被删。今天的互联网,就是一个强制的公路收费站,你可以不往那坑坑洼洼的路开,但大家都往那去,你又有什么办法?

互联网之父伯纳斯·李说,互联网正处于「临界点」 ,偏离了最初设想。

但互联网最开始并不是这样的。

在1945年广岛与长崎原子弹爆炸之后,万尼瓦尔 · 布什在论文《和我们想得一样》中表达对科学的担忧——科学正在朝着毁灭而不是相互理解发挥作用, 他在书中畅想道,科技可以造出 memex 这样的机器:它可以存储人类的集体记忆,可以使知识更容易获得。大英百科全书的体积可以缩小到一个火柴盒那么大,一个百万册的图书馆可以压缩到书桌的一端。

受到 memex 的启发,伯纳斯·李发表了论文《关于信息化管理的建议》。随后,他创建世上第一个网站 Info.cern.ch ,并花时间确保欧洲核子研究中心将万维网技术在公共领域免费开放,不设专利。他设想人人都可以创建自己的网页,访问他人的网页。互联网将是一个没有控制中心的网络,会造就一个明达、互动、宽容的世界公民共同体。

万维网雏形论文《关于信息化管理的建议》
万维网雏形论文《关于信息化管理的建议》

初代互联网也的确拥有自由。因为互联网核心设计是,任何人可通过一个网页的超链接跳转另外一网页,设计者仿佛是从「论文的写作要有参考文献,而从参考条目可以找到另一篇论文」获得的灵感。

十几年前,人们纷纷搭建自己的博客( blog ),参加不同论坛,交换各自链接,你常常可以从一个博客找到其他博客的友情链接。人们掌握着自己的数据,依靠着搜索引擎,在一个又一个网站间跳转。

互联网变成今天这个形态,跟智能手机脱不开关系,准确来说,是苹果手机。自2007年 iPhone 第一代横空出世以来,手机都开始拥有了上网能力,并大大降低上网难度。

从微观上说,早期手机互联网页面提供的技术较弱,页面显示效果不佳,比如无法定位 GPS 、 Flash 视频太耗电且存在安全问题、无法在锁屏状态下接收会话等,以至于互联网公司选择开发适配手机的应用而不是网页,来提高互联网服务的体验。互联网公司没有理由,也没有动力,让用户从自己的应用内跳转到其他的网站,美其名曰为「用户安全」着想。作为例子来说,微信封杀淘宝链接,淘宝程序员创造性地想出了淘口令,于是你分享商品只好发火星文了。

从宏观上说,因为手机与通信技术升级,全世界网民数量逐年增加,资本嗅到商机,纷纷涌入互联网公司,没有资本的公司往往胳膊拧不过大腿。要知道,互联网公司的存在,需要人员和服务器,这两样东西每天都在烧钱。因此提供持续服务的互联网企业获得了更多用户,更多用户就意味着更多投资、更多硬件和更好服务(更不用说社交网站或者即时聊天的这类有用户量红利的服务)。更具体地来说,互联网公司并不是软件公司,它不依靠卖软件产品获利,而是靠持续服务赚钱。这就全网流量为少数几个企业所垄断。

互联网公司将用户限制在方寸之地,人们不能再随意地跳转,搜索引擎也不再能搜索到那些数据。营销人员、产品经理也称那些被限制在应用内部的流量为流量池,将网红或 KOL 的带来的流量称为私域流量。所谓移动互联网事实上已不是互联网,只有用户对着几个中心服务器交换数据。

当下应用为适应快速更新应用功能,更多是在原生应用中嵌入网页,还有小程序的出现,都表明当前网页技术足以媲美原生应用,但显然仍是少数应用开放链接跳转。这样看来,如果说网页技术的落后是历史的偶然,那么资本涌入互联网企业并使其垄断就是必然。

互联网公司拥有我们的数据,小则控制我们的见闻,推送相关广告,以谋私利,大则干预现实的进程,操控公投和选举。在可想象的未来,由于智能家居和健康硬件普及,这种干预只会与日俱增。操控他人的人生,简直易如反掌,给他疯狂推送诸如「35岁被裁员了怎么办」的内容,引导网友攻击他的评论,根据他心跳频率判断他是否焦虑,再推送相关的降压产品广告。或者等他出门开着特斯拉,锁死车窗,加大马力,让刹车失灵,最后将事故原因伪造成自动驾驶系统的故障。

互联网中心化的根本原因,大概不是计算机科学的问题,而是社会学的问题。人是不是天生喜欢中心化,天然喜欢统治与被统治?这问题的答案也许还能解释,为什么会有宗教、王权,现代又为什么会有明星、网红。

众 APP 因河为池,以邻为壑,用户成为产品的一部分。而那个自由的互联网世界,远在抖音被封禁之前,早已消逝。

正则表达式-非捕获组的迷思 ( non-capturing group ) (?:)

(?:…)
正则括号的非捕获版本。 匹配在括号内的任何正则表达式,但该分组所匹配的子字符串不能在执行匹配后被获取或是之后在模式中被引用。

这解释真叫人头大。

例一

(aa|bb) 匹配 aabb

结果是

类型 范围 内容
Match 1
Full match 0-2 aa
Group 1. 0-2 aa
Match 2
Full match 2-4 bb
Group 1. 2-4 bb

例二

(aa|bb)+ 匹配 aabb

结果是

类型 范围 内容
Match 1
Full match 0-4 aabb
Group 1. 2-4 bb

第一个先匹配到 aa ,再匹配到 bb 。第二个直接匹配了 aabb 。
第一个和第二个的差别在于,用 + 重复匹配组,后果就是组只会保留最后一个迭代。

例三

我们再试试:

(?:aa|bb)+ 匹配 aabb

类型 范围 内容
Match 1
Full match 0-4 aabb

组保存的消失了?这就是非捕获组的用处,意思就是不保存组的内容到内存中,也就不会标号,于是只会得到匹配。

例四

这个用处是什么呢
先看看这个 Python 代码:

reg = r"(0\d{2})-(\d{7})"

s = "010-3838438"

re.findall(reg, s)

#  Out:[('010', '3838438')]

reg = r"(?:0\d{2})-(?:\d{7})"

s = "010-3838438"

re.findall(reg, s)

#  Out:['010-3838438']

上述差别如何发生?

第一个匹配的结果是

类型 范围 内容
Full match 0-11 010-3838438
Group 1. 0-3 010
Group 2. 4-11 3838438

而第二个匹配的结果是

类型 范围 内容
Full match 0-11 010-3838438

Python 自带的 re 模块函数:

re.findall
对 string 返回一个不重复的 pattern 的匹配列表, string 从左到右进行扫描,匹配按找到的顺序返回。如果样式里存在一到多个组,就返回一个组合列表;就是一个元组的列表(如果样式里有超过一个组合的话)。空匹配也会包含在结果里。

也就是从左到右,按正则表达式,不重复地匹配字符串,返回一个字符串列表。 如果正则表达式有一个或更多的组,返回组的列表,优先返回组。

第一个匹配里有两个组,所以只返回了组。

不得不说这个函数实现的很失败,为什么不把所有结果都返回?

最后一个例子

建议你自己猜一下输出结果:

s = 'exp=50;exp=51;'

re.findall(r'exp=(50|51);', s)

re.findall(r'exp=(?:50|51);', s)




#  Out:['50', '51']

#  Out:['exp=50;', 'exp=51;']

为什么出现这种差别?

前者有两个匹配,每个匹配有一个组。后者只有两个匹配。

因为 findall 总是尽力返回捕获的组,也就是括号内的字符串。(太蠢了)

使用了 (?:) ,它不会保存匹配的组。如果 findall 没有捕获到组,就会返回所有匹配的字符串。