作者归档:隋辨

层层递进,决策树模型

结构

  • 决策树原理

    • 决策理论
    • 学习过程
  • 特征选择与决策树生成

    • 熵模型:信息与信息熵
    • ID3 算法:信息增益
    • C4.5 算法:信息增益比
    • CART 算法:基尼系数
    • 决策树剪枝

决策树原理

来自人的决策经验

决策树类似我们人的决策过程。比如买北京学区房。就读学校是什么?预算?面积?

x = {x_1, x_2, \dots,x_n}

决策树算法利用树形结构,使用层层递进提问得到最终的分类。通过上面的问题,我们就构建了一套买房的策略。

决策树

  • 每个非叶节点表示一个特征属性测试。
  • 每个分支代表这个特征属性在某个值域(分类)上的输出。
  • 每个叶子节点存放一个类别。
  • 每个节点包含的样本集合通过属性测试被划分到子节点中,根节点包含样本全集。

学习过程

决策树包含根节点、内部节点和叶节点,其根节点包含样本全集,内部节点对应特征属性测试,叶节点则代表决策结果。

由于决策树是基于特征对实例进行分类的,因而其学习的本质是从训练数据集中归纳出一组用于分类的 if-else 规则。在学习的过程中,这组规则集合既要在训练数据上降低经验误差,也要具备良好的泛化能力(降低泛化误差)。

决策树模型的学习过程包括三个步骤:特征选择、决策树生成、决策树剪枝

特征选择与决策树生成

熵模型:信息与信息熵

特征选择决定了使用哪些特征来划分特征空间。训练集中,每个样本的属性可能有很多个,在分类结果中起到的作用也有大有小。因此特征选择作用在于筛选出与分类结果相关性较高,也就是分类能力较强的特征。理想的特征选择是在每次划分之后,分支节点所包含的样本都尽可能属于同一个类别。

在特征选择中通常使用的准则是信息增益。信息增益描述的是在已知特征后对数据分类不确定性的减少程度,因而特征的信息增益越大,得到的分类结果的不确定度越低,特征也就具有越强的分类能力。根据信息增益准则选择特征的过程,就是自顶向下进行划分,在每次划分时计算每个特征的信息增益并选取最大值的过程。信息增益的计算涉及信源熵和条件熵的公式。

如果事件 X 发生的概率是 p(X),这个事件的自信息量的定义为

\mathrm{H}(X) = -log_2(p(X))

什么是信息,如何度量信息?

选择题有选项 A/B/C/D,结合我们朴素的生活观念,以下那句话带给我们的信息量最大?

  1. 「D一定是错误答案。」
  2. 「每个选项的概率是均等的。」
  3. 「正确答案是 A 。」

可以知道越大概率的事情发生了产生的信息量越小。

参考 YJango 的视频

度量质量需要一个物体的质量作为单位,自然地,我们也想到用一件事(随机变量)的不确定性作为另一件事的单位。

比如一枚硬币的可能性是 2,也就是两种不确定性,每种情况发生的概率是 1/2。

为了可比性,3 枚硬币的不确定性应该是一枚硬币不确定性的三倍,而 3 枚硬币的不确定性是 8。为了方便我们比较,我们选择用对数运算。

log_2(2^3) = 3

所以 3 枚硬币的不确定性,若以一枚硬币的不确定性(当选择的参照物有两个等概率事件)作为单位,它的信息熵是 3 bit 。

那么选择题的 ABCD 选项在我们不知道任何提示的情况下( ABCD 是四种等可能事件),信息熵是 2 bit (当选择的参照物有两个等概率事件):

p_A = \frac{1}{4}\\
p_B = \frac{1}{4}\\
p_C = \frac{1}{4}\\
p_D = \frac{1}{4}\\
h = log_2(4) = 2 \mathrm{bit}\\

我们也可以说,用两个硬币可以猜出选择题答案。X 事件发生的信息熵:

\mathrm{H}(X) = log_2(\text{等概率事件个数}) = \text{相对于两个等概率事件的信息熵}

如果告诉你正确答案有 1/2 概率是 A,则概率分别为:

p_A = \frac{1}{2}\\
p_B = \frac{1}{6}\\
p_C = \frac{1}{6}\\
p_D = \frac{1}{6}\\

那么我们怎么计算信息熵,自然的我们可以用概率期望的方法

\mathrm{H}(X) = p_A(log_2(?)) + p_B(log_2(?)) + p_C(log_2(?)) + p_D(log_2(?))

那等概率事件数量怎么算?概率的倒数就是等概率事件的个数:

\begin{aligned}
\mathrm{H}(\text{正确答案有 1/2 概率是 A}) &=p_A(log_2(1/p_A)) + p_B(log_2(1/p_B)) + p_C(log_2(1/p_C)) + p_D(log_2(1/p_D)) \\
&= \frac{1}{2} \times 1 + \frac{1}{6} \times (2.58) + \frac{1}{6} \times (2.58)+ \frac{1}{6} \times (2.58) \\
&= 1.79
\end{aligned}

因此我们可以得到 X 事件发生的信息熵的公式:

\mathrm{H}(X) = \sum_i^np_ilog_2(1/p_i) = -\sum_i^np_ilog_2(p_i)

那么「正确答案是 A 」信息熵是?

\begin{aligned}
\mathrm{H}(\text{正确答案是 A}) &= -\sum_i^np_ilog_2(p_i) \\
&= -1 \times 0 + 0 + 0 +0 \\
&= 0
\end{aligned}

同时,我们知道由「正确答案在ABCD之中」到被告知「正确答案有 1/2 概率是 A」的信息量是:

2 - 1.79 = 0.21 \mathrm{bit}

那么「正确答案是 A 」的信息量是?

获取信息就是消除信息熵(不确定性)

信息量 = 信息熵(不确定性)减少量

https://zhuanlan.zhihu.com/p/26486223

条件熵

熵:表示随机变量的不确定性。

条件熵:在一个条件下,随机变量的不确定性。

信息增益:熵 – 条件熵。表示在一个条件下,信息不确定性减少的程度。

在概率论中有条件概率的概念,将条件概率扩展到信息论中,就可以得到条件熵。如果两个随机变量之间具有相关性,那么在已知其中一个随机变量 X 的情况下,另一个随机变量 Y 的信息熵就会减小。

条件熵 H(Y|X) 表示的是在已知随机变量 X 的条件下另一个随机变量 Y 的不确定性,也就是在给定 X 时,根据 Y 的条件概率计算出的熵再对 X 求解数学期望:

\begin{aligned}

H(Y \mid X) 
&=\sum_{i=1}^{n} p\left(x_{i}\right) H\left(Y \mid X=x_{i}\right) \\
&=-\sum_{i=1}^{n} p\left(x_{i}\right) \sum_{j=1}^{m} p\left(y_{j} \mid x_{i}\right) \log _{2} p\left(y_{j} \mid x_{i}\right) \\
&=-\sum_{i=1}^{n} \sum_{j=1}^{m} p\left(x_{i}, y_{j}\right) \log _{2} p\left(y_{j} \mid x_{i}\right)

\end{aligned}

相对于按照 X 的不同取值进行分类,比如我们把书籍按文科和理工科分成两个书架,尽管这两堆内部依然是随机的,我们还是能根据这个信息更好地判断书籍的分布位置,但这也简化了我们的问题,使得不确定性下降。

附近学校 x1 价格 x2 面积 x3
超过预算 适合
不买 不好 符合预算 太小
…… …… …… ……

附近学校好,买的人有5个,不买的个数为6个;

附近学校不好,买的人有1个,不买的个数为8个;

条件熵为:

\begin{aligned}
&H(Y|X = \text{附近学校好}) = -\frac{5}{11}log_2(\frac{5}{11}) -\frac{6}{11}log_2(\frac{6}{11}) = 0.99 
\\
&H(Y|X=\text{附近学校不好}) =  -\frac{1}{9}log_2(\frac{1}{9}) -\frac{8}{9}log_2(\frac{8}{9}) = 0.5\\
\\
&P(X = \text{附近学校好}) =   \frac{11}{20}\\
&P(X =\text{附近学校不好}) = \frac{9}{20}
\\ \\
&H(Y|X) =   \frac{11}{20} \times  0.99  +  \frac{9}{20} \times 0.5 = 0.77
\end{aligned}

买的人有 6 个,不买的 14 个。于是我们知道信息熵为:

H(Y) = -\frac{6}{20}log_2(\frac{6}{20}) -\frac{14}{20}log_2(\frac{14}{20}) = 0.88

信息增益 = 信息熵 – 条件熵

H(D) = H(Y) - H(Y|X)

于是得出信息增益是:

H(D_1) = 0.88 - 0.77 = 0.11

一起学机器学习

Dating-with-Machine-Learning

visitor badge

这个春天一起机器学习 —— Python 数据分析课。

Dating-with-python-this-winter 的后续。

机器学习与数据分析

目标

计划总共 14 周,每周两节理论课,

学会机器学习算法基本思想,为模型选择恰当的假设,编写机器学习代码。

前置条件:学过概率统计、线性代数。

课程表

课程文档可以下载文件,用 Typora 在电脑打开。或者上知乎 机器漫游指南

All Cheat Sheets 是几个著名数据分析框架的“作弊表”,有些代码不会写的可以看看就上手。

课节 文档和视频 直播时间(20:00) 课后作业期限(23:59)
1 ML1. 机器学习入门 | 知乎| bilibili 星期三 星期五
2 ML2. 模型评估与选择(数据集构建) | 知乎| bilibili 星期六
3 ML3. 线性模型基础 | 知乎 | bilibili 星期三
4 ML4. 线性回归实验 | ML4. 对数几率回归与广义线性模型 | 知乎| bilibili 星期一
5 ML5. 线性模型识别手写数字 | 知乎 | bilibili 星期三
6 ML6. 层层递进,决策树模型 | 知乎 | bilibili 星期三

课程结构

  1. 机器学习入门
  2. 模型评价与选择:
    1. 经验误差与结构误差
    2. 评价指标
    3. 比较检验与假设检验
  3. 学习理论:频率派和贝叶斯派
  4. 学习理论:PAC 和 VC维
  5. 数据预处理方法
  6. 学习模型:
    1. 最小二乘法线性回归——线性模型
    2. KNN 算法
    3. 决策树
    4. 支持向量机
    5. 梯度提升与随机森林
    6. 贝叶斯分类器
    7. 马尔可夫随机场

参考书目

"Learning from Data"

《统计学习方法》李航

《机器学习》周志华(西瓜书)以及《如何使用本书》

《南瓜书PumpkinBook》 辅助西瓜书

《机器学习实战:基于Scikit-Learn、Keras和 TensorFlow(原书第2版)》

对数几率回归与广义线性模型

为什么线性模型是可行的?

几何意义——生成子空间

假设有 N 个实例 \mathbf{x_i} = (x_0, x_1, x_2, \cdots, x_n)x_i(i \neq 0) 代表了实例的第 i 个属性, x_0 = 1

那么下列矩阵就变成了 N×(n+1) 维的数据矩阵 \mathbf{X} ,它的每一行表示同一个样本的不同属性,每一列表示不同样本中的相同属性。

\begin{aligned}
\left [  \begin{aligned} --\mathbf{x_1^\top} -- \\ --\mathbf{x_2^\top} --\\ --\dots -- \\ --\mathbf{x_N^\top}-- \\ \end{aligned} \right ]  \end{aligned}

模型是 h(\mathbf{x})=\mathbf{w}^\top \mathbf{x}=\sum_{i=0}^{n} w_{i} \cdot x_{i} ,最优解为 \mathbf{w^*} = (\mathbf{X^\top} \mathbf{X} )^{-1} \mathbf{X^\top} \mathbf{y} = X^\dagger \mathbf{y} ,代入 E_\mathrm{in}(\mathbf{w}) = \frac{1}{N} \| \mathbf{X}\mathbf{w} - \mathbf{y} \| ^2 ,得:

\begin{aligned}
E_\mathrm{in}(\mathbf{w^*}) & = \frac{1}{N}  \| \mathbf{X}\mathbf{X}^\dagger \mathbf{y}  - \mathbf{y} \| ^2 \\
& = \frac{1}{N}  \|    \mathbf{y} -  \mathbf{X}\mathbf{X}^\dagger \mathbf{y} \| ^2 \\
& = \frac{1}{N}  \|    (\mathbf{I} - \mathbf{X}\mathbf{X}^\dagger)  \mathbf{y} \| ^2 \\
& = \frac{1}{N}  \|    (\mathbf{I} - \mathbf{H} )  \mathbf{y} \| ^2
\end{aligned}

注:投影矩阵 P ∈ \mathbb{R}_{n×n} 是正交投影矩阵的充要条件 P^\top = P

下载

如果待拟合数据任意两个属性都线性无关的话, \mathbf{X} 就可以看成一个由它的所有列向量所张成的空间。

属性的数目 n 会远远小于数据的数目 N ,因此 \mathbf{X} 张成的是 N 维空间之内的 n 维生成子空间,或者叫 n 维超平面。这个超平面的每一个维度都对应着数据集的一个列向量。理想条件下,输出 \mathbf{y} 作为属性的线性组合,也应该出现在由数据属性构成的超平面上。但受噪声的影响,真正的 \mathbf{y} 是超平面之外的一个点,这时就要退而求其次,在超平面上找到离 \mathbf{y} 最近的点作为最佳的近似。

  • 黄色区域表示由所有属性张成的超平面;
  • 黑色向量 \mathbf{x_1} 和天蓝色向量 \mathbf{x_2} 表示输入向量;
  • 红色实线 \mathbf{y} 表示真实输出,水平的红色虚线 \mathbf{\hat{y}} 表示数据的最优估计值(属性的线性组合);
  • 垂直的红色虚线表示 \mathbf{y} - \mathbf{\hat{y}} (残差),它与超平面正交。

如果我们假设 \mathbf{w^*} 是上帝所知道的规律,那 \mathbf{Xw^*} 也仍然在 \mathbf{X} 的张成空间里。但是由于噪声 \mathbf{z} 的影响使得 \mathbf{y} 出现了偏差。

\mathbf{Xw^*} + \mathbf{z} = \mathbf{y}

这就使得

\begin{aligned}
E_\mathrm{in}(\mathbf{w^*})  
&= \frac{1}{N}\sum_{i=1}^{N}(\mathbf{y} - \mathbf{\hat{y}})^2 \\
&= \frac{1}{N}\sum_{i=1}^{N}((\mathbf{I} - \mathbf{H})\mathbf{y})^2 \\
&= \frac{1}{n}\sum_{i=1}^{N}((\mathbf{I} - \mathbf{H})\mathbf{z})^2 \\
\end{aligned}

还可以看成,这里把 \mathbf{x} 变成了它的转置(虽然输出的结果没有不同)。 \mathbf{w}^\top \mathbf{x} 背后的寓意是每个包含若干输入属性和一个输出结果的样本都被视为一个整体,误差分散在不同的样本点上;而当输出被写成 \mathbf{x}^\top \mathbf{w} 时,每个单独属性在所有样本点上的取值被视为一个整体,误差分散在每个不同的属性上。

注意我们之前令 \mathbf{x} = (x_0, x_1, x_2, \cdots, x_n)x_i(i \neq 0) 代表了实例的第 i 个属性, x_0 = 1

h(\mathbf{x})=1 \cdot w_{0}+\sum_{j=1}^{n} x_{j} \cdot w_{j}=\mathbf{x}^{\top} \mathbf{w}

概率视角——最大似然估计 MLE

高斯噪声是最复杂的噪声,我们一般认为噪声服从正态分布:

\epsilon \sim N(\mu, \sigma^2)

真实的 f() 受到噪声的影响才有了 {y}

y = f(\mathbf{x}) + \epsilon = \mathbf{w^\top}\mathbf{x} +  \epsilon

y 在条件下满足概率分布:

y|_{\mathbf{x_i};\mathbf{w}}  \sim  N(\mathbf{\mu} + \mathbf{w^\top}\mathbf{x}, \sigma^2)

其概率密度函数为:

f_y(y) = \frac{1}{\sqrt{2\pi} \sigma}exp({-\frac{[y - (\mathbf{\mu} + \mathbf{w^\top}\mathbf{x})]^2} {2 \sigma^2}})

根据最大似然估计得出似然函数:

L(\mathbf{w}) = \prod_{i=1}^{N}f_y(y) \\
\begin{aligned}
ln(L(\mathbf{w})) &= \sum_{i=1}^{N} \frac{1}{\sqrt{2\pi} \sigma}exp({-\frac{[y - (\mathbf{\mu} + \mathbf{w^\top}\mathbf{\tilde{x}})]^2} {2 \sigma^2}})  \\
&= \sum_{i=1}^{N} ln(\frac{1}{\sqrt{2\pi} \sigma}) - {\sum_{i=1}^{N} \frac{[y - (\mathbf{\mu} + \mathbf{w^\top}\mathbf{\tilde{x}})]^2} {2 \sigma^2}} \\
&= \sum_{i=1}^{N} ln(\frac{1}{\sqrt{2\pi} \sigma}) - {\sum_{i=1}^{N} \frac{[y - (\mathbf{\mu} + \mathbf{w^\top}\mathbf{\tilde{x}})]^2} {2 \sigma^2}}\\
&= \sum_{i=1}^{N} ln(\frac{1}{\sqrt{2\pi} \sigma}) - {\sum_{i=1}^{N} \frac{[y - ( \mathbf{w^{*\top}}\mathbf{x})]^2} {2 \sigma^2}}

\end{aligned}

最大化似然函数:

\begin{aligned}
\mathbf{w^*} &= \arg \max _{\mathbf{w^*}}L(\mathbf{w})  \\
&=  \arg \max _{\mathbf{w^*}}\sum_{i=1}^{N} ln(\frac{1}{\sqrt{2\pi} \sigma}) - {\sum_{i=1}^{N} \frac{[y - ( \mathbf{w^{*\top}}\mathbf{{x}})]^2} {2 \sigma^2}} \\
&= \arg \min _{\mathbf{w^*}} {\sum_{i=1}^{N} \frac{[y - ( \mathbf{w^{*\top}}\mathbf{x})]^2} {2 \sigma^2}} \\
&= \arg \min _{\mathbf{w^*}} {\sum_{i=1}^{N} [y - ( \mathbf{w^{*\top}}\mathbf{x})]^2 }
\end{aligned}

对数几率回归

回归就是通过输入的属性值得到一个预测值,是否可以通过一个联系函数,将预测值转化为离散值从而进行分类呢?线性几率回归正是研究这样的问题。

为了解决一个最简单的二类分类问题, 我们为每一个点定义一个值域 [0, 1] 的函数, 表示这个点分在A类或者B类中的可能性, 如果非常可能是A类, 那可能性就逼近 1 , 如果非常可能是B类, 那可能性就逼近0(相对A的可能性)。

我们引入一个对数几率函数(logistic function ,logit 函数,也叫 sigmoid 函数)来实现实数集到 [0, 1] 的映射。将预测值投影到0-1之间,从而将线性回归问题转化为二分类问题。

y = \frac{1}{1-e^z}

C886BFB9-0C77-4894-B1CF-37409315BB57

一个事件发生的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是 p ,那么该事件的几率为 \frac{p}{1-p} ,该事件的对数几率是:

logit(y) = \ln \frac{y}{1-y}

由我们输出的得到:

\ln \frac{p(y=1 \mid \mathbf{x})}{p(y=0 \mid \mathbf{x})}=\mathbf{w}^{\mathrm{T}} \mathbf{x}+b
\begin{array}{l}
p(y=1 \mid \mathbf{x})=\frac{e^{\mathbf{w}^{\mathrm{T}} \mathbf{x}+b}}{1+e^{\mathbf{w}^{\mathrm{T}} \mathbf{x}+b}} \\
p(y=0 \mid \mathbf{x})=\frac{1}{1+e^{\mathbf{w}^{\mathrm{T}} \mathbf{x}+b}}
\end{array}

同样用 MLE:

\ell(\mathbf{w})=\sum_{i=1}^{m} \ln  p\left(y_{i} \mid \mathbf{x}_{i} ; \mathbf{w}\right)

会得到所谓的误差函数,也叫做交叉熵:

E_\mathrm{in} = \ln(1 + \exp(-y\mathbf{w^\top x}))

广义线性模型

考虑所有 y 的衍生物的情形,就得到了“广义的线性模型”(generalized linear model),其中, g 称为联系函数(link function)。

y=g^{-1}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right)

之前的对数几率回归就是代入了 g(c) = \ln \frac{c}{1-c}

机器学习基础(一)- 对数几率回归(Logistic Regression)笔记| 零一人生

线性模型基础

线性回归

回归问题

之前我们说,当预测值为连续值时,称为“回归问题”,离散值时为“分类问题”。但回归是什么,为什么要叫回归?

线性回归问题就是试图学到一个线性模型尽可能准确地预测新样本的输出值。

输入单一属性的问题,比如通过年龄数据预测一个人身高,输入的属性只有一个,即年龄,往往我们会先得到一系列的有标记数据,例如:[15岁,170cm] …… [20岁,175cm]。

输入多属性的问题,比如预测一个人的收入,输入的属性值就不止一个了,例如:(学历,年龄,性别,颜值,身高,体重)–>15k。回归问题就是要根据这些属性,预测新样本中人的收入。

回归的来源:生物统计学家高尔顿研究父母身高和子女身高时的发现。父亲身高和儿子身高呈正相关关系。而在正相关关系背后还有另一个现象:矮个子父亲的儿子更可能比父亲高;而高个子父亲的儿子更可能比父亲矮。高尔顿对此研究后得出的解释是自然界有一种约束力,使人类身高在一定时期是相对稳定的。如果父母身高(或矮了),其子女比他们更高(矮),则人类身材将向高、矮两个极端分化。自然界不这样做,它让身高有一种回归到中心的作用。

他当时给出了一个回归的式子,y 和 x 分别代表以英寸为单位的子代和父代的身高:

y = 3.78+0.516 x

即使父母的身高都很高,其子女不见得会比父母高,而可能会衰退(regression)(回归)至平均身高的倾向。虽然之后的x 与 y 变量之间并不总是具有“衰退”(回归)关系,但是为了纪念高尔顿这位伟大的统计学家,“线性回归”这一名称就保留了下来。

import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(0, 20, 20)
y = 3.78+ 0.516 * x
trainning_set = y + np.random.randn(y.shape[-1]) * 2
plt.plot(x, trainning_set, 'gx')

coeff = np.polyfit(x, trainning_set, 1)
poly1 = np.polyval(coeff, x)
plt.plot(x, poly1, 'b')

plt.show()

线性模型假设

假设内容:输入变量 x 的各个属性(分量)在对应的输出变量 y 中有不同的权值,或者说,输入变量的各个分量的线性组合来拟合 y 值。

\mathbf{x} = (x_1, x_2, \cdots, x_n) 是一个实例, x_i 代表了实例在第 i 个属性上的取值。我们通常令 x_0 = 1

h(\mathbf{x})=\mathbf{w}^{T} \mathbf{x}=\sum_{i=0}^{n} w_{i} \cdot x_{i}

线性模型最大优点不是计算方便,而是易于解释。一些 SOTA(state of the art) 的模型里面也经常组合使用线性模型。

我们确定了模型假设,那么接下来就是确定模型的参数。

在训练集上确定系数 w_i 时,预测输出 h(x) 和真实输出 y 之间的误差是关注的核心指标。

image-20210310192643787

在线性回归中,我们常常以均方误差 (MSE) 来作为模型误差。当线性回归的模型为二维平面上的直线时,均方误差就是预测输出和真实输出之间的欧几里得距离,也就是向量长度( 或者说向量的 L2 范数)。而以使均方误差取得最小值为目标的模型求解方法就是最小二乘法。平方则是为了得到证书,因此它可以刻画样本点与直线之间的距离。

所以线性模型的泛化误差 E_{\mathrm{out}}(h) ,其中 (\mathbf{x}, y) 是未知的样本:

E_{\mathrm{out}}(h)=\mathbb{E}\left[(h(\mathbf{x}) - y)^{2}\right]

经验误差就是:

E_{\mathrm{in}}(h)=\frac{1}{N} \sum_{i=1}^{N}\left(h\left(\mathbf{x}_{i}\right) - y_{i}\right)^{2}

于是我们得到了最终目标 \mathbf{w}^*

\begin{array}{l}
\mathbf{w}^{*}=  \underset{\mathbf{w}}{\arg \min } E_{\mathrm{in}}(h)
\end{array}

式中每个 x_i 代表训练集中的一个样本。

求偏导以得出最值,粗体是向量或矩阵:

\begin{aligned}

E_\mathrm{in}(h) 
& = E_\mathrm{in}(\mathbf{w}) \\
& = \frac{1}{N}\sum^N_{i=1}(\mathbf{w^\top} \mathbf{x_i}  - {y_i})^2 \\
&=  \frac{1}{N}\sum^N_{i=1}(\mathbf{x_i^\top} \mathbf{w}   - {y_i})^2 \\
&=   \frac{1}{N} \left \|
\begin{aligned}
&\mathbf{x_1^\top} \mathbf{w} -   {y_1} \\
&\mathbf{x_2^\top} \mathbf{w} -   {y_2} \\
&\cdots \\
&\mathbf{x_N^\top} \mathbf{w} -   {y_N} \\
\end{aligned}
\right \| ^2 \\

&=   \frac{1}{N} \left \|
\begin{aligned}
\left [  \begin{aligned} \mathbf{x_1^\top} \\ \mathbf{x_2^\top} \\ \cdots \\ \mathbf{x_N^\top} \\ \end{aligned} \right ]  \mathbf{w} - 
\left [ \begin{aligned}  {y_1} \\ {y_2} \\ \cdots \\ {y_N} \\ \end{aligned} \right ] \end{aligned}
\right \| ^2 \\ 
& = \frac{1}{N}  \| \mathbf{X}\mathbf{w} - \mathbf{y} \| ^2

\end{aligned}

目标变成了:

\begin{aligned} 
\mathbf{w}^{*} &=\underset{\mathbf{w}}{\arg \min }  \frac{1}{N}  \| \mathbf{X}\mathbf{w} - \mathbf{y} \| ^2 \\
\\ &=\underset{\mathbf{w}}{\arg \min }   \frac{1}{N} \left(  \mathbf{w^\top} \mathbf{X^\top} \mathbf{X} \mathbf{w} - 2 \mathbf{w^\top} \mathbf{X^\top} \mathbf{y}  + \mathbf{y^\top}\mathbf{y}
\right)
\end{aligned}

求偏导:

\frac{\partial E_\mathrm{in}(\mathbf{w})} {\partial \mathbf{w}} = 
2 \mathbf{X^\top} \mathbf{X} \mathbf{w} - 2\mathbf{X^\top} \mathbf{y}

令其为0 ,考虑到矩阵不可逆(伪逆),得出:

\mathbf{w^*}  =  (\mathbf{X^\top} \mathbf{X} )^{-1} \mathbf{X^\top} \mathbf{y}
= X^\dagger \mathbf{y}

在单变量线性回归任务中,最小二乘法的作用就是找到一条直线,使所有样本到直线的欧式距离之和最小。说到这里,问题就来了:凭什么使均方误差最小化的参数就是和训练样本匹配的最优模型呢?

模型评估与选择(数据集构建)

机器学习过程

回顾高一的运动学实验,探索运动学公式:

x = \frac{1}{2}at^2

把带有滑轮的长木板平放在实验桌上,把滑轮伸出桌面,把打点计时器固定在长木板上没有滑轮的一端,并把打点计时器连接在电源上。此时 a = g = 10 m/s^2

import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(0, 20, 20)
y = 0.5 * 10 * (x**2)
trainning_set = y + np.random.randn(y.shape[-1]) * 2.5
plt.plot(x, trainning_set, 'gx')

plt.show()

png

训练集 X = \{(x_i, y_i)\} 这里等于 X = \{(0, 0), (1, 20.6), (3, 45.2), \cdots \}

测试集

假设空间:一元一次函数,一元 n 次函数,牛顿的假设-一元二次函数

def poly_format(coeff):
    fmt = ["%.2f" % (coeff[-1])]
    cnt = -1
    for i in reversed(coeff):
        cnt += 1
        if cnt == 0:
            continue
        fmt.append("%.2fx^%d + " % (i, cnt))
    fmt = reversed(fmt)
    return "".join(fmt)
coeff = np.polyfit(x, trainning_set, 2)
print(poly_format(coeff))

poly2 = np.polyval(coeff, x)
plt.plot(x, trainning_set, 'gx')
plt.plot(x, poly2, 'b')
plt.show()
5.01x^2 + -0.22x^1 + 0.64

png

coeff = np.polyfit(x, trainning_set, 1)
print(poly_format(coeff))
poly1 = np.polyval(coeff, x)
plt.plot(x, trainning_set, 'gx')
plt.plot(x, poly1, 'b')
plt.plot(x, test_set, 'rx')
plt.show()
100.03x^1 + -315.95

png

coeff = np.polyfit(x, trainning_set, 3)
print(poly_format(coeff))
poly1 = np.polyval(coeff, x)
plt.plot(x, trainning_set, 'gx')
plt.plot(x, poly1, 'b')
plt.plot(x, test_set, 'rx')

plt.show()
-0.00x^3 + 5.08x^2 + -0.73x^1 + 1.37

png

模型归纳偏好

特化与泛化

没有免费的午餐:https://www.leiphone.com/news/201907/jswawIEtorcAYvrB.html

奥卡姆剃刀原则:如无必要,勿增实体

误差

我们将学习器对样本的实际预测结果与样本的真实值之间的差异成为:误差(error)。

  • 在训练集上的误差称为训练误差(training error)或经验误差(empirical error)。
  • 在测试集上的误差称为测试误差(test error)。
  • 学习器在所有新样本上的误差称为泛化误差(generalization error)。

显然,我们希望得到的是在新样本上表现得很好的学习器,即泛化误差小的学习器。因此,我们应该让学习器尽可能地从训练集中学出普适性的“一般特征”,这样在遇到新样本时才能做出正确的判别。然而,当学习器把训练集学得“太好”的时候,即把一些训练样本的自身特点当做了普遍特征;同时也有学习能力不足的情况,即训练集的基本特征都没有学习出来。我们定义:

  • 学习能力过强,以至于把训练样本所包含的不太一般的特性都学到了,称为:过拟合(overfitting)。
  • 学习能太差,训练样本的一般性质尚未学好,称为:欠拟合(underfitting)。

训练集与测试集的构建方法

我们希望用一个“测试集”的“测试误差”来作为“泛化误差”(因为不可能知道)的近似,因此我们需要对初始数据集进行有效划分,划分出互斥的“训练集”和“测试集”。下面介绍几种常用的划分方法:

留出法

将数据集D划分为两个互斥的集合,一个作为训练集 S ,一个作为测试集 T ,满足 D=S∪TS∩T=∅

常见的划分为:大约2/3-4/5的样本用作训练,剩下的用作测试。需要注意的是:训练/测试集的划分要尽可能保持数据分布的一致性,以避免由于分布的差异引入额外的偏差,常见的做法是采取分层抽样。同时,由于划分的随机性,单次的留出法结果往往不够稳定,一般要采用若干次随机划分,重复实验取平均值的做法。

交叉验证法

将数据集 D 划分为两个互斥的集合,一个作为训练集 S ,一个作为测试集 T ,满足 D=S∪T且S∩T=∅ ,常见的划分为:大约 2/3-4/5 的样本用作训练,剩下的用作测试。需要注意的是:训练/测试集的划分要尽可能保持数据分布的一致性,以避免由于分布的差异引入额外的偏差,常见的做法是采取分层抽样。同时,由于划分的随机性,单次的留出法结果往往不够稳定,一般要采用若干次随机划分,重复实验取平均值的做法。

自助法

我们希望评估的是用整个D训练出的模型。但在留出法和交叉验证法中,由于保留了一部分样本用于测试,因此实际评估的模型所使用的训练集比D小,这必然会引入一些因训练样本规模不同而导致的估计偏差。留一法受训练样本规模变化的影响较小,但计算复杂度又太高了。“自助法”正是解决了这样的问题。

自助法的基本思想是:给定包含m个样本的数据集D,每次随机从D 中挑选一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集D 中,使得该样本在下次采样时仍有可能被采到。重复执行m 次,就可以得到了包含m个样本的数据集D’。

调参

大多数学习算法都有些参数(parameter) 需要设定,参数配置不同,学得模型的性能往往有显著差别,这就是通常所说的"参数调节"或简称"调参" (parameter tuning)。

学习算法的很多参数是在实数范围内取值,因此,对每种参数取值都训练出模型来是不可行的。常用的做法是:对每个参数选定一个范围和步长λ,这样使得学习的过程变得可行。

ML1答案

  1. BCD
  2. 特征选择错了

答案可见 ML3 视频开头

机器学习入门

机器学习入门

课程纲要

什么是机器学习?

Improving some performance measure with experience computed from data.

机器从数据中总结经验。

什么时候用机器学习?

  • 事物存在某种潜在规律
  • 人不能直接发现这种规律 (例如牛顿定律)
  • 能获取大量数据

机器学习概念

  • 输入空间: \mathcal{X}
  • 输出空间: \mathcal{Y}
  • 假设空间( hypothesis space ): \mathcal{H} , 包含所有可能的 f :\mathcal{X} \mapsto \mathcal{Y}
  • 所有记录的集合:数据集, \mathcal{D}=\{\left(\mathbf {x_i},Y_i\right)|1\le i\le m\}
  • 一条记录( instance, sample ) \mathbf{x_i}
  • 数据的特征或者属性 feature, attribute : \mathbf{x_i} = \{x_1, x_2, \cdots, x_n \}
  • 训练集
  • 测试集

假设空间——机器学习的过程

new-pic-mine-e1572009324171

机器学习分类

  • 预测值为离散值或连续值的问题为:

    • 分类(classification)(上火问题,是否下雨)
    • 回归(regression) \mathcal{R}
  • 训练数据有标记信息的学习任务为:监督学习(supervised learning),分类和回归都属于监督学习。

  • 训练数据没有标记信息的学习任务为:无监督学习(unsupervised learning),常见的有聚类和关联规则。

  • 还有:batch learning, online learning, active learning, reinforcement Learning

为什么可以学习?

简要解释计算学习理论:

Ein(h)表示在训练集样本中,h(x)不与f(x)不相等的概率。即模型假设对样本(已知)的错误率。

Eout(h)表示实际所有样本中,h(x)与f(x)不相等的概率。即模型假设对真实情况(未知)的错误率。

霍夫丁不等式:

P[|\nu-\mu|>\epsilon] \leq 2 e^{-2 \epsilon^{2} N}

PAC

数据分析的一般流程

  • 数据清理和格式化
  • 探索性数据分析
  • 特征工程和特征选择
  • 基于性能指标比较几种机器学习模型
  • 对最佳模型执行超参数调整
  • 在测试集上评估最佳模型
  • 解释模型结果
  • 得出结论

13bb24f42e5bb98f4a9c15037e523d7d

作业

选择题

以下哪些问题适合用机器学习来解决?

A. 判断今年是闰年还是平年

B. 判断银行能不能给某人开信用卡

C. 判断北京明天的天气

D. 估计北京西直门早高峰的人流量

E. 计算地球运行的轨道

问答题

亚里士多德提出「物体下落的快慢是由物体本身的重量决定的」,他的错误出现在数据分析的哪一步?