一起学机器学习

发表评论

Dating-with-Machine-Learning

这个春天一起机器学习 —— Python 数据分析课。

是 Dating-with-python-this-winter 的后续。

机器学习与数据分析

目标

计划总共 14 周，每周两节理论课，

学会机器学习算法基本思想，为模型选择恰当的假设，编写机器学习代码。

前置条件：学过概率统计、线性代数。

课程表

课程文档可以下载文件，用 Typora 在电脑打开。或者上知乎机器漫游指南。

All Cheat Sheets 是几个著名数据分析框架的“作弊表”，有些代码不会写的可以看看就上手。

课节	文档和视频	直播时间(20:00)	课后作业期限(23:59)
1	ML1. 机器学习入门 \| 知乎\| bilibili	星期三	星期五
2	ML2. 模型评估与选择（数据集构建） \| 知乎\| bilibili	星期六	无
3	ML3. 线性模型基础 \| 知乎 \| bilibili	星期三	无
4	ML4. 线性回归实验 \| ML4. 对数几率回归与广义线性模型 \| 知乎\| bilibili	星期一	无
5	ML5. 线性模型识别手写数字 \| 知乎 \| bilibili	星期三	无
6	ML6. 层层递进，决策树模型 \| 知乎 \| bilibili	星期三	无

课程结构

机器学习入门
模型评价与选择：
1. 经验误差与结构误差
2. 评价指标
3. 比较检验与假设检验
学习理论：频率派和贝叶斯派
学习理论：PAC 和 VC维
数据预处理方法
学习模型：
1. 最小二乘法线性回归——线性模型
2. KNN 算法
3. 决策树
4. 支持向量机
5. 梯度提升与随机森林
6. 贝叶斯分类器
7. 马尔可夫随机场

参考书目

"Learning from Data"

《统计学习方法》李航

《机器学习》周志华（西瓜书）以及《如何使用本书》

《南瓜书PumpkinBook》辅助西瓜书

《机器学习实战：基于Scikit-Learn、Keras和 TensorFlow（原书第2版）》

对数几率回归与广义线性模型

发表评论

为什么线性模型是可行的？

几何意义——生成子空间

假设有 $N$ 个实例 $\mathbf{x_i} = (x_0, x_1, x_2, \cdots, x_n)$ ， $x_i(i \neq 0)$ 代表了实例的第 $i$ 个属性， $x_0 = 1$ 。

那么下列矩阵就变成了 $N\times(n+1)$ 维的数据矩阵 $\mathbf{X}$ ，它的每一行表示同一个样本的不同属性，每一列表示不同样本中的相同属性。

 $\begin{aligned} \left [ \begin{aligned} --\mathbf{x_1^\top} -- \\ --\mathbf{x_2^\top} --\\ --\dots -- \\ --\mathbf{x_N^\top}-- \\ \end{aligned} \right ] \end{aligned}$

模型是 $h(\mathbf{x})=\mathbf{w}^\top \mathbf{x}=\sum_{i=0}^{n} w_{i} \cdot x_{i}$ ，最优解为 $\mathbf{w^*} = (\mathbf{X^\top} \mathbf{X} )^{-1} \mathbf{X^\top} \mathbf{y} = X^\dagger \mathbf{y}$ ，代入 $E_\mathrm{in}(\mathbf{w}) = \frac{1}{N} \| \mathbf{X}\mathbf{w} - \mathbf{y} \| ^2$ ，得：

 $\begin{aligned} E_\mathrm{in}(\mathbf{w^*}) & = \frac{1}{N} \| \mathbf{X}\mathbf{X}^\dagger \mathbf{y} - \mathbf{y} \| ^2 \\ & = \frac{1}{N} \| \mathbf{y} - \mathbf{X}\mathbf{X}^\dagger \mathbf{y} \| ^2 \\ & = \frac{1}{N} \| (\mathbf{I} - \mathbf{X}\mathbf{X}^\dagger) \mathbf{y} \| ^2 \\ & = \frac{1}{N} \| (\mathbf{I} - \mathbf{H} ) \mathbf{y} \| ^2 \end{aligned}$

注：投影矩阵 $P ∈ \mathbb{R}_{n×n}$ 是正交投影矩阵的充要条件 $P^\top = P$

如果待拟合数据任意两个属性都线性无关的话， $\mathbf{X}$ 就可以看成一个由它的所有列向量所张成的空间。

属性的数目 $n$ 会远远小于数据的数目 $N$ ，因此 $\mathbf{X}$ 张成的是 $N$ 维空间之内的 $n$ 维生成子空间，或者叫 $n$ 维超平面。这个超平面的每一个维度都对应着数据集的一个列向量。理想条件下，输出 $\mathbf{y}$ 作为属性的线性组合，也应该出现在由数据属性构成的超平面上。但受噪声的影响，真正的 $\mathbf{y}$ 是超平面之外的一个点，这时就要退而求其次，在超平面上找到离 $\mathbf{y}$ 最近的点作为最佳的近似。

黄色区域表示由所有属性张成的超平面；
黑色向量 $\mathbf{x_1}$ 和天蓝色向量 $\mathbf{x_2}$ 表示输入向量；
红色实线 $\mathbf{y}$ 表示真实输出，水平的红色虚线 $\mathbf{\hat{y}}$ 表示数据的最优估计值（属性的线性组合）；
垂直的红色虚线表示 $\mathbf{y} - \mathbf{\hat{y}}$ （残差），它与超平面正交。

如果我们假设 $\mathbf{w^*}$ 是上帝所知道的规律，那 $\mathbf{Xw^*}$ 也仍然在 $\mathbf{X}$ 的张成空间里。但是由于噪声 $\mathbf{z}$ 的影响使得 $\mathbf{y}$ 出现了偏差。

 $\mathbf{Xw^*} + \mathbf{z} = \mathbf{y}$

这就使得

 $\begin{aligned} E_\mathrm{in}(\mathbf{w^*}) &= \frac{1}{N}\sum_{i=1}^{N}(\mathbf{y} - \mathbf{\hat{y}})^2 \\ &= \frac{1}{N}\sum_{i=1}^{N}((\mathbf{I} - \mathbf{H})\mathbf{y})^2 \\ &= \frac{1}{n}\sum_{i=1}^{N}((\mathbf{I} - \mathbf{H})\mathbf{z})^2 \\ \end{aligned}$

还可以看成，这里把 $\mathbf{x}$ 变成了它的转置（虽然输出的结果没有不同）。 $\mathbf{w}^\top \mathbf{x}$ 背后的寓意是每个包含若干输入属性和一个输出结果的样本都被视为一个整体，误差分散在不同的样本点上；而当输出被写成 $\mathbf{x}^\top \mathbf{w}$ 时，每个单独属性在所有样本点上的取值被视为一个整体，误差分散在每个不同的属性上。

注意我们之前令 $\mathbf{x} = (x_0, x_1, x_2, \cdots, x_n)$ ， $x_i(i \neq 0)$ 代表了实例的第 $i$ 个属性， $x_0 = 1$ ：

 $h(\mathbf{x})=1 \cdot w_{0}+\sum_{j=1}^{n} x_{j} \cdot w_{j}=\mathbf{x}^{\top} \mathbf{w}$

概率视角——最大似然估计 MLE

高斯噪声是最复杂的噪声，我们一般认为噪声服从正态分布：

 $\epsilon \sim N(\mu, \sigma^2)$

真实的 $f()$ 受到噪声的影响才有了 ${y}$ ：

 $y = f(\mathbf{x}) + \epsilon = \mathbf{w^\top}\mathbf{x} + \epsilon$

$y$ 在条件下满足概率分布：

 $y|_{\mathbf{x_i};\mathbf{w}} \sim N(\mathbf{\mu} + \mathbf{w^\top}\mathbf{x}, \sigma^2)$

其概率密度函数为：

 $f_y(y) = \frac{1}{\sqrt{2\pi} \sigma}exp({-\frac{[y - (\mathbf{\mu} + \mathbf{w^\top}\mathbf{x})]^2} {2 \sigma^2}})$

根据最大似然估计得出似然函数：

 $L(\mathbf{w}) = \prod_{i=1}^{N}f_y(y) \\ \begin{aligned} ln(L(\mathbf{w})) &= \sum_{i=1}^{N} \frac{1}{\sqrt{2\pi} \sigma}exp({-\frac{[y - (\mathbf{\mu} + \mathbf{w^\top}\mathbf{\tilde{x}})]^2} {2 \sigma^2}}) \\ &= \sum_{i=1}^{N} ln(\frac{1}{\sqrt{2\pi} \sigma}) - {\sum_{i=1}^{N} \frac{[y - (\mathbf{\mu} + \mathbf{w^\top}\mathbf{\tilde{x}})]^2} {2 \sigma^2}} \\ &= \sum_{i=1}^{N} ln(\frac{1}{\sqrt{2\pi} \sigma}) - {\sum_{i=1}^{N} \frac{[y - (\mathbf{\mu} + \mathbf{w^\top}\mathbf{\tilde{x}})]^2} {2 \sigma^2}}\\ &= \sum_{i=1}^{N} ln(\frac{1}{\sqrt{2\pi} \sigma}) - {\sum_{i=1}^{N} \frac{[y - ( \mathbf{w^{*\top}}\mathbf{x})]^2} {2 \sigma^2}} \end{aligned}$

最大化似然函数：

 $\begin{aligned} \mathbf{w^*} &= \arg \max _{\mathbf{w^*}}L(\mathbf{w}) \\ &= \arg \max _{\mathbf{w^*}}\sum_{i=1}^{N} ln(\frac{1}{\sqrt{2\pi} \sigma}) - {\sum_{i=1}^{N} \frac{[y - ( \mathbf{w^{*\top}}\mathbf{{x}})]^2} {2 \sigma^2}} \\ &= \arg \min _{\mathbf{w^*}} {\sum_{i=1}^{N} \frac{[y - ( \mathbf{w^{*\top}}\mathbf{x})]^2} {2 \sigma^2}} \\ &= \arg \min _{\mathbf{w^*}} {\sum_{i=1}^{N} [y - ( \mathbf{w^{*\top}}\mathbf{x})]^2 } \end{aligned}$

对数几率回归

回归就是通过输入的属性值得到一个预测值，是否可以通过一个联系函数，将预测值转化为离散值从而进行分类呢？线性几率回归正是研究这样的问题。

为了解决一个最简单的二类分类问题, 我们为每一个点定义一个值域 [0, 1] 的函数, 表示这个点分在A类或者B类中的可能性, 如果非常可能是A类, 那可能性就逼近 1 , 如果非常可能是B类, 那可能性就逼近0（相对A的可能性）。

我们引入一个对数几率函数（logistic function ，logit 函数，也叫 sigmoid 函数）来实现实数集到 [0, 1] 的映射。将预测值投影到0-1之间，从而将线性回归问题转化为二分类问题。

 $y = \frac{1}{1-e^z}$

C886BFB9-0C77-4894-B1CF-37409315BB57

一个事件发生的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是 $p$ ，那么该事件的几率为 $\frac{p}{1-p}$ ，该事件的对数几率是：

 $logit(y) = \ln \frac{y}{1-y}$

由我们输出的得到：

 $\ln \frac{p(y=1 \mid \mathbf{x})}{p(y=0 \mid \mathbf{x})}=\mathbf{w}^{\mathrm{T}} \mathbf{x}+b$

 $\begin{array}{l} p(y=1 \mid \mathbf{x})=\frac{e^{\mathbf{w}^{\mathrm{T}} \mathbf{x}+b}}{1+e^{\mathbf{w}^{\mathrm{T}} \mathbf{x}+b}} \\ p(y=0 \mid \mathbf{x})=\frac{1}{1+e^{\mathbf{w}^{\mathrm{T}} \mathbf{x}+b}} \end{array}$

同样用 MLE：

 $\ell(\mathbf{w})=\sum_{i=1}^{m} \ln p\left(y_{i} \mid \mathbf{x}_{i} ; \mathbf{w}\right)$

会得到所谓的误差函数，也叫做交叉熵：

 $E_\mathrm{in} = \ln(1 + \exp(-y\mathbf{w^\top x}))$

广义线性模型

考虑所有 $y$ 的衍生物的情形，就得到了“广义的线性模型”（generalized linear model），其中， $g$ 称为联系函数（link function）。

 $y=g^{-1}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right)$

之前的对数几率回归就是代入了 $g(c) = \ln \frac{c}{1-c}$

机器学习基础（一）- 对数几率回归（Logistic Regression）笔记| 零一人生

线性模型基础

1条回复

线性回归

回归问题

之前我们说，当预测值为连续值时，称为“回归问题”，离散值时为“分类问题”。但回归是什么，为什么要叫回归？

线性回归问题就是试图学到一个线性模型尽可能准确地预测新样本的输出值。

输入单一属性的问题，比如通过年龄数据预测一个人身高，输入的属性只有一个，即年龄，往往我们会先得到一系列的有标记数据，例如：[15岁，170cm] …… [20岁，175cm]。

输入多属性的问题，比如预测一个人的收入，输入的属性值就不止一个了，例如：（学历，年龄，性别，颜值，身高，体重）–>15k。回归问题就是要根据这些属性，预测新样本中人的收入。

回归的来源：生物统计学家高尔顿研究父母身高和子女身高时的发现。父亲身高和儿子身高呈正相关关系。而在正相关关系背后还有另一个现象：矮个子父亲的儿子更可能比父亲高；而高个子父亲的儿子更可能比父亲矮。高尔顿对此研究后得出的解释是自然界有一种约束力，使人类身高在一定时期是相对稳定的。如果父母身高（或矮了），其子女比他们更高（矮），则人类身材将向高、矮两个极端分化。自然界不这样做，它让身高有一种回归到中心的作用。

他当时给出了一个回归的式子，y 和 x 分别代表以英寸为单位的子代和父代的身高：

 $y = 3.78+0.516 x$

即使父母的身高都很高，其子女不见得会比父母高，而可能会衰退（regression）（回归）至平均身高的倾向。虽然之后的x 与 y 变量之间并不总是具有“衰退”（回归）关系，但是为了纪念高尔顿这位伟大的统计学家，“线性回归”这一名称就保留了下来。

import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(0, 20, 20)
y = 3.78+ 0.516 * x
trainning_set = y + np.random.randn(y.shape[-1]) * 2
plt.plot(x, trainning_set, 'gx')

coeff = np.polyfit(x, trainning_set, 1)
poly1 = np.polyval(coeff, x)
plt.plot(x, poly1, 'b')

plt.show()

线性模型假设

假设内容：输入变量 x 的各个属性（分量）在对应的输出变量 y 中有不同的权值，或者说，输入变量的各个分量的线性组合来拟合 y 值。

$\mathbf{x} = (x_1, x_2, \cdots, x_n)$ 是一个实例， $x_i$ 代表了实例在第 i 个属性上的取值。我们通常令 $x_0 = 1$ ：

 $h(\mathbf{x})=\mathbf{w}^{T} \mathbf{x}=\sum_{i=0}^{n} w_{i} \cdot x_{i}$

线性模型最大优点不是计算方便，而是易于解释。一些 SOTA(state of the art) 的模型里面也经常组合使用线性模型。

我们确定了模型假设，那么接下来就是确定模型的参数。

在训练集上确定系数 $w_i$ 时，预测输出 h(x) 和真实输出 y 之间的误差是关注的核心指标。

在线性回归中，我们常常以均方误差 (MSE) 来作为模型误差。当线性回归的模型为二维平面上的直线时，均方误差就是预测输出和真实输出之间的欧几里得距离，也就是向量长度（或者说向量的 L2 范数）。而以使均方误差取得最小值为目标的模型求解方法就是最小二乘法。平方则是为了得到证书，因此它可以刻画样本点与直线之间的距离。

所以线性模型的泛化误差 $E_{\mathrm{out}}(h)$ ，其中 $(\mathbf{x}, y)$ 是未知的样本：

 $E_{\mathrm{out}}(h)=\mathbb{E}\left[(h(\mathbf{x}) - y)^{2}\right]$

经验误差就是：

 $E_{\mathrm{in}}(h)=\frac{1}{N} \sum_{i=1}^{N}\left(h\left(\mathbf{x}_{i}\right) - y_{i}\right)^{2}$

于是我们得到了最终目标 $\mathbf{w}^*$ ：

 $\begin{array}{l} \mathbf{w}^{*}= \underset{\mathbf{w}}{\arg \min } E_{\mathrm{in}}(h) \end{array}$

式中每个 $x_i$ 代表训练集中的一个样本。

求偏导以得出最值，粗体是向量或矩阵：

 $\begin{aligned} E_\mathrm{in}(h) & = E_\mathrm{in}(\mathbf{w}) \\ & = \frac{1}{N}\sum^N_{i=1}(\mathbf{w^\top} \mathbf{x_i} - {y_i})^2 \\ &= \frac{1}{N}\sum^N_{i=1}(\mathbf{x_i^\top} \mathbf{w} - {y_i})^2 \\ &= \frac{1}{N} \left \| \begin{aligned} &\mathbf{x_1^\top} \mathbf{w} - {y_1} \\ &\mathbf{x_2^\top} \mathbf{w} - {y_2} \\ &\cdots \\ &\mathbf{x_N^\top} \mathbf{w} - {y_N} \\ \end{aligned} \right \| ^2 \\ &= \frac{1}{N} \left \| \begin{aligned} \left [ \begin{aligned} \mathbf{x_1^\top} \\ \mathbf{x_2^\top} \\ \cdots \\ \mathbf{x_N^\top} \\ \end{aligned} \right ] \mathbf{w} - \left [ \begin{aligned} {y_1} \\ {y_2} \\ \cdots \\ {y_N} \\ \end{aligned} \right ] \end{aligned} \right \| ^2 \\ & = \frac{1}{N} \| \mathbf{X}\mathbf{w} - \mathbf{y} \| ^2 \end{aligned}$

目标变成了：

 $\begin{aligned} \mathbf{w}^{*} &=\underset{\mathbf{w}}{\arg \min } \frac{1}{N} \| \mathbf{X}\mathbf{w} - \mathbf{y} \| ^2 \\ \\ &=\underset{\mathbf{w}}{\arg \min } \frac{1}{N} \left( \mathbf{w^\top} \mathbf{X^\top} \mathbf{X} \mathbf{w} - 2 \mathbf{w^\top} \mathbf{X^\top} \mathbf{y} + \mathbf{y^\top}\mathbf{y} \right) \end{aligned}$

求偏导：

 $\frac{\partial E_\mathrm{in}(\mathbf{w})} {\partial \mathbf{w}} = 2 \mathbf{X^\top} \mathbf{X} \mathbf{w} - 2\mathbf{X^\top} \mathbf{y}$

令其为0 ，考虑到矩阵不可逆（伪逆），得出：

 $\mathbf{w^*} = (\mathbf{X^\top} \mathbf{X} )^{-1} \mathbf{X^\top} \mathbf{y} = X^\dagger \mathbf{y}$

在单变量线性回归任务中，最小二乘法的作用就是找到一条直线，使所有样本到直线的欧式距离之和最小。说到这里，问题就来了：凭什么使均方误差最小化的参数就是和训练样本匹配的最优模型呢？

模型评估与选择（数据集构建）

1条回复

机器学习过程

回顾高一的运动学实验，探索运动学公式:

 $x = \frac{1}{2}at^2$

把带有滑轮的长木板平放在实验桌上，把滑轮伸出桌面，把打点计时器固定在长木板上没有滑轮的一端，并把打点计时器连接在电源上。此时 $a = g = 10 m/s^2$

import numpy as np
import matplotlib.pyplot as plt

x = np.linspace(0, 20, 20)
y = 0.5 * 10 * (x**2)
trainning_set = y + np.random.randn(y.shape[-1]) * 2.5
plt.plot(x, trainning_set, 'gx')

plt.show()

png

训练集 $X = \{(x_i, y_i)\}$ 这里等于 $X = \{(0, 0), (1, 20.6), (3, 45.2), \cdots \}$

测试集

假设空间：一元一次函数，一元 n 次函数，牛顿的假设-一元二次函数

def poly_format(coeff):
    fmt = ["%.2f" % (coeff[-1])]
    cnt = -1
    for i in reversed(coeff):
        cnt += 1
        if cnt == 0:
            continue
        fmt.append("%.2fx^%d + " % (i, cnt))
    fmt = reversed(fmt)
    return "".join(fmt)

coeff = np.polyfit(x, trainning_set, 2)
print(poly_format(coeff))

poly2 = np.polyval(coeff, x)
plt.plot(x, trainning_set, 'gx')
plt.plot(x, poly2, 'b')
plt.show()

5.01x^2 + -0.22x^1 + 0.64

png

coeff = np.polyfit(x, trainning_set, 1)
print(poly_format(coeff))
poly1 = np.polyval(coeff, x)
plt.plot(x, trainning_set, 'gx')
plt.plot(x, poly1, 'b')
plt.plot(x, test_set, 'rx')
plt.show()

100.03x^1 + -315.95

png

coeff = np.polyfit(x, trainning_set, 3)
print(poly_format(coeff))
poly1 = np.polyval(coeff, x)
plt.plot(x, trainning_set, 'gx')
plt.plot(x, poly1, 'b')
plt.plot(x, test_set, 'rx')

plt.show()

-0.00x^3 + 5.08x^2 + -0.73x^1 + 1.37

png

模型归纳偏好

特化与泛化

没有免费的午餐：https://www.leiphone.com/news/201907/jswawIEtorcAYvrB.html

奥卡姆剃刀原则：如无必要，勿增实体

误差

我们将学习器对样本的实际预测结果与样本的真实值之间的差异成为：误差（error）。

在训练集上的误差称为训练误差（training error）或经验误差（empirical error）。
在测试集上的误差称为测试误差（test error）。
学习器在所有新样本上的误差称为泛化误差（generalization error）。

显然，我们希望得到的是在新样本上表现得很好的学习器，即泛化误差小的学习器。因此，我们应该让学习器尽可能地从训练集中学出普适性的“一般特征”，这样在遇到新样本时才能做出正确的判别。然而，当学习器把训练集学得“太好”的时候，即把一些训练样本的自身特点当做了普遍特征；同时也有学习能力不足的情况，即训练集的基本特征都没有学习出来。我们定义：

学习能力过强，以至于把训练样本所包含的不太一般的特性都学到了，称为：过拟合（overfitting）。
学习能太差，训练样本的一般性质尚未学好，称为：欠拟合（underfitting）。

训练集与测试集的构建方法

我们希望用一个“测试集”的“测试误差”来作为“泛化误差”（因为不可能知道）的近似，因此我们需要对初始数据集进行有效划分，划分出互斥的“训练集”和“测试集”。下面介绍几种常用的划分方法：

留出法

将数据集D划分为两个互斥的集合，一个作为训练集 $S$ ，一个作为测试集 $T$ ，满足 $D=S\cupT$ 且 $S\capT=\emptyset$

常见的划分为：大约2/3-4/5的样本用作训练，剩下的用作测试。需要注意的是：训练/测试集的划分要尽可能保持数据分布的一致性，以避免由于分布的差异引入额外的偏差，常见的做法是采取分层抽样。同时，由于划分的随机性，单次的留出法结果往往不够稳定，一般要采用若干次随机划分，重复实验取平均值的做法。

交叉验证法

将数据集 $D$ 划分为两个互斥的集合，一个作为训练集 $S$ ，一个作为测试集 $T$ ，满足 $D=S\cupT且S\capT=\emptyset$ ，常见的划分为：大约 $2/3-4/5$ 的样本用作训练，剩下的用作测试。需要注意的是：训练/测试集的划分要尽可能保持数据分布的一致性，以避免由于分布的差异引入额外的偏差，常见的做法是采取分层抽样。同时，由于划分的随机性，单次的留出法结果往往不够稳定，一般要采用若干次随机划分，重复实验取平均值的做法。

自助法

我们希望评估的是用整个D训练出的模型。但在留出法和交叉验证法中，由于保留了一部分样本用于测试，因此实际评估的模型所使用的训练集比D小，这必然会引入一些因训练样本规模不同而导致的估计偏差。留一法受训练样本规模变化的影响较小，但计算复杂度又太高了。“自助法”正是解决了这样的问题。

自助法的基本思想是：给定包含m个样本的数据集D，每次随机从D 中挑选一个样本，将其拷贝放入D’，然后再将该样本放回初始数据集D 中，使得该样本在下次采样时仍有可能被采到。重复执行m 次，就可以得到了包含m个样本的数据集D’。

调参

大多数学习算法都有些参数(parameter) 需要设定，参数配置不同，学得模型的性能往往有显著差别，这就是通常所说的"参数调节"或简称"调参" (parameter tuning)。

学习算法的很多参数是在实数范围内取值，因此，对每种参数取值都训练出模型来是不可行的。常用的做法是：对每个参数选定一个范围和步长λ，这样使得学习的过程变得可行。

ML1答案

BCD
特征选择错了

答案可见 ML3 视频开头

机器学习入门

1条回复

机器学习入门

课程纲要

什么是机器学习？

Improving some performance measure with experience computed from data.

机器从数据中总结经验。

什么时候用机器学习？

事物存在某种潜在规律
人不能直接发现这种规律（例如牛顿定律）
能获取大量数据

机器学习概念

输入空间： $\mathcal{X}$
输出空间： $\mathcal{Y}$
假设空间( hypothesis space )： $\mathcal{H}$ , 包含所有可能的 $f :\mathcal{X} \mapsto \mathcal{Y}$
所有记录的集合：数据集, $\mathcal{D}=\{\left(\mathbf {x_i},Y_i\right)|1\le i\le m\}$
一条记录( instance, sample ) $\mathbf{x_i}$
数据的特征或者属性 feature, attribute : $\mathbf{x_i} = \{x_1, x_2, \cdots, x_n \}$
训练集
测试集

假设空间——机器学习的过程

new-pic-mine-e1572009324171

机器学习分类

预测值为离散值或连续值的问题为：
- 分类（classification）（上火问题，是否下雨）
- 回归（regression） $\mathcal{R}$
训练数据有标记信息的学习任务为：监督学习（supervised learning），分类和回归都属于监督学习。
训练数据没有标记信息的学习任务为：无监督学习（unsupervised learning），常见的有聚类和关联规则。
还有：batch learning, online learning, active learning, reinforcement Learning

为什么可以学习？

简要解释计算学习理论：

Ein(h)表示在训练集样本中，h(x)不与f(x)不相等的概率。即模型假设对样本（已知）的错误率。

Eout(h)表示实际所有样本中，h(x)与f(x)不相等的概率。即模型假设对真实情况（未知）的错误率。

霍夫丁不等式：

 $P[|\nu-\mu|>\epsilon] \leq 2 e^{-2 \epsilon^{2} N}$

PAC

数据分析的一般流程

数据清理和格式化
探索性数据分析
特征工程和特征选择
基于性能指标比较几种机器学习模型
对最佳模型执行超参数调整
在测试集上评估最佳模型
解释模型结果
得出结论

13bb24f42e5bb98f4a9c15037e523d7d

作业

选择题

以下哪些问题适合用机器学习来解决?

A. 判断今年是闰年还是平年

B. 判断银行能不能给某人开信用卡

C. 判断北京明天的天气

D. 估计北京西直门早高峰的人流量

E. 计算地球运行的轨道

问答题

亚里士多德提出「物体下落的快慢是由物体本身的重量决定的」，他的错误出现在数据分析的哪一步？

我们的现代生活

发表评论

dggggj

图片来自大咕咕咕鸡

谈到现代人，我们想到的是先进、文明，起码是刮胡子上班的男人，或者带妆约会的女人。谈到现代生活，我们想到的是阳光下玻璃幕墙包裹着写字楼，高楼里格子间的白领，周末人潮汹涌的影城、餐厅和商场。未来似乎永远会有更便宜好用的电子产品，摩尔定律永不失效，我们也将拥有比过去更优越的生活。然而这样的观念在整个人类历史中只占了四百年，在牛顿的自然哲学出现之前，人类观念和生活也全然不同。

人类如何走下无知舞台的？

文明万象更新，是从文艺复兴和宗教改革开始的。按韦伯的说法，人的思想开始祛魅——除去宗教神秘的色彩。

中世纪人的大多都有宗教信仰，工商业发展则顺理成章地让掌控民众思想的教会获取大量财产。自德国古腾堡发明印刷术，大多数信徒——无论是否有圣职，开始打破教会的垄断，独立阅读、解释圣经。当时神职人员在富裕条件下腐败不堪，经营酒店、赌场，公然售卖赎罪券，人们却得为教会各类仪式花钱，逐渐质疑教会权威。一众改革者，如马丁路德金，利用印刷术传播圣经及其解读，宣扬「人们可以自己与上帝对话，无需教会充当中介」。政治与教会有千丝万缕的联系，信仰问题常常会演变成政治问题。教会代表参加议会，政治领袖介入宗教事务，为他们建立教堂、修道院。一个出名例子是，因为离婚需要教宗允许，英国亨利八世为了离婚再娶，宣布脱离罗马教会而后盎格鲁宗成立 : )

不满的民众和当权者着手改革宗教体制，打破罗马天主教会一家独大的局面，其分裂出新教会和清教徒，改革了宗教观念——和上帝进行精神交流之时，人人独立平等。西方信仰统一的时代结束了，唯一的真理结束了，尤其是神学中的等级机制也结束了。

在很长一段时间，文艺复兴这场学术运动并不反对基督教，相反，许多伟大作品都是以宗教为主题的，而且得到了教会的赞许。但它也不是简单地恢复古希腊经典，而是借古讽今，批判社会制度体系。这就促使了后续物理、数学、地理大发现等方面发展。

但科学认识发展并不一定导致上帝黄昏。韦伯认为，现代的理性主义发源于英国加尔文教的清教徒。宗教观念由另一个宗教观念终止。

当时公共领域盛行的观念——财富本身非常危险。清教徒有禁欲主义的的职业观，他们反对寻欢作乐、虚掷光阴、好逸恶劳，认为感官享乐是清教的最大敌人。如何抵制和扫除世俗快乐，如何受到上帝恩典？唯有凭借日常生活中的艰苦劳动。西方盛行的禁欲主义蔓延到社会的方方面面，同样也改变公众对于财富的态度：我们要避免的是财富享受及其随之而来的怠惰和肉欲，否则财富会让人远离上帝。为了上帝的荣耀，他们只储存财富，或合理用于个人与公众，但不能为肉体冲动而挥霍一空。要节约时间，刻苦劳动，并且要有谋略、聪明地劳动。劳动是抵制诱惑、爱欲和享乐的唯一手段，并不是为积累财富，而是生活目的所在。

新的金钱概念消除公众对于财富的罪恶感，而商人在世俗生活中利用这种观念是使牟利正当化，心安理得地享受物质。清教徒的禁欲精神则演变为了现代工人的安分守己。现在还能发现企业家精神就是清教徒精神的新版本，时常也能看见一种精神遗迹——打工人就是要守本分。

劳动观念的变革，将禁欲主义的理性，有目的的理性赋予资本主义。现代社会的基础设施——效率和功能至上法律和制度，就从这种理性生长而来。清教徒的理性，是一个人所作所为必须符合某种目的，以期达到某种可想而知的后果。比如，人们开办学校，是为了学好知识，相信有知识就有光明未来的价值观念，称作价值理性。学校目的是让学生掌握知识，成为有价值的人，最终学校极为理性地设置了本科升学率、成绩排名、班级排名等等，开设了早晚自习、课间操。为了班级成绩排名，理性的老师让他们取消体育课和艺术课，布置良多作业，设班长来消除影响纪律的因素。学生为了能登上年级前几名，熬夜学习，课间也不休息。不为求知，而为其指标努力，就是形式理性。有人天生早起精力不足，被要求早上七点开始早读和跑步；有人不习惯长时间静坐，需要在学校坐上十二个小时；有人为了获得复习时间，输营养液来避免去食堂吃饭。形式上的理性，就会达到真正目的吗？

指标、制度变成了系统中各个部件的目标，人们忘记了最初目的是掌握知识，而非提高成绩。形式合乎理性不意味着实质理性。市场契约、国家法律，乃至现代大大小小的组织制度，都与学校的规章、课堂的纪律类似，最终会偏离真正目的。毕竟人是复杂的，制度是简单的。这样的现象也成为了现代社会日常，有白领上班年薪几十万猝死在凌晨的街头，有富豪因债务抛妻弃子跳楼自杀，有城市中产天天为孩子学习失眠。

在资本主义之前的经济生活中，一切生产都是粗糙的。欧洲中世纪到处都是庄园，领主掌握着一切。中国大部分田地，由地主乡绅控制。他们都具备宗法性质，自给自足，不追逐利润也不需要市场。在马克思那里，自由劳动者的土地和劳动工具被剥夺，他们只剩下劳动力可以出售。在丢弃掉禁欲主义的理性下，人们创造出专业化的职位、自由的市场、科学的管理制度…… 劳动者离开故乡，成为流动的市场要素，资本家将他们集中在一起，生产资料得以在某地集中变成商品。

工业主义打破了原本静谧美好的田园生活，人与人的关系原本是长久而稳定的，一个人的生活半径不过是出生地，或邻边的村庄。社会事务的规则一般由领主或宗主决定，是腐朽而封建的。随后机器消灭了这些关系，人们进入陌生地区谋生变为常态，领主不再，宗族规范失效，村口张大妈的碎嘴也听不见了。道德对人不再有如此强势的约束力，原子化的人即使破坏道德，只消换个城市又是一个新人。

为了满足生活需要，人们逐渐建设了更专业化的服务设施，通常把这些设施集中的地方叫做「城市」。为了解决不同阶级之间的纠纷，人们创造出现代化的「法律」、「监狱」。为了粘合异乡人与本地人的感情，缓和矛盾，人们发展出了「民族主义」。「现代」国家的雏形逐渐显现。

祛除封建、迷信、神性，理性却勾勒出了现代化的牢笼：人们需要好好读书，像清教徒一样工作，娶妻，买个大house，养条金毛、英短。一切理性工作，为成为更好的螺丝钉，于是很多职业不再与人们产生联系，不再给人意义感。韦伯阐述资本主义现代性悖论——现代社会以理性的方式推动物的进步，但物反过来非理性地控制着人。人们和他们生活中的一切都那么远，和他们的国家、社区、亲戚，和他们的工作、学习，为了更好的生活，将社会生活规约于形式，最后在社会机器中失去真实的自由。

test