机器学习入门
课程纲要
什么是机器学习?
Improving some performance measure with experience computed from data.
机器从数据中总结经验。
什么时候用机器学习?
- 事物存在某种潜在规律
- 人不能直接发现这种规律 (例如牛顿定律)
- 能获取大量数据
机器学习概念
- 输入空间:
\mathcal{X}
- 输出空间:
\mathcal{Y}
- 假设空间( hypothesis space ):
\mathcal{H}
, 包含所有可能的f :\mathcal{X} \mapsto \mathcal{Y}
- 所有记录的集合:数据集,
\mathcal{D}=\{\left(\mathbf {x_i},Y_i\right)|1\le i\le m\}
- 一条记录( instance, sample )
\mathbf{x_i}
- 数据的特征或者属性 feature, attribute :
\mathbf{x_i} = \{x_1, x_2, \cdots, x_n \}
- 训练集
- 测试集
假设空间——机器学习的过程
机器学习分类
-
预测值为离散值或连续值的问题为:
- 分类(classification)(上火问题,是否下雨)
- 回归(regression)
\mathcal{R}
-
训练数据有标记信息的学习任务为:监督学习(supervised learning),分类和回归都属于监督学习。
-
训练数据没有标记信息的学习任务为:无监督学习(unsupervised learning),常见的有聚类和关联规则。
-
还有:batch learning, online learning, active learning, reinforcement Learning
为什么可以学习?
简要解释计算学习理论:
Ein(h)表示在训练集样本中,h(x)不与f(x)不相等的概率。即模型假设对样本(已知)的错误率。
Eout(h)表示实际所有样本中,h(x)与f(x)不相等的概率。即模型假设对真实情况(未知)的错误率。
霍夫丁不等式:
P[|\nu-\mu|>\epsilon] \leq 2 e^{-2 \epsilon^{2} N}
PAC
数据分析的一般流程
- 数据清理和格式化
- 探索性数据分析
- 特征工程和特征选择
- 基于性能指标比较几种机器学习模型
- 对最佳模型执行超参数调整
- 在测试集上评估最佳模型
- 解释模型结果
- 得出结论
作业
选择题
以下哪些问题适合用机器学习来解决?
A. 判断今年是闰年还是平年
B. 判断银行能不能给某人开信用卡
C. 判断北京明天的天气
D. 估计北京西直门早高峰的人流量
E. 计算地球运行的轨道