统计学习方法（一）--统计学习概论

重新系统学习《统计学习方法》。

统计学习的方法

从给定的、有限的、用于学习的训练数据（Training data）集合出发，假设数据是独立同分布；假设要学习的模型属于某个函数的集合（假设空间）；应用某个评价准则从假设空间中选取最优模型。

三要素：

模型：模型的假设空间
策略：模型选择的准则
算法：模型学习的算法

统计学习的分类

监督学习（supervised learning）

从标注数据中学习预测模型，监督学习的本质是学习输入到输出的映射的统计规律。实例从输入空间映射到特征空间。

监督学习假设输入与输入的随机变量 $X$ 和 $Y$ 遵循联合分布概率 $ P(X,Y) $，统计学习假设数据存在一定的统计规律，$X$ 和 $Y$ 具有联合概率分布就是监督学习关于数据的基本假设。

监督学习的模型可以是概率模型或非概率模型，由条件概率分布 $P(Y|X)$ 或决策函数 $Y=f(X)$ 表示。

监督学习分为学习和预测两个过程，学习系统利用给定的训练数据集，通过学习（训练）得到一个模型，表示为条件概率分布 $\hat{P}(Y|X)$ 或决策函数 $Y=\hat{f}(X)$ ，在预测过程中，对于给定的输入$x_{N+1}$，由模型$y_{N+1}=\underset{y}{\mathrm{argmax}} \hat{P}(y|x_{N+1})$ 或 $y_{N+1}=\hat{f}(x_{N+1})$ 给出相应的输出 $y_{N+1}$。

无监督学习（unsupervised learning）

从无标注模型中学习预测模型，无标注数据是自然得到的数据，预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。

无监督学习的输出是对输入的分析结果，由输入的类别、转换或概率表示。模型可以实现对数据的聚类、降维或概率估计。

无监督学习中的模型可以表示为函数 $z=g(x)$，条件概率分布 $P(z|x)$ 或条件概率分布 $P(x|z)$ 的形式。在预测过程中，对于给定输入$x_{N+1}$ ，由模型 $z_{N+1}=\hat{g}(x_{N+1})$ 或 $z_{N+1}=\underset{z} {\mathrm {argmax}} \hat{P}(z|x_{N+1})$ 给出相应的输出 $z_{N+1}$，进行聚类或降维；由模型 $\hat{P}(x|z)$ 给出输入的概率 $\hat{P}(x_{N+1}|z_{N+1})$，进行概率估计。

强化学习（reinforcement learning）

指智能系统在于环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程，智能系统观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。

智能系统与环境的互动中，在每一步 $t$，智能系统从环境中观测到一个状态(State) $s_t$与一个奖励(reward) $r_t$，采取一个动作(action) $a_t$。环境根据智能系统选择的动作，决定下一步 $t+1$ 的状态 $s_{t+1}$ 与奖励 $r_{t+1}$。要学习的策略表示为给定的状态下采取的动作。智能系统不追求短期奖励的最大化，目标是长期累积奖励的最大化。强化学习过程中，不断试错 (trial and error)，以达到学习最优策略的目的。

马尔科夫决策过程$$：

有限状态集$S$
有限动作集$A$
状态转移概率函数$P(s’|s,a)$
奖励函数$r(s,a)=E(r_{t+1}|s_t=s,a_t=a)$
衰减系数$\gamma$

策略$\pi$为给定状态下的动作函数或条件概率分布，

状态价值函数为策略$\pi$从某一状态始的长期累计奖励的数学期望$v_\pi(s)=E_\pi[r_{t+1}+\gamma r_{t+2} \cdots|s_t=s]$

动作价值函数为$\pi$从某一状态和动作始的长期累计奖励的数学期望$q_\pi(s)=E_\pi[r_{t+1}+\gamma r_{t+2} \cdots|s_t=s,a_t=a]$

强化学习的目标是选出价值函数最大的$\pi^*$：

有模型方法：直接学习Markov过程的P和r
无模型方法：
- 基于策略的：学习策略即动作函数/条件概率分布
- 基于价值的：学习最优价值函数，尤其是最优动作价值函数

半监督学习（semi-supervised learning）与主动学习（active learning）

前者是利用大量未标注数据中的信息，辅助少量的标注数据进行监督学习，后者机器主动找出对学习最有帮助的实例让用户标注，降低标注代价。

统计学习方法三要素

模型

要学习什么样的模型，模型空间包括所有可能的条件概率分布/决策函数

策略

要按照什么样的准则学习模型

损失函数

度量模型一次预测的好坏（错误的程度），常用的损失函数有：

0-1损失函数
平方损失函数
绝对损失函数
对数损失函数/对数似然损失函数

期望风险

损失函数值越小，模型越好，模型输入输出$(X,Y)$遵循联合分布$P(X,Y)$，所以损失函数的期望即风险函数/期望损失为：

学习的目标是选择期望风险最小的模型，学习模型需要用到联合分布，而联合分布却未知，因此监督学习是一个病态问题（ill-formed problem）。

根据大叔定律，当样本容量N区域无穷时，经验风险趋于期望风险，即用训练集损失估计期望损失：

经验风险最小化与结构风险最小化

样本容量足够大，经验风险最小化（empirical risk minimization。ERM）效果很好，而容量较小时会过拟合（over-fitting）。

结构风险最小化（structural risk minimization，SRM）是为防止过拟合而提出的策略，等价于正则化（regularization），在经验风险上加上表示模型复杂度的正则化项（regularizer）或罚项（penalty term）：

$J(f)$为模型复杂度，$\lambda$是权衡经验风险和模型复杂度的系数——结构风险小需要经验风险与模型复杂度同时小。

算法

即最优化算法

模型评估与选择

训练误差与测试误差

在训练集和测试集上的平均损失

过拟合与模型选择

如果一味追求提高对训练数据的预测能力，所选模型的复杂度往往会比真模型更高。出现过拟合（over-fitting）

正则化与交叉验证

在学习时防止过拟合的两种常用模型选择方法

正则化

正则化的作用是选择经验风险与模型复杂度同时较小的模型。正则化符合奥卡姆剃刀原理，对应于模型的先验概率，即复杂模型有较小的先验概率。

交叉验证

简单交叉验证：随机划分
S折交叉验证（S-fold cross validation）：随即划分为S个互不相交、大小相同的子集，用S-1个子集的数据训练模型，余下的子集测试模型，重复进行，从S个模型中选出最好的
留一交叉验证：S-fold的极端情况，S=N，数据缺乏时使用

泛化能力

泛化误差（generalization error）

对未知数据预测的误差——所学到模型的期望风险

泛化误差上界（generalization error bound）

通过比较学习方法的泛化误差上界比较它们的优劣。

样本容量增加时，泛化误差上界趋于0
假设空间容量越大，泛化误差上界越大

生成模型与判别模型

监督学习方法分为生成方法与判别方法。

生成方法学习联合概率分布，关心的是X->Y的生成关系。收敛速度快，且适用于存在隐变量的情况。
判别方法学习决策函数/条件概率分布，关心的是对给定的X，应该预测什么样的Y。准确率更高，可以简化学习问题。

监督学习的应用——分类、标注、回归

分类问题

分类准确率accuracy：正确分类样本数/总样本数

TP——正类预测为正类
FN——正类预测为负类
TN——负类预测为负类
FP——负类预测为正类

精确率precision：$P= \frac {TP} {TP+FP}$

召回率recall：$R= \frac {TP} {TP+FN}$

F1：精确率与召回率的调和均值 $\frac 2 {F_1} = \frac 1 P + \frac 1 R$

标注问题

可以看作分类问题的推广，输入观测序列，输出标记序列。NLP中的词性标注是典型的标注问题

回归问题

预测输入输出之间的关系，即映射函数的拟合