[machine learning] 1.basic knowledge

这个专题主要是总结一下读《统计学习》的一些知识点，这一章简单介绍一些机器学习的相关概念。

统计学习三要素#

1.模型条件概率分布或决策函数#

2.策略#

损失函数和风险函数
经验风险最小化和结构风险最小化

经验风险最小化：当样本足够大时，可以保证很好效果，但 样本小时，往往会 过拟合（loss均值）
结构风险最小化（structural minimization，SRM）：为防止过拟合提出的策略，等价于 正则化（regularization） ，加入正则化项regularizer，或罚项 penalty term。结构越复杂，正则化项（惩罚项）越大。

3.算法#

过拟合#

若一味追求提高训练数据的预测能力, 所选模型的复杂度往往比真是模型要高，这种现象叫过拟合。
过拟合也指学习时 选择的模型所包含的参数过多，以至于出现这一模型 对已知数据拟合很好，对于未知数据拟合很差。可以说 模型选择旨在避免过拟合并且提高模型的预测能力。

交叉验证#

训练集（训练数据）+ 验证集（模型选择）+ 测试集（测试）

泛化能力#

指该方法学习到的模型 对未知数据的预测能力，是学习方法本质上重要的性质。最多通过 测试误差来评价。

比较学习方法的泛化能力:比较 泛化误差上界 性质： 样本容量增加，泛化误差趋于0 假设空间容量越大，泛化误差越大

生成模型和判别模型#

根据P(X,Y)，求出条件概率分布P(Y|X)作为预测的模型，即生成模型P(Y|X)=P（X，Y）/P(X) (给定输入X，产生输出Y的关系)

生成方法： - 可还原出联合概率分布P(X,Y), 而判别方法不能。生成方法的 收敛速度更快,当样本容量增加的时候，学到的模型可以更快地收敛于真实模型； 当存在隐变量时，仍可以使用生成方法，而判别方法则不能用。 - 由数据直接学习决策函数f(x)或条件概率分布 P(Y|X)作为预测模型 (K近邻法、感知机、决策树、 logistic回归模型、最大熵模型、支持向量机、提升方法和条件随机场。)

判别方法： - 直接学习到条件概率或决策函数,直接进行预测,往往学习的 准确率更高;由于直接学习Y=f(X)或P(Y|X),可对数据进行各种程度上的 抽象、定义特征并使用特征，因此可以简化学习过程。

回归问题#

回归学习最常用的损失函数是 平方损失函数，在此情况下，回归问题可以由著名的 最小二乘法(least squares)求解。

标注问题#

监督学习，分类问题的推广，又是更复杂的结构预测（structure prediction）问题的简单形式。

标注： tagging，结构预测： structure prediction 输入：观测序列，输出：标记序列或状态序列学习和标注（预测）两个过程