0%

[machine learning] 1.basic knowledge

这个专题主要是总结一下读《统计学习》的一些知识点,这一章简单介绍一些机器学习的相关概念。

统计学习三要素#

1.模型 条件概率分布或决策函数#

2.策略#

  1. 损失函数和风险函数
  2. 经验风险最小化和结构风险最小化
  • 经验风险最小化:当样本足够大时,可以保证很好效果,但 样本小时,往往会 过拟合(loss均值)
  • 结构风险最小化(structural minimization,SRM):为防止过拟合提出的策略, 等价于 正则化(regularization) , 加入正则化项regularizer, 或罚项 penalty term。结构越复杂,正则化项(惩罚项)越大。

3.算法#

过拟合#

  • 若一味追求提高训练数据的预测能力, 所选模型的复杂度往往比真是模型要高,这种现象叫过拟合。
  • 过拟合也指学习时 选择的模型所包含的参数过多,以至于出现这一模型 对已知数据拟合很好,对于未知数据拟合很差。 可以说 模型选择旨在避免过拟合并且提高模型的预测能力

交叉验证#

训练集(训练数据)+ 验证集(模型选择)+ 测试集(测试)

泛化能力#

指该方法学习到的模型 对未知数据的预测能力,是学习方法本质上重要的性质。最多通过 测试误差来评价

比较学习方法的泛化能力:比较 泛化误差上界 性质: 样本容量增加, 泛化误差趋于0 假设空间容量越大, 泛化误差越大

生成模型和判别模型#

根据P(X,Y),求出条件概率分布P(Y|X)作为预测的模型,即生成模型P(Y|X)=P(X,Y)/P(X) (给定输入X,产生输出Y的关系)

生成方法: - 可还原出联合概率分布P(X,Y), 而判别方法不能。 生成方法的 收敛速度更快,当样本容量增加的时候, 学到的模型可以更快地收敛于真实模型; 当存在隐变量时, 仍可以使用生成方法, 而判别方法则不能用。 - 由数据直接学习决策函数f(x)或条件概率分布 P(Y|X)作为预测模型 (K近邻法、 感知机、 决策树、 logistic回归模型、 最大熵模型、 支持向量机、 提升方法和条件随机场。)

判别方法: - 直接学习到条件概率或决策函数,直接进行预测,往往学习的 准确率更高;由于直接学习Y=f(X)或P(Y|X),可对数据进行各种程度上的 抽象、 定义特征并使用特征, 因此可以简化学习过程。

回归问题#

回归学习最常用的损失函数是 平方损失函数, 在此情况下, 回归问题可以由 著名的 最小二乘法(least squares)求解。

标注问题#

监督学习,分类问题的推广,又是更复杂的结构预测(structure prediction)问题的简单形式。

标注: tagging, 结构预测: structure prediction 输入: 观测序列, 输出: 标记序列或状态序列 学习和标注(预测)两个过程