learn-统计学习方法(第二版)

什么是机器学习:

机器学习应用:数据挖掘,计算机视觉,自然语言处理,生物特征识别,搜索引擎,医学诊断,语音和手写识别……

统计学习和机器学习:机器学习比统计学习多了算法model的内容等;研究方法差异(统计学研究形式化和推导),维度差异(机器学习强调高维预测问题),关心领域不同(统计学习:机器学习:online learning,active learning,boosting,semisupervised learning……)

统计学习的方法(基本分类):------- 监督学习、无监督学习、半监督学习、强化学习

按算法分:---------在线学习(实时不断地在喂入数据),批量学习(一次性或分批喂入数据)

监督学习:(基本术语:实例,特征向量,特征空间等)

训练数据 training data

模型 model -------假设空间 hypothesis

评价准则 evaluation criterion ------策略 strategy

算法 algorithm

输入变量和输出变量:--> 分类问题、回归问题、标注问题

半监督学习:

少量标注数据,大量未标注数据

利用未标注数据的信息,辅助标注数据,进行监督学习

较低成本

主动学习-------机器主动给出实例,教师进行标注

经验风险最小化和结构最小化

经验风险最小化最优模型(ERM):

结构风险最小化: