《机器学习》
周志华 ——《机器学习》 2016年1月第一版 豆瓣评分:8.8
之前读了一部分内容,以后还是把一些重要的书做一下摘要笔记和进度更新吧。 一方面可以留下阅读记录和笔记,一方面可以监督激励自己要坚持,半途而废可不好。
内容简介:机器学习是计算机科学的重要分支领域。本书作为该领域的入门教材,在内容上尽可能涵盖机器学习基础知识的各方面。 (只是入门教材,只介绍基础知识。。这难度简直是从入门到放弃。。。) 全书16章,分三部分。 第1部分(第1~3章)介绍机器学习的基础知识。 第2部分(第4~10章)讨论一些经典而常用的机器学习方法(决策树、神经网络、支持向量机、贝叶斯分类器、集成学习、聚类、降维与度量学习)。 第3部分(第11~16章)为进阶知识,内容涉及特征选择与稀疏学习、计算学习理论、半监督学习、概率图模型、规则学习以及强化学习等。
前言
面向中文读者的机器学习教科书,为了使可能多的读者通过本书对机器学习有所了解,作者试图尽可能少地使用数学知识。然而,少量的概率、统计、代数、优化、逻辑知识似乎不可避免。本书适合大学三年级以上的理工科本科生和研究生,以及具有类似背景的对机器学习感兴趣的人士。
前3章之外的后续各章均相对独立,读者可根据自己的兴趣和时间情况选择使用。
机器学习发展极迅速,目前已成为一个广袤的学科,罕有人士能对其众多分支均有精深理解。
周志华 2015年6月
序言
机器学习是人工智能领域最能够体现智能的一个分支,也是人工智能中发展最快地一个分支之一。 人工智能发展早期,机器学习的技术内涵几乎全部都是符号学习。80年代,符号学习仍是机器学习的主流,90年代以来,就一直是统计机器学习的天下了。 从主流为符号机器学习发展到主流为统计机器学习,反映了机器学习从纯粹的理论研究和模型研究发展到以解决现实生活中实际问题为目的的应用研究,这是科学研究的一种进步。
深度学习代表了机器学习的新的方向吗?包括本书作者周志华在内的一些学者认为:深度学习掀起的热潮也许大过它本身真正的贡献,在理论和技术上并没有太多的创新,只不过是由于硬件技术的革命,计算机的速度大大提高了,使得人们有可能采用原来复杂度很高的算法,从而得到比过去更精细的结果。 目前的深度学习主要适合于神经网络,在各种机器学习方法百花盛开的今天,它的应用范围还有限,还不能直接说是连接主义方法的回归。(1.深度学习理论创新不够、算法是旧的 2.依赖硬件显著提高 3.应用范围有限) 统计机器学习仍然在机器学习中被有效地普遍采用,得道多助,深度学习想抛弃它不容易。
从符号方法到统计方法的演变,用到的数学主要是概率统计。在机器学习中代数一般是作为基础工具来使用,例如矩阵理论和特征值理论,又如微分方程求解最终往往归结为代数问题求解。出头露面的事概率和统计,埋头苦干的代数和逻辑。
符号机器学习时代主要以离散的方法处理问题,统计机器学习时代主要以连续方法处理问题。
国内机器学习的领军人物:南周(周志华)北王(王珏 已去世)
陆汝钤 2015年8月
2017.11.16 阅读
第1章 绪论
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在。机器学习研究的主要内容是关于在计算机上从数据中产生模型的算法,即学习算法。如果说计算机科学是关于研究算法的学问,那么机器学习是研究关于学习算法的学问。本书用模型泛指从数据中学得的结果。
基本术语:
- 数据集
- 样本 == 示例 一个示例称为 特征向量
- 特征 == 属性 属性张成的空间叫 属性空间 == 特征空间 == 输入空间 特征的个数称为样本的维数
- 学习 == 训练 从数据中学得模型
- 学得模型对应了关于数据的某种潜在的规律,称为假设 hpothesis 规律本身称为真相 ground-truth
- 有时将模型称为学习器——可以看做学习算法在给定数据和参数空间上的实例化
- 标记空间 label space == 输出空间
- 分类 —— 预测的值是离散的
- 回归 —— 预测是值是连续的
- 聚类 —— 将训练数据分成若干组,每组称为一个簇cluster
- 泛化 —— 学得模型适用于新样本的能力称为泛化能力
具有强泛化能力的模型能很好地适用于整个样本空间。
通常假设样本空间中全体样本服从一个未知分布distribution,我们获取的每个样本都是独立地从这个分布上采样获得的,即独立同分布(iid)。
这样在训练集上学得的模型才能在整个样本空间上都工作得很好。 不是独立同分布就容易出现特殊情况,泛化能力差。
归纳 induction 与 演绎 deduction 是科学推理的两大基本手段。 归纳是从特殊到一般的泛化 generalization,从集体的事实归纳出一般性规律 演绎是从一般到特殊的特化过程,从基础原理推出具体状况。在数学公理系统中,基于一组公理和推理规则推导出与之相洽的定理,这是演绎;从样例中学习是归纳的过程,因此也称为归纳学习。
通过学习得到的模型对应了假设空间中的一个假设。任何一个有效的机器学习算法必有其归纳偏好。归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或价值观。
有没有一般性的原则来引导算法确立正确的偏好呢?奥卡姆剃刀是一种常用的、自然科学研究中最基本的原则。“若有多个假设与观察一致,则选最简单的那个。” 奥卡姆剃刀并非唯一可行的原则。而且对简单的诠释没有绝对标准,需要借助其他机制。
NFL 没有免费的午餐定理。算法好不好,不能脱离具体的问题和场景。
50年代中后期,基于神经网络的“连接主义”学习开始出现,六七十年代,基于逻辑表示得“符号主义”学习技术蓬勃发展。
86年,重新发明BP算法,使得连接主义学习可以在很多现实问题上发挥作用。BP是被应用得最广泛的机器学习算法之一。
90年代中期,统计学习闪亮登场并迅速占据主流舞台,代表性技术是支持向量机以及更一般的核方法。六七十年代打下的基础。
统计学习与连接主义学习有密切的联系,在支持向量机被普遍接受后,核技巧被人们用到了机器学习的几乎每一个角落,核方法也逐渐成为机器学习的基本内容之一。
有趣的是,21世纪初,连接主义学习又卷土重来,掀起深度学习的热潮。深度学习在语音图像等复杂对象的应用中,深度学习取得了优越性能。深度学习技术涉及的模型复杂度非常高,要下功夫把参数调节好,性能才高。深度学习虽缺乏严格的理论基础,但它显著降低了机器学习应用者的门槛,为机器学习技术走向工程实践带来了便利。
深度学习模型拥有大量的参数和较高复杂度,依赖大数据样本和强力计算设备。所有才有21世纪的卷土重来。
数据挖掘是从海量数据中发掘知识,大体来说,数据库领域的研究为数据挖掘提供数据管理技术,而机器学习和统计学的研究为数据挖掘提供数据分析技术。 由于统计学界的研究通常需要经由机器学习研究来形成有效的学习算法,之后再进入数据挖掘领域,因此,统计学主要是通过机器学习对数据挖掘发挥影响,而机器学习领域和数据库领域则是数据挖掘的两大支撑。
机器学习备受瞩目不仅是由于它已成为智能数据分析技术的创新源泉,还通过建立一些关于学习的计算模型来促进我们理解人类如何学习,如SDM的稀疏编码机制。机器学习不仅在信息科学中占有重要地位,还具有一定的自然科学探索色彩。
2017.11.16 阅读