机器学习资料收集

机器学习资源收集

机器学习相关概念

数据挖掘:也就是data mining,是一个很宽泛的概念。字面意思就是从成吨的数据里面挖掘有用的信息。这个工作BI(商业智能)可以做,数据分析可以做,甚至市场运营也可以做。你用excel分析分析数据,发现了一些有用的信息,然后这些信息可以指导你的business,恭喜你,你已经会数据挖掘了。 机器学习:machine learning,是计算机科学和统计学的交叉学科,基本目标是学习一个x->y的函数(映射),来做分类或者回归的工作。之所以经常和数据挖掘合在一起讲是因为现在好多数据挖掘的工作是通过机器学习提供的算法工具实现的,例如广告的ctr预估,PB级别的点击日志在通过典型的机器学习流程可以得到一个预估模型,从而提高互联网广告的点击率和回报率;个性化推荐,还是通过机器学习的一些算法分析平台上的各种购买,浏览和收藏日志,得到一个推荐模型,来预测你喜欢的商品。 深度学习:deep learning,机器学习里面现在比较火的一个topic(大坑),本身是神经网络算法的衍生,在图像,语音等富媒体的分类和识别上取得了非常好的效果,所以各大研究机构和公司都投入了大量的人力做相关的研究和开发。 总结下,数据挖掘是个很宽泛的概念,数据挖掘常用方法大多来自于机器学习这门学科,深度学习是机器学习一类比较火的算法,本质上还是原来的神经网络。

数据挖掘,顾名思义就是从海量数据中“挖掘”隐藏信息,按照教科书的说法,这里的数据是“大量的、不完全的、有噪声的、模糊的、随机的实际应用数据”,信息指的是“隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识”。在商业环境中,企业希望让存放在数据库中的数据能“说话”,支持决策。所以,数据挖掘更偏向应用。为了做好数据挖掘,企业又要建立数据仓库。 机器学习,就是利用计算机、概率论、统计学等知识,通过给计算机程序输入数据,让计算机学会新知识,是实现人工智能的途径,但这种学习不会让机器产生意识。机器学习的过程,就是通过训练数据寻找目标函数。数据质量会影响机器学习精度,所以数据预处理非常重要。 深度学习是机器学习的一种,现在深度学习比较火爆。在传统机器学习中,手工设计特征对学习效果很重要,但是特征工程非常繁琐。而深度学习能够从大数据中自动学习特征,这也是深度学习在大数据时代受欢迎的一大原因。 传统数据挖掘主要针对相对少量、高质量的样本数据,机器学习更多的是针对海量、混杂的大数据。但机器学习并不一定要全局数据,只是在大数据时代,堆数据、堆机器的方法在工业界成本低而见效快,被广泛采用。学术界当前有很多研究在结合小数据学习与大数据学习,比如香港科技大学杨强教授的迁移学习。

机器学习开源平台