数据科学包含从数据获取知识的整个过程,它综合运用统计学、计算机科学以及其他领域的各种方法,帮助人们从数据中获取有用的知识和信息。事实上,数据科学是一个不断重复的过程,包括数据的采集、清洗、分析ETL、可视化和部署。
所谓的数据科学家指这样一类人,他们比软件工程师更懂统计学,比统计学家更懂软件工程。
Josh Wills,posted on Twitter
机器学习主要涉及数据科学的分析与建模阶段使用的通用算法与技术。
机器学习是指研究、设计与开发某些算法,让计算机获得学习的能力,而不需要明确的编程。
Arthur Samuel,defined at 1959
机器学习的方法:
- 监督学习:给定一组样本输入X与它们的结果Y,监督学习的目标是产生一个通用的映射函数f,使得每一个输入都有对应的确定输出,即f:XY。
- 无监督学习:算法所学的数据没有指定的结果标签Y,它主要学习数据的结构,比如将相似的输入数据都归入某个聚类。因此,使用无监督学习能够发现隐藏在数据中的模式。一个例子是推荐系统,比如购买了Java基础课的同学也购买了中级项目课。
- 强化学习:从完全不同的角度处理学习过程。它假设有一个智能体(agent,可以是机器人、自动程序或计算机程序)与动态环境进行交互,以实现某个特定目标。
- 组成部分:
- 环境由一组状态描述,智能体可以做出不同行为,以从一种状态变为另一种状态。
- 目标状态,如果智能体实现了这种状态,就会获得很大的奖励。
- 其他状态:智能体得到的奖励很少或没有,甚至还会被惩罚。
- 目标找到最优策略,即映射函数,指定每个状态要采取的行为动作,而没有指导者(teacher)明确告知这样做是否会实现目标状态。
- 例子:汽车自动驾驶程序。
- 组成部分:
- 本书范围是监督学习和无监督学习。
- 数据与问题定义
- 数据收集
- 数据预处理
- 利用无监督学习与监督学习进行数据分析与建模
- 模型评价