第一章 机器学习概览
- 机器学习系统的分类
是否在人类监督下学习
监督式学习,分类和预测变量,eg,K-Nearest Neighbors, linear regression,logistic regression, SVM, decision trees and random forest, neural network
无监督学习,聚类:K-means, Hierarchical cluster tree, expectation maximization,降维和可视化 pca, kernek pca, LLE, t-SNE, 关联规则学习Apriori, Elcat,检测异常值
半监督学习,eg. 深度信念网络中的受限玻尔兹曼机(RBM)
强化学习,
是否动态进行增量学习
批量学习:全批量
在线学习:小批量
基于实例的学习和基于模型的学习
基于实例:记住样例,根据相似度对新的实例进行泛化。
基于模型:调整参数,适配训练集
- 主要挑战
- 训练数据不足
- 训练数据不具代表性
- 数据质量差:无关特征
- 训练数据过拟合(简化模型(减少参数,减少属性变量,约束模型),收集更多数据,减少数据中的噪音)
- 训练数据拟合不足(选择更多参数的模型,给学习算法更好的特征集(特征工程),减少模型中的约束)
- 测试与验证
测试集和训练集
- 测试与验证
交叉验证
第二章 端到端的机器学习项目
- 使用真实数据
观察大局
框架问题:回答机器学习分类的问题
选择性能指标: 均方根误差RESM L2,平均绝对误差MAE L1
检查假设
- 获取数据
下载数据
1 | import os |
查看数据
1 | dataframe.head() |
创建数据集
创建抽样数据集的时候考虑分层抽样,而非纯随机抽样。
分层抽样需要包含每一层具有足够的数据,不至于重要信息被遗漏。
- 从数据探索和可视化中获得洞见
将地理数据可视化
可视化数据,可以将alpha设置为0.1,从而看密度情况,也可以将简单聚类来看。
寻找相关性