机器学习基石 on Coursera

https://class.coursera.org/ntumlone-002


L1 机器学习介绍

和其他三个领域之间的差别和关系

ntuml-ml-related-fields.png


L2 PLA(Perceptron Learning Algorithm)


L3 机器学习分类


L4-L7 学习可行性分析

ntuml-theoretical-bounds.png


L8 噪音和误差


L9-L11 线性回归,逻辑回归,线性模型


L12 非线性变换


L13-L15 过拟合,正则化,验证

ntuml-overfitting-learning-curve.png

ntuml-overfitting-noise-and-data-size.png


L16 学习三原则

Sampling Bias(采样偏差)表明我们需要仔细了解数据收集产生的过程。如果收集产生过程本身就有偏差的话,那么我们在训练和验证阶段就需要将偏差考虑进去。

Data Snooping(数据窥视)表明我们不能将测试数据加入训练/CV集合,否则会影响训练效果。机器会学习到这些测试数据的特性,影响到泛化能力。

不要过早地去查看数据来做出假设和模型,但是有时候确实也需要通过观察数据来选择features和模型,因此我们必须在验证的时候严格把关。按照作者的话说应该就是 "careful balance between data-driven modeling(snooping) and validation(no-snooping)."


机器学习和数据挖掘,机器学习和人工智能,机器学习和统计学

ntuml-ml-vs-dm.png ntuml-ml-vs-ai.png ntuml-ml-vs-st.png