机器学习经典案例学习

操千曲而后晓声,观千剑而后识器

Kaggle 房价预测

题目

答案

总结:

解决问题的框架

  • 理解问题:查看每个变量并且根据他们的意义和对问题的重要性进行哲学分析。

  • 单因素研究:只关注因变量( SalePrice),并且进行更深入的了解。

  • 多因素研究:分析因变量和自变量之间的关系。

  • 基础清洗:清洗数据集并且对缺失数据,异常值和分类数据进行一些处理。

  • 检验假设:检查数据是否和多元分析方法的假设达到一致。

学习使用相关系数矩阵热力图

  • 看出Y和不同X之间的相关性
  • 看出不同X之间的共轭性,也就是双胞胎特征,可以只用一个就可以了

确实值处理的方法

  • 当超过 15% 的数据都缺失的时候,我们应该删掉相关变量且假设该变量并不存在(删除列)。
  • 当某个特征缺失少量观察值,可以把相应的记录删掉(删除行)
    
    Kaggle 原答案

O2O优惠券使用预测

题目
参考答案

总结:

- 这个是一个分类问题,确定好metric是AUC.理解什么是AUC

  • 这里提高AUC的关键是特征,所以好的特征工程(特征提取)非常重要.
    确定好之后可以用模型融合来提高成绩

- 再求AUC值得时候
y_score : array, shape = [n_samples] or [n_samples, n_classes] Target scores, can either be probability estimates of the positive class, confidence values, or non-thresholded measure of decisions (as returned by “decision_function” on some classifiers). For binary y_true, y_score is supposed to be the score of the class with greater label.
y可以用decision_fuction的返回值,也可以用predict_proba的返回值

Kaggle官方机器学习教程

教程

缺失值处理

  • 直接丢弃行或者列
  • 补全,均值补全或者其他策略
  • 对有缺失的列添加额外的列(是否缺失)来标识

天池比赛从0-1分享

视频分享地址