机器学习经典案例学习

操千曲而后晓声,观千剑而后识器

Kaggle 房价预测

题目

答案

总结:

解决问题的框架

  • 理解问题:查看每个变量并且根据他们的意义和对问题的重要性进行哲学分析。

  • 单因素研究:只关注因变量( SalePrice),并且进行更深入的了解。

  • 多因素研究:分析因变量和自变量之间的关系。

  • 基础清洗:清洗数据集并且对缺失数据,异常值和分类数据进行一些处理。

  • 检验假设:检查数据是否和多元分析方法的假设达到一致。

学习使用相关系数矩阵热力图

  • 看出Y和不同X之间的相关性
  • 看出不同X之间的共轭性,也就是双胞胎特征,可以只用一个就可以了

确实值处理的方法

  • 当超过 15% 的数据都缺失的时候,我们应该删掉相关变量且假设该变量并不存在(删除列)。
  • 当某个特征缺失少量观察值,可以把相应的记录删掉(删除行)
    
    Kaggle 原答案