日常机器学习(二十四)线性预测回归实例——特征相关性
首先corr()函数可以帮助我们找到数据的协相关系数矩阵
可以看出这是一个对称矩阵。为了找出相关系数较大的两组数据,我们可以只取矩阵的上三角部分
由上图可以看出,只需在原先的矩阵上乘上一个上三角全为1的矩阵即可。然后用stack()命令可以将矩阵转换成两两匹配的列
下图看出,颜色越深的表示相关性越高
sns也有可以画两两匹配的散点图pairplot
hue表示可以用原数据中的一些分类变量来画不同类别的点,对角线上图表示数据分布
sns中lmplot函数可以画针对性的两两分布图,并给出线性回归的曲线。阴影部分表示置信区间
可以看出这是一个对称矩阵。为了找出相关系数较大的两组数据,我们可以只取矩阵的上三角部分
由上图可以看出,只需在原先的矩阵上乘上一个上三角全为1的矩阵即可。然后用stack()命令可以将矩阵转换成两两匹配的列
然后用sort命令对数据进行绝对值的从大到小排列,并重新定义index
可以看到重新定义index后数据的列名(columns)是level_0和level_1,我们可以用data.columns重新定义列名
可以从数据中看出Petal.Length和Petal.Width相关性很高,可以用乘积来替代。No.那一列与别的相关性很高,但是这是编号,可以drop掉
sns中有一个heatmap可以画相关性的图下图看出,颜色越深的表示相关性越高
sns也有可以画两两匹配的散点图pairplot
hue表示可以用原数据中的一些分类变量来画不同类别的点,对角线上图表示数据分布
sns中lmplot函数可以画针对性的两两分布图,并给出线性回归的曲线。阴影部分表示置信区间
评论
发表评论