![数据科学与机器学习:数学与统计方法](https://wfqqreader-1252317822.image.myqcloud.com/cover/83/47684083/b_47684083.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.5.3 双变量的数据可视化
本节将介绍一些有用的视觉辅助工具,以探索两个特征之间的关系。图形表示方式将取决于这两个特征的类型。
1.两个类别变量的图
两个类别变量的对比条形图需要在图中引入子图。图1.5是1.3节中列联表的可视化图形,此图交叉显示老年人家庭状况与性别。这里只是在同一个图形中显示两个相邻的条形图。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/23_04.jpg?sign=1739666143-bl7DvV0wyMTImU4fhTTeZWzp8NxJJEH4-0-09ceb76d6983a309f1544271931f908a)
图1.5 两个类别变量的条形图
该图是使用seaborn软件包制作的,seaborn是专为简化统计可视化任务设计的。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/24_01.jpg?sign=1739666143-x11AtJUO4JNazJBZwyVPdFuByOifPfpG-0-56d497f660f0d3d87626044fe436e55f)
2.两个定量变量的图
我们可以使用散点图将两个定量特征之间的模式可视化。这可以用plt.scatter命令实现。下面的代码可生成nutri数据中weight相对height的散点图,如图1.6所示。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/24_02.jpg?sign=1739666143-oMlmG0SC292kN45Wk7O7ERcR8dYNAI2Y-0-c3a60f2ea67fd9f243136648e0efada4)
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/24_03.jpg?sign=1739666143-ALISg37k3hgkGRryKiptgfex0da03csa-0-3fc4ccc298beaad74e3cc8029165ba3e)
图1.6 weight(体重)相对height(身高)的散点图
下面的Python代码演示了怎样绘制高度复杂的散点图,如图1.7所示。图中显示了婴儿出生体重与母亲抽烟(三角形)或母亲不抽烟(圆圈)的关系。另外,对两组数据进行直线拟合,结果表明:母亲抽烟时,婴儿出生体重随母亲年龄的增加而下降;母亲不抽烟时,婴儿出生体重随母亲年龄的增加而增加!问题是这些趋势是有统计学意义,还是纯属偶然。我们将在本书后面重新讨论这个数据集。
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/24_04.jpg?sign=1739666143-w4YUuwJnKtUBeIuKNJdSd8U6jOWLuFZE-0-a663872b6e2146dc24be2a418cf66f3f)
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/25_01.jpg?sign=1739666143-rwEzq91yAyDCUZoQJhkzXrMoOsMi480R-0-d836c72ce481c19120f1cafc60c110b4)
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/25_02.jpg?sign=1739666143-bcpfVyNtrzf4mqfuQ7ULzvcYiUO5OqA2-0-7b4ce28d1b7bc7d89958f99f09aa3c5b)
图1.7 婴儿出生体重与抽烟或不抽烟母亲的年龄关系
3.定性变量和定量变量的图
在这种情况下,针对每个分类特征绘制定量特征的箱形图很有意思。假设变量结构正确,使用以下代码中的plt.boxplot函数可以生成图1.8:
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/25_03.jpg?sign=1739666143-4jcgUzB3EitMP7xY9j9QZAybnTLe7mtB-0-a7a886cc89960985b97133d5a6fac51a)
![](https://epubservercos.yuewen.com/C30954/27086998107751806/epubprivate/OEBPS/Images/25_04.jpg?sign=1739666143-N74aXIyu1Ig6vnOTCD0PCc8jOebLXeTj-0-3469ff77c3e73b201ab9c9123876e76f)
图1.8 将定量特征coffee(每天咖啡消耗量)看作分类特征gender(性别)的函数,绘制箱形图。注意,我们这次使用了“缺口”样式的箱形图