箱线图
2018-09-03
2018-09-03
1 数据准备
library(readxl)
jsdata=read_excel("D:/TASK/净水器建模(1月19日)副本1.xlsx")
jsdata$销量=log(jsdata$销量+1) #因变量数值作对数处理
由数据结构信息得知,该净水器数据包含20个变量(字段),1011条样本量。
2 箱线图
箱线图,是刻画数据平均水平的一种方法。分别用到的统计量有:最小值、上四分位数、中位数、下四分位数与最大值来描述数据。可以简单判断数据是否具有对称的特性、数据离散程度等信息。
2.1 绘制简单箱线图
箱线图的基本格式为:
boxplot(数值型变量~离散型变量,data=数据,horizontal=TRUE/FALSE,axes=TRUE/FALSE,ylim=纵坐标范围)。
其中,horizontal表示箱线图的放置方向,取TRUR表示横向放置,取FALSE表示垂直放置,且不添加参数默认为垂直放置;axes表示是否带有横纵坐标轴。
boxplot(销量~保修期,data=jsdata,col="lightblue")
从上图看出:在同一样本数据下,连续型变量净水器销量和离散型变量保修期绘制箱线图。为了让中位数大小比较直观展示,可对箱线图位置进行水平调整,如下:
boxplot(销量~保修期,data=jsdata,col="orange",horizontal=TRUE)
由上图看出,其中离散型变量保修期为5年的净水器保修期的销量中位数高于其它保修类型的中位数,推测保修期为5年的销量平均水平最高;无保修期的净水器销量的中位数最低,初步认为无保修期的销量平均水平最低。
2.2 ggplot绘制箱线图
基本格式为:ggplot(数据,aes(x=自变量,y=因变量))+geom_boxplot()。
其中,aes(x=自变量,y=因变量)表示坐标,geom_boxplot()表示绘制箱线图
ggplot(jsdata,aes(保修期,销量))+geom_boxplot(aes(fill=保修期))+my.theme
如上图,5年的净水器保修期的销量最高,无保修期的净水器销量最低。
2.3 向箱线图添加槽口
箱线图,也可个性化绘制。例如,利用notch函数添加槽口,如下所示:
ggplot(jsdata,aes(保修期,销量))+geom_boxplot(aes(fill=保修期),notch=T)+my.theme
通过槽口,能够更为直观反映出中位数的位置。其中5年的净水器保修期的销量最高,无保修期的净水器销量最低。
3 本章汇总
参数 | 类别 | 功能 |
---|---|---|
readxl | 包 | 读取EXCEL数据包 |
geom_boxplot | 函数 | 箱线图绘制 |
ggplot2 | 包 | 图形的绘制 |
fill | 参数 | 图形填充色 |
boxplot | 函数 | 箱线图 |
notch | 函数 | 添加槽口 |