箱线图

2018-09-03

2018-09-03
箱线图

1 数据准备


library(readxl)  
jsdata=read_excel("D:/TASK/净水器建模(1月19日)副本1.xlsx") 
jsdata$销量=log(jsdata$销量+1)  #因变量数值作对数处理

  由数据结构信息得知,该净水器数据包含20个变量(字段),1011条样本量。

2 箱线图


  箱线图,是刻画数据平均水平的一种方法。分别用到的统计量有:最小值、上四分位数、中位数、下四分位数与最大值来描述数据。可以简单判断数据是否具有对称的特性、数据离散程度等信息。

2.1 绘制简单箱线图

  箱线图的基本格式为:

  boxplot(数值型变量~离散型变量,data=数据,horizontal=TRUE/FALSE,axes=TRUE/FALSE,ylim=纵坐标范围)

  其中,horizontal表示箱线图的放置方向,取TRUR表示横向放置,取FALSE表示垂直放置,且不添加参数默认为垂直放置;axes表示是否带有横纵坐标轴。

boxplot(销量~保修期,data=jsdata,col="lightblue")

  从上图看出:在同一样本数据下,连续型变量净水器销量和离散型变量保修期绘制箱线图。为了让中位数大小比较直观展示,可对箱线图位置进行水平调整,如下:

boxplot(销量~保修期,data=jsdata,col="orange",horizontal=TRUE)

  由上图看出,其中离散型变量保修期为5年的净水器保修期的销量中位数高于其它保修类型的中位数,推测保修期为5年的销量平均水平最高;无保修期的净水器销量的中位数最低,初步认为无保修期的销量平均水平最低。

2.2 ggplot绘制箱线图

  基本格式为:ggplot(数据,aes(x=自变量,y=因变量))+geom_boxplot()

  其中,aes(x=自变量,y=因变量)表示坐标,geom_boxplot()表示绘制箱线图

ggplot(jsdata,aes(保修期,销量))+geom_boxplot(aes(fill=保修期))+my.theme

  如上图,5年的净水器保修期的销量最高,无保修期的净水器销量最低。

2.3 向箱线图添加槽口

  箱线图,也可个性化绘制。例如,利用notch函数添加槽口,如下所示:

ggplot(jsdata,aes(保修期,销量))+geom_boxplot(aes(fill=保修期),notch=T)+my.theme

  通过槽口,能够更为直观反映出中位数的位置。其中5年的净水器保修期的销量最高,无保修期的净水器销量最低。

3 本章汇总


参数 类别 功能
readxl 读取EXCEL数据包
geom_boxplot 函数 箱线图绘制
ggplot2 图形的绘制
fill 参数 图形填充色
boxplot 函数 箱线图
notch 函数 添加槽口