R语言学习准备

2018-08-31

2018-08-31
R语言入门

1 R语言学习准备


1.1 R语言的前世今生

  20世纪90年代,R语言当时被称为S语言,因研发者Ross和Robert两位学者名字首字母均为R而得名,直到现在被大家默认为R语言。在中国,R语言蓬勃生长,2018年R会议已进行到第十一届,学术高潮也持续高涨超过一个年代。

  R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。后来Auckland大学的Robert Gentleman 和 Ross Ihaka 及其他志愿人员开发了一个R系统。R的使用与S-PLUS有很多类似之处,两个软件有一定的兼容性。

1.2 R与Rstudio

1.2.1 R语言的介绍

  R语言是一种面向数据进行处理分析的一种有规律的计算机编程+统计学的运行语言。R语言是一个开源平台,允许所有开发者去创造完善,致使R语言不断在进行改进、更新、提升。

  R语言构成以英文、数字、符号、中文等名称组成的一门“统计学+数学+编程”的智慧性语言。具体细化来讲,R是一个关于包的集合,主要是涉及函数、数据集、编译器等体系。R的包可以理解成一本书,通过书的知识来完成编程、数据分析等操作。

1.2.2 Rstudio的介绍

  Rstudio是R语言实现方式的一种集成环境,R借助Rstudio可以生成html、PDF等格式的文本。在该环境下,你可以切换不同的R语言版本,以此达到R不同版本的兼容效果。

1.3 选择R语言的理由

1.3.1 有深度+实用性高

  R语言常在数据相关的方面解决方法不同。例如,使用R语言进行简单计算,可以直接运算,也可以赋值运算。现对a=666,b=999,c=a+b,以回车键Enter执行运算语句,得到c=1665,操作过程如下:

  当一段文字中的某些词语出现多次,为了对它进行一个直观展示,增强视觉认知的效应。可以用R语言对文字内容进行词频分析,绘制词云图。如下图,“数据”这个词语字体越大,说明在该段文字中“数据”出现的频次越高!

1.3.2 包、函数开源

  R语言是一款开源的软件。它的包和函数等使用方法在网络上可以搜寻到相关的概念。当你对R语言中的某个函数产生困惑时,对函数名称前缀“问号”符号,就得到该函数的使用方法,操作如下:

  Suggest:可以用该方法去查看boxplot,pie等函数。

  关于对R包不熟悉,可以在R语言命令编辑library(help=”包的名称”)如下图所示,就可直接得到关于R语言包的说明及用法。如下:

  * install.packages(“ggplot2”) ##加载安装包

  * library(help=“ggplot2”) ##查看包的使用说明(先安装,才可查看)

  * .packages(all.available=T) ##查看本地电脑安装的所有包

  Suggest:可以选择本地安装的包,进一步查看包的使用方法。

1.3.3 R语言支持的环境

  可运行Windows系统,Linux系统,Mac OS X系统,支持交互式数据探索和分析实践。使用R语言实现对数据进行高维量级处理、数据可视化、统计模型分析、数据挖掘算法等。

2 R语言在学科技术领域的应用


  R语言在学科技术领域应用广泛。列举以下几点:

  1.R语言能对用户行为进行分析。例如,同学A想在某电商网站上买一件衣服,他看到网站上衣服的价格、颜色、促销价格、销售数量、好评率、评价数量、店铺收藏人数等数据信息。

  产生了这样的想法:

  (1)是什么在影响销售数量?

  (2)今年衣服时尚的颜色将会是什么?

  (3)促销价格等对销量是否有影响?

  (4)影响衣服促销量的指标又有哪些?

  当然,这些想法可能会更多,那如何对这些问题进行解决呢?在中国汉语文化中,理解衣服的时尚是指穿该类衣服相同特征的人群数量很多时,形成的一种潮流趋势。这样想来,就涉及到了统计数量相关的预测类概念由此就想到了R语言进行数据分析,R语言也是统计学中进行统计预测、决策较为优秀的软件。而同学A就可以对购买某些颜色的衣服在春夏秋冬季节的销量分别进行统计,预测出季节性衣服的时尚颜色,然后结合衣服颜料商的价格进行组合联系,猜想制定出生产供应的服装周转链物流体系。

  2.R语言能对金融数据分析,简而言之,通过某股票历史交易信息的最大值、最小值、开盘价、收盘价、成交量等建立统计模型,对模型进行合理检验,以此来预测未来的交易行为。

  3.语言能对天气数据的可视化,用R语言的包,对数据进行描述分析等等。未来的R语言,在天气、地理、生物等各方面数据的处理将占据更重要的位置。

  未来,她将继续蓬勃发展……

3 参考文献


  [1] 薛薇. 基于R的统计分析与数据挖掘[M]. 中国人民大学出版社, 2014.