R语言学习准备
2018-08-31
2018-08-31
R语言入门
1 R语言学习准备
1.1 R语言的前世今生
20世纪90年代,R语言当时被称为S语言,因研发者Ross和Robert两位学者名字首字母均为R而得名,直到现在被大家默认为R语言。在中国,R语言蓬勃生长,2018年R会议已进行到第十一届,学术高潮也持续高涨超过一个年代。
R是S语言的一种实现。S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言。最初S语言的实现版本主要是S-PLUS。S-PLUS是一个商业软件,它基于S语言,并由MathSoft公司的统计科学部进一步完善。后来Auckland大学的Robert Gentleman 和 Ross Ihaka 及其他志愿人员开发了一个R系统。R的使用与S-PLUS有很多类似之处,两个软件有一定的兼容性。
1.2 R与Rstudio
1.2.1 R语言的介绍
R语言是一种面向数据进行处理分析的一种有规律的计算机编程+统计学的运行语言。R语言是一个开源平台,允许所有开发者去创造完善,致使R语言不断在进行改进、更新、提升。
R语言构成以英文、数字、符号、中文等名称组成的一门“统计学+数学+编程”的智慧性语言。具体细化来讲,R是一个关于包的集合,主要是涉及函数、数据集、编译器等体系。R的包可以理解成一本书,通过书的知识来完成编程、数据分析等操作。
1.2.2 Rstudio的介绍
Rstudio是R语言实现方式的一种集成环境,R借助Rstudio可以生成html、PDF等格式的文本。在该环境下,你可以切换不同的R语言版本,以此达到R不同版本的兼容效果。
1.3 选择R语言的理由
1.3.1 有深度+实用性高
R语言常在数据相关的方面解决方法不同。例如,使用R语言进行简单计算,可以直接运算,也可以赋值运算。现对a=666,b=999,c=a+b,以回车键Enter执行运算语句,得到c=1665,操作过程如下:
当一段文字中的某些词语出现多次,为了对它进行一个直观展示,增强视觉认知的效应。可以用R语言对文字内容进行词频分析,绘制词云图。如下图,“数据”这个词语字体越大,说明在该段文字中“数据”出现的频次越高!
1.3.2 包、函数开源
R语言是一款开源的软件。它的包和函数等使用方法在网络上可以搜寻到相关的概念。当你对R语言中的某个函数产生困惑时,对函数名称前缀“问号”符号,就得到该函数的使用方法,操作如下:
Suggest:可以用该方法去查看boxplot,pie等函数。
关于对R包不熟悉,可以在R语言命令编辑library(help=”包的名称”)如下图所示,就可直接得到关于R语言包的说明及用法。如下:
* install.packages(“ggplot2”) ##加载安装包
* library(help=“ggplot2”) ##查看包的使用说明(先安装,才可查看)
* .packages(all.available=T) ##查看本地电脑安装的所有包
Suggest:可以选择本地安装的包,进一步查看包的使用方法。
1.3.3 R语言支持的环境
可运行Windows系统,Linux系统,Mac OS X系统,支持交互式数据探索和分析实践。使用R语言实现对数据进行高维量级处理、数据可视化、统计模型分析、数据挖掘算法等。
2 R语言在学科技术领域的应用
R语言在学科技术领域应用广泛。列举以下几点:
1.R语言能对用户行为进行分析。例如,同学A想在某电商网站上买一件衣服,他看到网站上衣服的价格、颜色、促销价格、销售数量、好评率、评价数量、店铺收藏人数等数据信息。
产生了这样的想法:
(1)是什么在影响销售数量?
(2)今年衣服时尚的颜色将会是什么?
(3)促销价格等对销量是否有影响?
(4)影响衣服促销量的指标又有哪些?
当然,这些想法可能会更多,那如何对这些问题进行解决呢?在中国汉语文化中,理解衣服的时尚是指穿该类衣服相同特征的人群数量很多时,形成的一种潮流趋势。这样想来,就涉及到了统计数量相关的预测类概念由此就想到了R语言进行数据分析,R语言也是统计学中进行统计预测、决策较为优秀的软件。而同学A就可以对购买某些颜色的衣服在春夏秋冬季节的销量分别进行统计,预测出季节性衣服的时尚颜色,然后结合衣服颜料商的价格进行组合联系,猜想制定出生产供应的服装周转链物流体系。
2.R语言能对金融数据分析,简而言之,通过某股票历史交易信息的最大值、最小值、开盘价、收盘价、成交量等建立统计模型,对模型进行合理检验,以此来预测未来的交易行为。
3.语言能对天气数据的可视化,用R语言的包,对数据进行描述分析等等。未来的R语言,在天气、地理、生物等各方面数据的处理将占据更重要的位置。
未来,她将继续蓬勃发展……
3 参考文献
[1] 薛薇. 基于R的统计分析与数据挖掘[M]. 中国人民大学出版社, 2014.