统计学基础
2018-09-03
2018-09-03
统计学基础
在本章,我们将通过几个例子来说明数理统计的几个研究方向,之后再介绍数理统计的几个特点。
1 几个例子
抽样调查
随着高校的扩招和自主招生的推广,每所院校及院系都越来越重视自己的生源情况,也都想出了各种各样的方法以吸引各地优秀的中学生报考自己的学校。导致这种现象的根本原因就是各个学校都认识到学生质量对学校声誉的重要性。如果仅从考试成绩来看,大学成绩是否真的与中学成绩存在着很大的相关性?要想回答此问题,我们有必要考虑如下问题:
- 选取哪几所大学进行研究?在选定的大学中选取多少名什么样的大学生?
- 用什么成绩来反映大学和中学的成绩?
- 有了数据后如何进行分析?
- 这种情况对于重点大学与一般大学是否一样?
上面的几个问题既有如何选取学校和学生的问题,也有如何进行数据分析的问题。有关学校及学生的选取问题,涉及到抽样调查。
估计
如何评价一个大学生的学习成绩?这就是一个估计问题。
假设检验
在许多体育比赛中,裁判均是通过掷硬币的方法让一方先进行选择,大家之所以接受这种方法是由于我们相信硬币是均匀的,即掷一次硬币出现正面与反面的概率是相同的。现要验证某硬币的均匀性,我们将这枚硬币投掷495次后,正、反面分别出现220次和275次,请问:我们能说这枚硬币均匀吗?这个问题的解决方法,就是假设检验。
试验设计
农民在种地之前,会选择适当的种子。假如一个农业试验站共有五种小麦可供选择,请问此试验站应向农民提供哪种种子以备来年的播种?此问题属于试验设计的研究范畴。
质量控制
在一个工业产品的设计和生产过程中如何控制其产品质量?如何验证其质量是否合格?又如何改进其产品质量?此问题就是质量控制的研究内容。
时间序列
股票是大家常用的投资工具之一,如把每天的收盘价记录下来,以\(\left\{X_t\right\}_{t=1}^n\)表示过去n天的收盘价,则人们关心的问题就是如何利用这些数据预测未来。
回归
从遗传学的角度看,遗传会把一种性状(如身高)的优势传递给下一代。如果真的是这样的话,我们会看到一代一代的人中,个子很高和很矮的人的比例会日渐升高,而中间部分的比例会日渐下降,但实际上,一代代人的身高却稳定在正态分布。在亲子身高问题中,Galton发现了亲子代间性状遗传中,性状有向中心回归的现象,简言之,高个子的后代平均来说也高些,但不如其父代那么高,要向平均身高的方向“回归”一些。
2 什么是数理统计
对于数理统计的各种各样的定义,虽无原则性的分歧,但是也很难找到一种说法是完全无懈可击的。现就这些定义中的一些共性进行分析和说明。
- 必须是受到随机影响的数据,才能成为数理统计学的研究内容。
数理统计与其他学科的一个重要区别点即在于随机性。随机性的第一个来源就是试验误差,第二个来源就是由于研究问题所涉及的对象太多,故我们只能随机地抽取部分来进行研究所造成的。
- 如何“有效”地收集数据
“有效”有两个方面的含义:一是可以建立一个模型来描述所得数据,二是数据中要尽可能多地包含与研究问题有关的信息,例如想调查某地区共10000户农户的经济状况,由于条件的限制,我们不可能逐户地去调查,现决定从中随机地抽取100户作实际调查,那问题是:100户是否合适?这100户如何去选?
- 如何“有效”地利用数据
获取数据的目的在于提供所研究问题的相关信息,这种信息有时并不是一目了然的,而需要用“有效”的方法去提取或提炼,之后再对所研究的问题作出一个结论,这种“结论”在统计上被称为推断。
为有效地利用数据进行统计推断,就要涉及统计中的一些准则,以评价推断的优劣。
3 几个基本概念
样本
通过观测或试验而得到的数据就称为样本,又称样品或子样。如将一物体放在天平上称n次,记录到的数据为\(x_1,x_2,...,x_n\),则它的全体就称为一个样本,n称为样本容量或样本大小。样本分定量和定性两种,也有一维和多维之分。样本可能取值的全体就称为样本空间。
样本分布
如果仅从应用的角度看,样本就是一组已知的数字,但我们必须注意到,样本是一组受到随机影响的数。如从概率论的角度看,样本就是随机变量,而我们收集到的具体样本则是这个随机变量的实现或观测值,这即是样本的二重性。既然样本是随机变量,就有概率分布,于是,这个概率分布就称为样本分布。
总体
总体又称母体,我们常把它理解为“研究问题所涉及的全体对象的集合”。总体中的每个元素称为“个体”或“单元”,从总体中按一定规则抽出一些个体,称为抽样,所抽得的个体称为样本。
总体分布
在有些情况下,从总体出发比从样本出发具有其方便之处,于是,我们定义总体分布为当样本容量为1时的样本分布,之所以定义总体分布,是由于:当有n个独立同分布的样本时,如以\(F\)记总体分布,故样本\(X_1.X_2,...X_n\)d的分布为\(F(x_1),F(x_2),...,F(x_n)\),其写法非常麻烦,此时就不如说总体分布为\(F\).
当总体分布为\(F\),而\(X_1,...X_n\)为独立同分布的样本时,我们常称\(X_1,...X_n\)是从总体\(F\)中抽出的简单随机样本或独立同分布的样本,并记\(X_1,...X_n\)\(F(x)\),若分布\(F\)有概率密度函数\(f(x)\),则也常记为\(X_1,...X_n\)\(f(x)\)。有时,我们也以一个抽象得到记号\(X\)来表示所考察的指标,它不是一个样本,而只是一个记号。我们常把\(X\)堪称一个随机变量,其分布就是总体分布\(F\)。于是,样本\(X_1,...X_n\)是\(X\)的观测值,且以\(X_1,...X_n\)~\(X\)表示\(X_1,...X_n\)为来自总体\(X\)的样本。
统计量
总的来说,为研究一个问题,我们就要收集数据,即样本,之后,通过样本再对问题进行具体的统计推断。在进行统计推断时,由于样本是一堆杂乱无章的数,故我们必须对它进行必要的加工、整理,以便从中提取有利于研究问题的信息。在统计上,把凡是能由样本计算出来的量称为统计量。显然,这只是一个定性的定义,但从这个定义中可以看出,一个统计量仅与样本本身有关,而与样本分布或参数没有关系。
抽样分布
由于统计量是作为随机变量的样本的函数,故它也有概率分布,于是,我们称统计量的概率分布为该统计量的抽样分布。虽然对于给定的一组样本,用于推断的统计量是一个固定的数,但是由于样本受到了随机因素的影响,故其推断结果也是随机的,所以,有可能出现这样的情况:一个整体上看来较好的统计推断方法,在个别情况下也可能给出不好的结果。因此,我们可以用抽样分布来衡量统计推断的好坏。
4 参考文献
[1]王兆军. 数理统计教程[M]. 高等教育出版社, 2014.