关于高校“统计”教材建设的几点建议_统计学论文

关于高校“统计”教材建设的几点建议_统计学论文

对高等院校《统计学》教材建设的若干建议,本文主要内容关键词为:统计学论文,高等院校论文,建议论文,教材建设论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

随着统计的重要性日益受到社会各界的承认,《统计学》无论作为统计系的专业基础课程还是其他院系的公共课程,都受到高度重视,特别是在经济类与管理类专业,《统计学》都是一门核心课程。这方面的有关教材出版了不少,所列的参考书目仅是其中笔者比较熟悉的或在最近参考过的一份很不完全的清单。以下是笔者对我国此类《统计学》教材建设的若干建议。

一、对《统计学》教材的认识

1.由于历史原因,我国统计学教学与研究曾长期被人为分割为《数理统计学》与《社会经济统计学》两个几乎不相关的学科,从体制、内容到观点、方法都有很大区别。随着我国改革开放与经济体制的转型,这种情况现在已有很大变化。原来分属经济与数学这两个“不同”的学科正逐渐融合,绝大多数人已认识到统计学是一门既不隶属于经济,也不隶属于数学的一门独立的一级学科。作为一门独立的学科,统计学的教学当然应有它自己的特点,这也应反映在教材建设上,统计学教材既不能按一般文科教材写,也不能按数学教材写。

2.《统计学》教材的首要命题是:什么是统计学?统计学的对象是什么?对此不同教材可有不同的表述。但是无论如何,必须抓住问题的核心。统计的核心是什么?统计的核心,或统计学的对象是“数据”。在对统计学下定义,解释什么是统计学时,必须明确告诉学生,统计学是“有关的数据的学科”。因此将统计学定义为“一门收集、整理和分析(统计)数据的(方法)科学”是合适的。

许多作者讨论过英文“Statistic”及中文“统计”的词据,都认为是由于历史上的原因才构成现在成为这门学科的名称。有人认为反映统计学这门学科最确切的名称应是“数据科学”(Data Science),笔者也同意这种观点。《统计学》教材应该自始至终贯穿“数据”这条主线,将数据作为统计学科的最基础的核心。因此《统计学》教材一定要从数据的表述开始。这里必须向学生解释明白“数据”与“数”及“数字”的区别,使学生从一开始就听白统计与数学,统计与会计的差别。

许多教材在介绍数据时,只引用了社会、经济方面的统计数据,这是对的,因为这正是大多数人所接触到的。但也不要忽视来自实验或观测的数据,在解释数据的内在变异及其分布时,实验数据更具有“统计”特点。因为可以从大多数学生都熟知的误差概念来解释统计规律,从而加深对统计本质的理解。许多国外的统计教材,正是这样做的。顺便提一下,笔者认为在介绍原始数据时,用“观测数据”或“观测值”更好。因为“统计数据”可以指经过加工后的数据,如各类“统计量”,而统计值又容易与统计分布值、临界值等相混淆。

3.统计的另一个最基本问题是有关总体和样本的概念,这是统计学所特有的概念,也正是它与数学及会计学所区别的一个重要地方。必须清楚地向学生交待这两个概念。总体是我们研究的对象,它包含未知部分(分布或分布中参数);而样本是按某种形式从总体中得到的一部分,它是可以观测的。(推断性)统计的核心,是从(已知的)样本对(未知的)总体进行推断(估计与假设检验是其中两种最重要的推断)。

目前有些教材对统计的这两个基本概念的解释还存在一些问题,有些教材还在用“全及总体”与“样本总体”这类提法。笔者认为这不仅仅是术语的使用问题,主要还是对总体与样本概念的理解问题。

二、概率的引入,以及概率论在统计学中的作用

尽管概率论与数理统计曾经是(在某种程度现在仍然是)捆绑在一起的。但按学术界现在比较统一的认识,概率论是纯数学的一门分支学科,它与其他数学分支(微积分与线性代数等)对统计来说都是一种工具。只是由于概率论所研究对象是随机现象,而绝大多数统计数据也是离不开随机性的(数据的内在变异就反映了随机性),因此概率论与统计的联系就更为直接。在推断性统计的理论与方法中,概率论是不可缺的最重要的一个数学工具。由于对许多学习“统计学”课程的学生来说,概率论没有作为一门课学过,因此将概率论有关内容纳在《统计学》中介绍是有必要的,目前许多教材也正是这样做的。

在处理上一定要注意不要将这部分内容按数学教科书的写法来介绍。应该从数据的分布规律、从统计推断的不确定性来引入概率。关于概率的几种定义,对一般的统计学教材,当然不需要公理化体系的严格定义及几何定义,也不需要过多地讨论古典定义,特别是涉及一些复杂排列组合的古典概率的计算。不过,建议在着重介绍概率的统计定义的同时,不要忘了介绍“主观概率”。因为不是所有“试验”都是可以重复的,这在社会经济现象中尤为重要。

同样,对概率论的其他内容(例如随机变量及其分布等等)的处理上,不要用太多的数学公式。对一些常用的概率分布,重要的是介绍清楚分布的背景:例如同作为贝努利概型的二点分布、几何分布及二项分布,一定要将贝努利概型的本质介绍清楚;引进泊松分布时要强调它是在一定(空间或时间)范围内,某种稀有事件发生次数所遵从的分布;正态分布则是受到为数众多的、每个都极微小干扰的观测结果所服从的分布。如果要介绍指数分布,则宜介绍它是一种寿命分布,所涉及的失效是偶然的(失效率是常数),以及它的无记忆性(老的与新的分布一样)等等。当然,在介绍这些时,重要的是要介绍其中的统计含义和思想,并不要求使用上面所涉及的专业术语。这远比仅仅给出数学表达式更为重要。

三、关于抽样、抽样分布及抽样调查内容的处理

统计既然离不开样本也就离不开抽样及抽样分布。抽样与抽样分布构成统计学教材中的重要内容。另外,抽样调查既涉及多种抽样方法,同时又在社会经济统计中占有重要地位。因此,许多教材中也包含这部分内容。但是不幸的是,有部分教材在处理这些内容时不够妥当,从而可能给学生造成混乱。造成这种情况的最重要原因是基本统计推断理论与方法是基于独立同分布样本的,许多教材将它称为简单随机样本(或简单样本,或随机样本),它相当于从无限总体中抽取的随机样本或从有限总体中以放回(重置)且(等概率)随机抽取的样本。从独立同分布样本出发才能严格地(也较容易地)得到统计量(例如样本均值,方差等)的分布,即抽样分布。但有些教材混淆了独立同分布样本及从有限总体中随机抽取的样本这两种完全不同的情形,给学生造成印象仅是后者的标准误差公式有少许差别(差一个有限总体修正系数)。实际上,对于来自有限总体许多抽样方法所得到的样本统计量,很多抽样分布若不是不可得的,就是极其复杂的。因此笔者认为还是区分两种不同样本为好,应强调教材中所指的抽样分布都是针对独立同分布样本(或是在此意义下的简单随机样本),而不是从有限总体中抽取的不放回(从而不独立)样本,更不包括不等概率样本。

与此相关的,与抽样调查相关的内容不宜与抽样分布(以及所谓的“抽样推断”)放在同一章内处理。这些内容或应作为独立一章放在教材后一部分,或作为一门单独的后续课程。

至于相关与回归分析,方差分析,多元分析,时间序列,与指数理论等内容的处理原则也一样。

四、使用正确的概念和标准化的术语

作为统计学科的基础与核心教材,《统计学》中所使用的概念必须是严谨、科学的,因为概念往往是先入为主的,学生最初若接受了不科学的概念和思想,会对其后的学习与工作带来极大的负面影响。以下再举几个不只在一本教材中存在的例子。

1.对(样本)数据或(总体)分布的(平)均值、中位数、众数等等,宜用中心位置或集中趋势的度量(或指标),而不宜统称为平均数指标。

2.平均数(均值)、众数与中位数的位置,对一般分布确实是中位数在其他两个量之间,但不能说是“一定”,因为可以举出中位数不在均值与众数之间的例子(对一定形状参数的威布尔分布即是其中一例)。另外,众数一般用于总体,若用于样本,需要更多的说明。相反,极差一般用于样本,对总体,则宜称为取值范围。

3.并不需要强调给定样本量下的样本个数(即可能样本数目),除非在某种特定情况下(对有限总体抽样)。如果有需要,除了考虑抽样是放回(重置)还是不放回(不重置)外,还要区分是否需要考虑个体在样本中的顺序。在一般情形,是不需要考虑抽样顺序的。

4.类似于“抽样平均数的抽样平均误差”之类的叙述不仅对学生,对许多专家来说也是费解的,“抽样平均数”本意指的是抽样所得的平均数即样本平均数,但从字面上,它还是可以联想到别的解释。“抽样平均误差”又是什么概念?是误差的平均吗(如果是这样,大多数情况应该为0)?是误差绝对值的平均吗?事实上,都不是,它指的是(样本)平均数的标准差,那么为什么不直接说呢?实际上有了统计量的标准差,也即标准误差(Standard error)的概念,就很容易说清楚,不会发生任何混淆。与此相关的,还有“把握程度”与“概率度”等概念。把握程度作为解释用语是可以的,但不宜用它来替代正式术语“置信水平”(或置信度),“概率度”的提法更为勉强,这种既不科学又不通俗的使用会给实际使用者造成许多麻烦。

5.关于大样本与小样本。数理统计中有大样本理论或大样本性质的提法。它讨论当某种统计量的精确分布未知(或因很复杂不易获得时),当样本量趋于无穷大时的极限行为。如果极限分布存在,样本量足够大时,就可将这个极限分布作为它的近似分布。而小样本则是相对于大样本而言的,指的是对任何样本量(不仅限于小样本),统计量所服从的精确分布。例如t分布当自由度趋于∞时的极限分布是标准正态分布。由于正态总体的标准差s的分布是自由度为n-1的t分布,故作推断时,对任何n,都可使用t分布;而当n大时,也可用正态分布作为近似。因为t分布当自由度大于30时,与正态分布已十分接近,放在此情况下,当样本量大于30时,即可利用它的大样本性质。但是并不能因此而推论,在所有情形,只要n>30即可用它的大样本性质(如果有极限分布的话),更不能因此而笼统地说样本量大于30称为大样本,小于30称为小样本。

6.关于术语标准化问题,建议尽量使用国家标准《GT/T3358.1~3统计学术语》所规定的术语。例如在这个标准中,Sample size称为样本量,而不用过去曾经普遍使用的样本大小,样本容量或样本含量:Standard deviation定名为“标准差”,而不再称为标准偏差、标准离差、均方根差;Coefficient of variation称为变异系数,而不称为变差系数,离差系数等。

总之,与上世纪80年代以前情况比,《统计学》教材的建设总体上已有相当大的改进,涌现了许多优秀的教材。某些教材中原来存在的“硬伤”也大为减少,但是进一步改进的余地还是很大的。特别是针对不同专业、不同对象的学生素材的选择与处理应该有所不同,本文只是笔者针对近年来,特别是2000年以后出版的若干教材进行初步调研得出了一些粗浅的看法,不当之处敬请各位专家批评指正。

推荐几本在国外有较大影响的普及性统计学教材,即参考书目中的[11]~[13]。这几书的共同特点是内容不深,不用或极少用数学公式,强调的是统计的概念和思想,都带有许多通俗易懂的案例,值得我们借鉴与参考。参考书目[14]是根据原书的第二版翻译的,但原书已出到第八版,列在这里仅作为国外针对经济商务类统计学教材内容的参考。

标签:;  ;  ;  ;  ;  ;  

关于高校“统计”教材建设的几点建议_统计学论文
下载Doc文档

猜你喜欢