统计学知识点.docx
统计学知识点 统计学 2010-09-13 181701 阅读83 评论0 字号大中小订阅 第一章 统计总论 国势学派的代表人物康令H.Conring、阿亨瓦尔G.Achenwall,17世纪的德国 国势学派 主要是对国家重要事项的记录,这些记录记载着关于国家组织、人口、军队、领土、居民职业以及资源财产等事项,偏重于事件的叙述,而忽视量的分析。 国势学派对统计学的创立和发展所作贡献 1国势学派为统计学这门新兴的学科起了一个至今仍为世界公认的名词“统计学”statistics,并提出了至今仍为统计学者所采用的一些术语,如“统计数字资料”、“数字对比”等。国势学派建立的最重要的概念就是“显著事项”,它事实上是建立统计指标和使统计对象数量化的重要前提; 2国势学派在研究各国的显著事项时,主要是系统地运用对比的方法来研究各国实力和强弱,统计图表实际上也是“对比”思想的形象化的产物。 政治算术学派的代表人物 17世纪的英国学者威廉配第W.Petty。马克思称配第是“政治经济学之父,在某种程度上也可以说是统计学的创始人”。 政治算术学派 国势学派主要采用文字记述的方法,而政治算术学派则采用数量分析的方法研究各国的国情、国力,做了前人没有做过的从数量方面来研究社会经济现象的工作。 政治算术学派在统计发展史上重要的地位 1它并不仅满足于社会经济现象的数量登记、列表、汇总、记述等过程,还要求把这些统计经验加以全面系统地总结,并从中提炼出某些理论原则。这个学派在搜集资料方面,较明确地提出了大量观察法、典型调查、定期调查等思想;在处理资料方面,较为广泛地运用了分类、制表及各种指标来浓缩与显现数量资料的内含信息。 2政治算术学派第一次运用可度量的方法,力求把自己的论证建立在具体的、有说服力的数字上面,依靠数字来解释与说明社会经济生活。 数理统计学派代表人物拉普拉斯P.S.Laplace 法国天文学家、数学家、统计学家,最先把古典概率论引进统计学领域,他发展了对概率论的研究,阐明了统计学的大数法则,并进行了大样本推断的尝试。 数理统计学派代表人物凯特勒A.Quetelet 比利时统计学家、数学家、天文学家,完成统计学和概率论的结合,把统计学发展中的三个主要源泉,即德国的国势学派、英国的政治算术派和意大利、法国的古典概率派加以统一、改造并融合成具有近代意义的统计学,促使统计学向新的境界发展。可以说,凯特勒是古典统计学的完成者,又是近代统计学的先驱者,在统计发展史上具有承上启下、继往开来的地位。 数理统计学派 数理统计是在概率论的基础上发展起来的,逐步形成以推断统计方法为中心,建立在概率论基础上的数理统计学。随着统计学的发展,对概率论的运用逐步增加;同时,自然科学的迅速发展和技术的不断进步,对数理统计方法又提出了进一步的要求。这样,数理统计学就从统计学中分离出来自成一派。数理统计学的产生使统计方法、特别是统计推断方法发生了重大变化,不仅极大地丰富了统计方法体系,也使统计方法具有了更为严谨的数学基础。 社会统计学派的代表人物 德国大学教授尼斯K.G.A.Knies首创, 思格尔C. L.E.Engel和梅尔G.V.Mayr。 社会统计学派 社会统计学派认为统计学的研究对象是社会现象,目的在于明确社会现象内部的联系和相互关系;统计应当包括资料的搜集、整理,以及对其分析研究。他们认为,在社会统计中,全面调查,包括人口普查和工农业调查,居于重要地位;以概率论为理论基础的抽样调查,在一定的范围内具有实际意义和作用。 统计的涵义一般包含统计学、统计工作和统计资料三种涵义。 统计工作即统计实践,是对社会、经济以及自然现象总体数量方面的资料进行搜集、整理和分析的活动过程。 统计资料即统计工作的成果,是统计工作过程所取得的各项数字和有关情况的资料,它反映现象的规模、水平、速度和比例关系,以表明现象发展的特征。 统计学统计学是研究如何搜集资料、整理资料和进行数量分析、推断的一门方法论科学。 统计三种涵义的关系 统计工作与统计资料是统计活动过程与统计活动成果的关系。 统计学来源于统计工作,是统计实践经验的理论概括,反过来,它又用理论和方法指导统计工作,推动统计工作不断提高。统计工作和统计学是理论与实践的关系。 统计学的研究对象统计学的研究对象为大量自然现象和社会现象的数量方面。 统计学的研究方法统计学的研究方法主要有大量观察法、综合指标法和统计推断法。 大量观察法是指对所研究的事物的全部或足够数量进行观察的方法。 综合指标法是运用各种综合指标对现象的数量关系进行对比分析的方法。综合指标法是统计分析的基本方法。 统计推断法在一定置信程度下,根据样本资料的特征,对总体的特征作出估计和预测的方法称为统计推断法。统计推断是现代统计学的基本方法。 统计要素无论问题如何复杂,统计学在具体运用中离不开以下四个要素,即总体、样本、推断以及推断的可靠性。 统计任务明确调查的总体;从总体中抽取样本并对样本的信息加以分析;根据样本信息对总体作出推断;对推断的可靠性加以测度。 总体就是根据一定目的确定的所要研究事物的全体。它是客观存在的、具有某种共同性质的许多个别事物构成的整体。就任何一个统计问题而言,总体是最基本的要素。 总体的两大特点同质性和大量性。 同质性指总体中的各个单位具有共同的性质; 大量性指总体应由足够数量的单位构成,而不是只有个别或少数单位。 有限总体指由有限个单位构成的总体。 无限总体指包括的单位多至无限的总体。 样本从总体中随机抽取的若干单位构成的集合体。 样本的特点 样本具有随机性,从一个总体中可以抽取许多个样本,样本单位的取值是可变的,不同的取值就有不同的样本。但在实际应用中,只用一个样本来推断总体; 样本具有代表性。样本的代表性直接影响到对总体推断的准确性; 样本具有客观性,从总体中抽取样本,必须排除主观因素的影响。 推断以样本所包含的信息为基础对总体的某些特征作出判断、预测和估计。推断是统计的基本任务。 推断的可靠性推断的可靠性测度是统计问题的最重要的要素,也是统计对决策最重要的贡献,它使统计的推断与“算命”截然分开。 统计学的内容描述统计和推断统计两类。 描述统计如何搜集、整理、分析、研究并提供统计资料的理论和方法,用于说明总体的情况和特征。 描述统计的作用 描述统计的主要作用是通过对现象进行调查或观察,然后将所得到的大量数据加以整理、简缩、制成统计图表,并就这些数据的分布特征如集中趋势、离散趋势等等计算出一些概括性的数字如平均数、标准差、相关系数等等。借助于这些概括性的数字,使人们从杂乱无章的资料中取得有意义的信息,便于对不同的总体进行比较,从而作出结论。 推断统计凭样本资料推断总体特征的技术和方法。推断统计是在观察样本资料的基础上深入一步地分析、研究,以推知总体的情况和数量关系,从而对不确定的事物作出判断,为决策提供依据。 推断统计类型参数估计和假设检验。 参数估计如果有关总体的某个样本的信息已经取得,所作的推断是对整个总体的某个数值作出估计。 假设检验如果有关总体的某个样本的信息已经取得,所作的推断是在几个可供选择的行动方案中进行选择,这样的问题属于检验这一类型。 描述统计与推断统计的关系描述统计是推断统计的前提,推断统计是描述统计的发展,这两方面往往是结合在一起的。 第二章 统计数据 相对指标相对指标是用两个有联系的指标进行对比的比值来反映现象数量特征和数量关系的综合指标。相对指标也称相对数。 计划完成程度相对指标计划完成相对数也称计划完成百分数,它是将某一时期的实际完成数与同期计划数 进行对比,反映计划执行情况的相对指标,一般用百分数表示。 结构相对指标结构相对数是总体内某一部分数值与总体全部数值对比的比值,反映总体内部的构成和类型特征,一般用百分数或系数表示。 比例相对指标比例相对数是将总体内某一部分数值与另一部分数值比所得到的相对数,常用系数或倍数表示。 比较相对指标比较相对数是将某一总体的指标与另一总体同类指标对比的比值,反映同类事物在不同国家、不同地区或不同单位之间的差异程度,一般用倍数或百分数表示。 强度相对指标强度相对数是将两个有联系但不同的指标对比而得到的比值,反映现象的强度、密度 和普及程度。强度相对数是一种特殊形式的相对数,一般采取复名数单位表示。 动态相对指标动态相对数是将总体不同时期的同一类指标对比而计算的比值,说明事物发展变化的程度,一般用百分数表示。通常将作为比较基础的时期称为基期,与基期对比的时期称为报告期或计算期。 平均指标平均指标是反映现象总体同类统计数据一般水平或集中趋势的综合指标,又称统计平均数。 平均指标的种类数值平均数算术平均数、调和平均数、几何平均数;位置平均数中位数、众数。 简单算术平均数根据未分组的原始统计资料,将总体各单位的标志值简单加总形成总体标志总量,而后除以总体单位总数,这种方法为简单算术平均法。 加权算术平均数根据分组整理而形成的变量数列计算算术平均数的方法,称为加权算术平均数。 调和平均数调和平均数也称“倒数平均数”,是各数据倒数的算术平均数的倒数。 中位数中位数是将总体中的统计数据按大小顺序排列,处于中间位置的那个数据,就是中位数。当数据个数为偶数时,其中间位置的数值有两个,此时取这两个数的算术平均数为中位数。 众数众数是指总体中出现次数最多的标志值,它能够鲜明地反映数据分布的集中趋势。 变异指标测定离散趋势的指标就叫做变异指标。 极差极差也称全距,是指总体分布中最大数据与最小数据之差。 平均差平均差是各数据值与其平均数的绝对离差的算术平均,通常以A.D表示。 标准差标准差是总体各数据值与其平均数离差平方平均数的平方根,亦称均方差。 方差标准差的平方称为方差。 离散系数 对于具有不同水平的两个总体不能直接用平均差或标准差来比较其数据离散程度的大小,应消除平均数不同和计量单位不可比的影响,而应计算相应的离散系数,以相对数的形式来比较。 统计数据统计数据是总体或总体单位某一数量特征的具体表现,是统计工作的成果。统计数据有原始数据和综合数据之分。 原始统计数据原始统计数据产生于统计调查阶段,主要是说明总体单位特征的,通常称为标志值; 综合统计数据经过统计整理以及相应的汇总计算后形成的数据,用以说明总体特征,通常称为统计指标。 统计调查根据统计研究的目的和任务,按照统计设计所确定的统计指标和统计分组,采用科学的方法,有计划地搜集大量原始数据资料的过程。 原始数据资料直接从各调查单位搜集的,尚待加工整理而过渡到综合数据的个体资料,亦称初级资料。 统计调查任务取得准确、及时、全面、系统的原始数据资料,为反映现象总体特征及其发展变化规律提供必要的信息。 统计调查的重要性 统计调查是整个统计认识活动的基础,决定着统计认识过程及其结果的成败。如果在统计调查阶段,在搜集原始资料时出现较大差错,或者资料零碎不全,以后的统计整理无论怎样认真,统计分析方法无论怎样先进,都不会得到正确的认识。 统计调查的种类 1.按调查的组织方式不同,可以分为统计报表调查和专门调查。 2.按调查对象中被调查单位的范围不同,分为全面调查和非全面调查。 3.按调查时间是否连续,分为经常性调查和一次性调查。 统计报表按照国家统一规定的表式要求,自下而上地提供统计资料的一种调查方式。这种统计调查方式在我国已经成为一种报告制度。 专门调查为了究某种情况或某个问题而专门组织的调查,如人口情况调查、就业情况调查、市场上某种商品的质量调查等等。 全面调查对调查对象的全部单位无一例外地进行调查。 非全面调查对调查对象中的一部分单位进行调查,主要有重点调查、典型调查和抽样调查。 经常性调查为了观察总体现象在一段时间内数量变化的累计结果,这类数量变化与时间的长短有直接关系,如产品产量调查、能源消耗调查、市场商品零售情况调查等。 一次性调查为观察总体现象在某一时点的状态,其数值大小与时间间隔的长短没有直接的关系,如人口普查、耕地数量调查、商品库存调查等。 统计报表制度统计报表制度是社会主义国家所特有的一种以全面调查为主的调查方式,它是由政府主管部门根据统计法规,以统计表格形式和行政手段自上而下布置,而后由企、事业单位自下而上层层汇总上报的统计报告制度。它的任务是经常地、定期地搜集反映国民经济和社会发展基本情况的资料,为各级政府和有关部门制定国民经济和社会发展计划,以及检查计划执行情况服务。 普查国家为了详尽地了解某项重要的国情国力而专门组织的一次性全面调查。 重点调查重点调查是专门组织的一次性非全面调查。它是在所要调查的总体中选择一部分重点单位进行调查,用以反映总体基本情况的一种非全面调查。 重点单位重点调查中的重点单位虽然只是全部单位中的一小部分,但从调查所关心的某项标志值来看,这些单位的标志值在总体标志总量中占有较大的比重,能起到反映总体基本情况的作用。 典型调查典型调查是专门组织的一次性非全面调查。它是在对调查对象有一定了解的基础上,有意识地选择少数典型单位进行的调查。 典型单位典型调查中的典型单位的某种数量表现最具普遍意义,最有代表性,可以用于对总体数量的推断。 抽样调查抽样调查是以概率论和数理统计的理论为基础,按照随机原则从调查对象中抽出一部分样本单位进行调查,再用样本资料推算总体数值的一种非全面调查方式。 随机原则是指样本单位的抽取不受任何主观因素及其他系统性因素的影响,每个总体单位都有相等的被抽中的机会。 抽样调查优点按随机原则抽取样本单位;目的是对总体数量特征进行推断;抽样误差可以事先计算并加以控制。 抽样调查的应用 某些不可能进行全面调查的情况。 某些虽然可能取得全面资料,但不必进行全面调查的情况。 对全面调查的资料进行验证和修正。 对于要求资料及时性很强的事物,如产品的验收检查、农作物收割前产量预计和其他应急的社会问题的调查等,也只有采用抽样调查才能满足需要。 抽样调查的组织方式基本的抽样组织方式有简单随机抽样、类型抽样、等距抽样、整群抽样等。 简单随机抽样又称纯随机抽样。它是对总体单位逐一编号,然后按随机原则直接从总体中抽出若干单位构成样本。 分层抽样又称分类抽样或类型抽样。它是按与调查目的有关的某个主要标志将总体单位划分为若干层,然后从各层中按随机原则分别抽取一定数目的单位构成样本。 等距抽样也称机械抽样或系统抽样。它是先将总体单位按某一标志排队,计算出抽样间隔,并在第一个抽样间隔内确定一个抽样起点,再按固定的顺序和间隔来抽取样本单位。 整群抽样也称集团抽样。它是将总体全部单位分为若干部分每一部分称为一个群体,简称群,然后按随机原则从中抽取一部分群体,抽中群体的所有单位构成样本。整群抽样对抽中群体内的所有单位进行全面调查,而未抽中群体的单位一概不调查。 我国统计调查方法体系改革的目标模式建立以周期性普查为基础,以经常性的抽样调查为主体,以必要的统计报表、重点调查、综合分析等为补充,搜集、整理基本统计资料的统计调查方法体系。 统计调查的技术方法直接观察法;问卷调查法、报告法、采访法 直接观察法由调查人员到现场对调查对象亲自进行观察和计量以取得原始资料的一种调查方法。 问卷调查法以发放问卷调查表的方式提问,由被调查者自愿回答而取得原始资料的一种调查方法。 报告法由被调查者根据原始记录和核算资料,按照统计调查机关统一颁发制定的表格和规定的程序要求,以信函、传真、计算机网络等方式向上级报送统计资料的方法。 采访法调查人员根据拟定的调查项目,通过面对面的询问,或者通过电话、互联网等方式对被调查者进行采访,从而取得原始资料的一种调查方法。 统计整理根据统计研究的需要,将统计调查阶段所搜集到的大量个体资料进行科学的分类汇总、加工处理,或对已经经过加工的次级资料再加工,使之系统化、条理化,成为能够反映事物总体特征的综合资料的过程。 统计整理的作用统计整理是从统计调查到统计分析的中间环节,是统计调查的继续,统计分析的前提和基础。 统计整理的内容 统计数据的处理即统计资料的分组、汇总、制表; 统计数据的管理即数据的传输、贮存、更新、输出。 统计整理的步骤各种各样的统计整理都应经过以下四个步骤 制定统计整理方案 对原始资料进行审核 数据处理 编制统计表或绘制统计图 统计分组统计分组是根据统计研究的需要,将总体中的所有单位按照一定的标志分为性质不同但又有联系的若干部分。 统计分组的作用 第一,划分社会经济现象的类型; 第二,反映社会经济现象的内部结构和比例关系; 第三,揭示社会经济现象之间的相互依存关系。 统计分组的原则 1科学性原则统计分组一定要从统计研究的目的出发,使组与组之间在某一方面具有显著的差异,而组内各单位在该方面具有同质性。要实现这一原则,关键是正确选择分组标志和正确划定分组界限。 2完备性原则它是指任何一个总体单位或任何一个原始数据都能归属于某一个组,而不会遗漏在外。 3互斥性原则亦称不相容性原则,是指任何一个总体单位或任何一个原始数据,在一种统计分组中只能归属于某一个组,而不能归属于两个或两个以上的组。 分布数列将总体各单位按某个标志分成若干组,列出各组的总体单位数或各组单位数在总体中所占的比重,这样形成的数列称为分布数列。 频数分布在各组的单位数,又称次数; 频率各组单位数在总体中所占的比重,是频数的相对数表现形式。 分布数列的作用分布数列是统计整理结果的基本表现形式,是统计描述和统计分析的重要工具。它可以表明总体的分布特征、结构,并据以研究总体单位某一标志的平均水平及其变异程度。 分布数列的基本要素一是分组标志的具体表现;二是各组次数或频率。 频率与概率如果把分组标志的各种具体表现看成是随机变量的不同观测值,对应的频率大体相当于出现该观测值的概率,则分布数列类似于概率论与数理统计中离散变量的概率分布。 分布数列的种类根据分组标志不同,分布数列可以分为品质分布数列和变量分布数列两种。 品质分布数列简称品质数列,是按品质标志分组而形成的分布数列,由各组名称和各组次数构成。 变量分布数列简称变量数列,是按数量标志分组而形成的分布数列,由各组的变量值及其相对应的次数构成。 组距数列组距数列每组的变量值通常不止一个,数列中用区间给出变量值的变化范围,区间的长度称为组距。组距数列按各组组距是否相等又分为等距数列和异距(不等距)数列。 统计表把经过调查、整理、汇总、计算而得到的统计数据按一定的结构和顺序,系统地排列在一定的表格以内,就形成了统计表。统计表是统计资料最广泛的表现形式。 统计表的构成从形式上看,统计表由总标题、横行标题、纵栏标题和数字资料等要素构成。 统计表的类型根据统计表的主词是否分组和分组类别,可分为简单表、分组表和复合表三种。 简单表是未经分组的统计表,通常用以表现三种数列资料,即时间数列、空间数列和指标系列 分组表是主词按某一标志进行分组的统计表,(有表) 复合表是主词按两个或两个以上标志进行复合分组的统计表。 直方图它是在平面坐标上以横轴表示各组组距,纵轴标示各组频数的条形图,用以直观地说明离散型变量数列的分布特征。 折线图折线图可以在直方图基础上,将每个长方形的顶端中点用折线连接而成,或用组中值与频数求坐标点连接而成。 曲线图当变量值非常多,变量数列的组数无限增多时,折线便趋于一条平滑的曲线,这是一种概括描述变量数列分布特征的理论曲线。曲线图是连续型随机变量频数分布常用的形式。 相对指标相对指标是用两个有联系的指标进行对比的比值来反映现象数量特征和数量关系的综合指标。相对指标也称相对数。 计划完成程度相对指标计划完成相对数也称计划完成百分数,它是将某一时期的实际完成数与同期计划数 进行对比,反映计划执行情况的相对指标,一般用百分数表示。 结构相对指标 结构相对数是总体内某一部分数值与总体全部数值对比的比值,反映总体内部的构成和类型特征,一般用百分数或系数表示。 比例相对指标比例相对数是将总体内某一部分数值与另一部分数值比所得到的相对数,常用系数或倍数表示。 比较相对指标 比较相对数是将某一总体的指标与另一总体同类指标对比的比值,反映同类事物在不同国家、不同地区或不同单位之间的差异程度,一般用倍数或百分数表示。 强度相对指标 强度相对数是将两个有联系但不同的指标对比而得到的比值,反映现象的强度、密度 和普及程度。强度相对数是一种特殊形式的相对数,一般采取复名数单位表示。 动态相对指标 动态相对数是将总体不同时期的同一类指标对比而计算的比值,说明事物发展变化的程度,一般用百分数表示。通常将作为比较基础的时期称为基期,与基期对比的时期称为报告期或计算期。 平均指标平均指标是反映现象总体同类统计数据一般水平或集中趋势的综合指标,又称统计平均数。 平均指标的种类 数值平均数算术平均数、调和平均数、几何平均数; 位置平均数中位数、众数。 简单算术平均数 根据未分组的原始统计资料,将总体各单位的标志值简单加总形成总体标志总量,而后除以总体单位总数,这种方法为简单算术平均法。 加权算术平均数 根据分组整理而形成的变量数列计算算术平均数的方法,称为加权算术平均数。 调和平均数 调和平均数也称“倒数平均数”,是各数据倒数的算术平均数的倒数。 中位数 中位数是将总体中的统计数据按大小顺序排列,处于中间位置的那个数据,就是中位数。当数据个数为偶数时,其中间位置的数值有两个,此时取这两个数的算术平均数为中位数。 众数 众数是指总体中出现次数最多的标志值,它能够鲜明地反映数据分布的集中趋势。 变异指标 测定离散趋势的指标就叫做变异指标。 极差 极差也称全距,是指总体分布中最大数据与最小数据之差。 平均差 平均差是各数据值与其平均数的绝对离差的算术平均,通常以A.D表示。 标准差 标准差是总体各数据值与其平均数离差平方平均数的平方根,亦称均方差。 方差 标准差的平方称为方差。 离散系数 对于具有不同水平的两个总体不能直接用平均差或标准差来比较其数据离散程度的大小,应消除平均数不同和计量单位不可比的影响,而应计算相应的离散系数,以相对数的形式来比较。