第八章 分析实验数据处理 8_1.pdf
8-1 数据的特征及分布8-1 数据的特征及分布 一、数理统计的某些基本概念一、数理统计的某些基本概念 1、总体与样本1、总体与样本 总体 被研究对象某特性值的全体。 个体 组成总体的每个单元。 样本(子样) 自总体中随机抽取的一部分个体。 样 本 容 量 样本中所包含个体的数目,用 总体 被研究对象某特性值的全体。 个体 组成总体的每个单元。 样本(子样) 自总体中随机抽取的一部分个体。 样 本 容 量 样本中所包含个体的数目,用n n表示表示。 2、随机变量、随机变量 来自同一总体的无限多个测量值都是随机出现的, 叫随机变量。 多次重复测定的结果不能相同,也不能事先知道。 测量值一经取定就是一个常量,不再有随机性 来自同一总体的无限多个测量值都是随机出现的, 叫随机变量。 多次重复测定的结果不能相同,也不能事先知道。 测量值一经取定就是一个常量,不再有随机性。。 第八章分析实验数据处理第八章分析实验数据处理 二、二、随机变量的频数分布随机变量的频数分布 〈 例 〉〈 例 〉 学 生 测 定学 生 测 定 BaCl22H2O 试 剂 中试 剂 中 Ba 含 量 ( 含 量 ( ) , 共 有) , 共 有 190 个 数 据 , 区 间 为个 数 据 , 区 间 为 55.48- 56.46。将这些数据按组距。将这些数据按组距0.1来分成来分成10组。组。 频数频数每组中数据的个数每组中数据的个数 相对频数相对频数频数在总测定 次数中所占的分数 以各组区间为底相对频数 为高做成一排矩形的相对 频数分布直方图 频数在总测定 次数中所占的分数 以各组区间为底相对频数 为高做成一排矩形的相对 频数分布直方图 其特点其特点 1. 离散特性离散特性 测定值在平均值周围波动, 波动的程度用总体标准偏差表示 测定值在平均值周围波动, 波动的程度用总体标准偏差表示 n x n i i∑ − 1 2 σ 2. 集中趋势集中趋势向平均值集中向平均值集中 ∑ ∞→ n i i n x n 1 1 lim总体平均值 总体标准偏差 总体平均值 总体标准偏差 在确认消除系统误差的前提下,总体平均值就是真 值。 在确认消除系统误差的前提下,总体平均值就是真 值。 三、 随机变量的正态分布三、 随机变量的正态分布 当数据无限多,组分的很细时,上述直方图 则变成一条圆滑的曲线,称为 当数据无限多,组分的很细时,上述直方图 则变成一条圆滑的曲线,称为正态分布正态分布。其数学 表达式称为 。其数学 表达式称为正态分布密度函数正态分布密度函数 2 2 2 e π2 1 σ σ − − x xf 其两个重要参数 为其两个重要参数 为 、、σ σ, 记为, 记为 N 、、σ σ2, 决定曲线在决定曲线在x轴的位置,轴的位置,σ σ 决定曲线的形状决定曲线的形状 σ σ小→曲线高、陡峭、 精密度好; 小→曲线高、陡峭、 精密度好; σ σ大→曲线低、平坦、 精密度差。 大→曲线低、平坦、 精密度差。 随机误差符合正态分布随机误差符合正态分布 1.大误差出现的几率小,小误差出现的几率大。 2.绝对值相等的正负误差出现的几率相等。 3.误差为零的测量值出现的几率最大。 1.大误差出现的几率小,小误差出现的几率大。 2.绝对值相等的正负误差出现的几率相等。 3.误差为零的测量值出现的几率最大。 所有测量值出现的概率总和应为1,即所有测量值出现的概率总和应为1,即 1de π2 1 , 2 2 2 ∞−∞ − − ∞ ∞− ∫ xP x σ σ 求变量在某区间出现的概率,即对该区间求积分求变量在某区间出现的概率,即对该区间求积分 xbaP x b a de π2 1 , 2 2 2 σ σ − − ∫ 对于不同的对于不同的、σ、σ有不同的 曲线,积分比较麻烦,为 简化做数学上的变量转 换,令 有不同的 曲线,积分比较麻烦,为 简化做数学上的变量转 换,令 σ − x u 将上式两端微分得将上式两端微分得σ σdudx uufuxxf u d de π2 1 d 2 2 − 此时正态分布转换为标准 正态分布,记为 此时正态分布转换为标准 正态分布,记为N0,12。。 99.74 积分已被做成概率积分表积分已被做成概率积分表uP uu de π2 1 2 0 2 − ∫ u x -μμ x P u1 σ -σ σ P6826. 03413. 0268.26 u2 σ2 -2σ 2σ P9546. 04773. 0295.46 u 3 σ3 -3σ 3σ P9974. 04987. 0299.74 按照正态分布按照正态分布x在区间在区间 -0.5σ σ, 1.5σ σ出现的概率 解 根据 出现的概率 解 根据 σ x u − 可将可将 -0.5σ ≤σ ≤x ≤≤1.5σ σ变换为变换为 -0.5≤≤u ≤≤1.5 查表查表 u0.5 时 面积为时 面积为0.1915 u1.5 时 面积为时 面积为0.4332 则则-0.5≤≤u ≤≤1.5的总面积即为的总面积即为x在区间在区间 - 0.5σ σ, 1.5σ σ出现的概率出现的概率 P 0.1915 0.43320.6247 8-2 总体平均值的估计8-2 总体平均值的估计 一、平均值的标准偏差一、平均值的标准偏差 多个样本有多个平均值多个样本有多个平均值 1 x 2 x n x、、 ... 也遵循正态分布 根据数学推导 也遵循正态分布 根据数学推导 n S S x n σ σ x 由此可见增加测定次数 可使平均值的标准偏差 减小,一般分析工作平 行测定 由此可见增加测定次数 可使平均值的标准偏差 减小,一般分析工作平 行测定4-6次即可。次即可。 二、置信区间与置信度二、置信区间与置信度 置信度做某种判断的把握性,用置信度做某种判断的把握性,用P表示。 置信区间在一定的概率下,以测量值为中心 包含总体平均值在内的区间。 表示。 置信区间在一定的概率下,以测量值为中心 包含总体平均值在内的区间。 若若x落在以落在以 为中 心 为中 心1.96σ σ为半长的区 间里,那么以这个 为半长的区 间里,那么以这个x 值为中心,值为中心,1.96σ σ为 半长的区间必然将 为 半长的区间必然将 包含在内。一切可能 的区间里有 包含在内。一切可能 的区间里有95的区 间包含有 的区 间包含有 。。 P 90 u1.64μμx1.64σσ 95 u1.96 μμx1.96σσ 99 u2.58μμx2.58σσ 置信度太高无意义,太低不可信,一般 定为 置信度太高无意义,太低不可信,一般 定为90 或或95。。 n次测定总体平均值的置信区间为次测定总体平均值的置信区间为 n σ ux 置信区间表示如下置信区间表示如下 uσx ((u是由所定概率决定的)是由所定概率决定的) 三、显著性水平三、显著性水平 表示测定值落在置信 区间以外的概率, 用 表示测定值落在置信 区间以外的概率, 用α α表示,表示,α α1-P 已知测定已知测定NaCl试剂中试剂中Cl含量方法的标准偏差含量方法的标准偏差 σ σ0.05,若分析结果为,若分析结果为60.60,计算,计算95置信度 时总体平均值的置信区间,若( 置信度 时总体平均值的置信区间,若(a)此结果为单次 测定( )此结果为单次 测定(b)此结果为四次测定的平均值。)此结果为四次测定的平均值。 解 单次测定 四次测定 解 单次测定 四次测定 10. 060.6005. 096. 160.60uσx 05 . 0 60.60 4 05 . 0 96 . 1 60.60 n σ ux 四、少量实验数据的统计处理四、少量实验数据的统计处理 如果只做如果只做n次测量,次测量,σ σ不知道 ,用不知道 ,用S代替代替σ σ, 要想得到同样的置信度,必须用一个比 , 要想得到同样的置信度,必须用一个比u大的因 子 大的因 子t代替代替u,随着测定次数,随着测定次数n的增加,的增加,t趋于趋于u 用用t代 替 代 替u得到得到t分布分布 t t因子因子 t t分布曲线与自由度 分布曲线与自由度 f f n n-1有关-1有关 n S x t − 总体平均值的置信区间 其中 总体平均值的置信区间 其中 tα α,f与置信度(用与置信度(用α α表示)和自由度有关, 可查书上的 表示)和自由度有关, 可查书上的t 表(双侧表)。表(双侧表)。 n S tx 测某测某Cu矿中矿中Cu含量的四次结果分别为含量的四次结果分别为 40.53,,40.48,,40.57,,40.42 求求90,, 95 置信水平时总体平均值的置信区间。置信水平时总体平均值的置信区间。 解解S0.06 查表查表P90 时时t 0.10 , 3 2.35 50.40x 07. 050.40 4 06. 0 35. 250.40 n S tx 查表查表P95 时时t 0.05 , 33.18 10. 050.40 4 06. 0 18. 350.403 ,05. 0 n S tx 由此可见置信度越高,置信区间越 大。 由此可见置信度越高,置信区间越 大。 若为若为6次测定的平均值, 则 次测定的平均值, 则 t 0.05 , 52.57 06. 050.40 6 06. 0 57. 250.405 ,05. 0 n S tx x 8-3 显著性检验显著性检验 提出原假设提出原假设H0 二者无显著性差异,二者相等, 差异是由随机误差造成的,来自同一总体。 备择假设 二者无显著性差异,二者相等, 差异是由随机误差造成的,来自同一总体。 备择假设H1 二者不等(或大,或小)。二者不等(或大,或小)。 确定是单侧检验还是双侧检验,决定用什么样的 表,或换算。 确定是单侧检验还是双侧检验,决定用什么样的 表,或换算。 选定检验统计量,决定检验方法。选定检验统计量,决定检验方法。 选定显著性水平,查出表值。选定显著性水平,查出表值。 由样本值计算统计量,与表值比较,小于表值 接受原假设,大于表值拒绝原假设而接受备择假 设。 由样本值计算统计量,与表值比较,小于表值 接受原假设,大于表值拒绝原假设而接受备择假 设。 一、显著性检验的步骤一、显著性检验的步骤 二、二、u 检验法检验法 已知已知σ σ,比较与,比较与 x统计量统计量 n σ x u − 某钢铁厂在生产正常的情况下产品含碳量服从某钢铁厂在生产正常的情况下产品含碳量服从N 4.55, 0.112,某天某炉铁水含碳量(,某天某炉铁水含碳量()的分析结果为)的分析结果为4.48, 4.40, 4.45, 4.46 , 4.50, 问这炉铁水是否正常(问这炉铁水是否正常(P95)。 解 )。 解 H0 x , ,H1 x≠≠ ,此题为双侧检验,使用,此题为双侧检验,使用 u表。表。 查表查表α α0.05时,时,u 0.051.96。 求得。求得 x 4.46 表 u n σ x u − − 24. 2 5 01. 0 14. 013. 0 有有95把握认为改革后杂质把握认为改革后杂质Fe含量降低。 有显著性差异 含量降低。 有显著性差异 t表为双侧表,查表为双侧表,查α α0.10表,得表,得t0.10,42.13 解解 H0 x H1 xS S2 ) 2 ) 某试样用两种方法测定,结果如下 某试样用两种方法测定,结果如下 方法方法 1 方法方法 2 5 10. 0 34.32 1 1 1 n S x 6 16. 0 54.32 2 2 2 n S x 试比较与是否有显著性差异(P90)试比较与是否有显著性差异(P90) 1 x 2 x 解先比较解先比较S1与与S2,,H0 S1S2H1 S1≠≠S2 双侧检验,选定双侧检验,选定α α 0.10 查表查表F0.05,5,46.26 26. 656. 2 10. 0 16. 0 2 2 2 1 2 2 − − 36. 2 65 65 14 . 0 54.3234.32 21 21 21 有90的把握认为两种方法间有系统误差有90的把握认为两种方法间有系统误差 五、可疑值取舍五、可疑值取舍 1、格鲁布斯(Grubbs)法1、格鲁布斯(Grubbs)法 数据由小到大排列求出与数据由小到大排列求出与S S S xx T 1 − 统计量统计量 x (x1为可疑 值) 或(xn为可疑值) (x1为可疑 值) 或(xn为可疑值) S xx T n − 将统计量值与表值将统计量值与表值T Tα,n比较, α,n 比较, T T计 计 T T表 时舍弃 表 时舍弃 一产品中杂质含量为1.25,1.27,1.31,1.40, 问1.40是否保留( 一产品中杂质含量为1.25,1.27,1.31,1.40, 问1.40是否保留(P P95)。95)。 解解 31. 1 4 40. 131. 127. 125. 1 x 34. 1 067. 0 31. 140. 1 − T 查表查表T T0.05,41.46 0.05,41.46 T TQ表舍弃 表 舍弃 上例中的1.40是否保留(置信度90)。 上例中的1.40是否保留(置信度90)。 60. 0 25. 140. 1 31. 140. 1 1 1 − − − − − xx xx Q n nn 计 查表查表Q 0.90,4 0.76 Q计计 Q表应保留 表 应保留 离解常数、形成常数、逐级累积形成常 数、总反应平衡常数、分布系数、副反 应系数、条件常数 离解常数、形成常数、逐级累积形成常 数、总反应平衡常数、分布系数、副反 应系数、条件常数 可行性判据、化学计量点、滴定突跃、 滴定误差、指示剂作用原理、常用指示 剂、标准溶液、应用实例、含量计算 可行性判据、化学计量点、滴定突跃、 滴定误差、指示剂作用原理、常用指示 剂、标准溶液、应用实例、含量计算 沉淀的形成、沉淀的纯度、沉淀的条件沉淀的形成、沉淀的纯度、沉淀的条件 总 结总 结 分离方法的原理(萃取)、应用分离方法的原理(萃取)、应用 比耳定律、光度法的准确度、应用(定 量、常数测定) 比耳定律、光度法的准确度、应用(定 量、常数测定) 误差、偏差误差、偏差d,Sd,S、提高准确度的方 法、有效数字 、提高准确度的方 法、有效数字 正态分布、置信区间、显著性检验正态分布、置信区间、显著性检验