分析误差与数据处理讲稿.pdf
第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 第二章 误差与数据处理 1、内容提要 有关误差的基本概念 误差产生的原因及出现的规律 提高分析结果准确度的方法 2、重点与难点 准确度与精密度 误差与偏差 系统误差与随机误差 正态分布与 t 分布 概率密度与置信区间 显著性检验 3、教学目标 了解误差的来源与分类 掌握准确度与精密度的表示方法 掌握总体平均值的置信区间概念 掌握随机误差的分布规律 掌握显著性检验的方法 掌握提高准确度的基本方法 掌握有效数字的修约规则和运算规则 了解误差传递的方式 了解一元线性回归分析的原理与方法 2 2. .1 1 有有关关误误差差的的一一些些基基本本概概念念 分析化学中的误差是客观存在的。 例如,设有一铁的标准样品,其含铁的标准值为 T。对这一铁标准样品进行分析,即使采 用最可靠的方法,使用最精密的仪器,由最有经验的分析工作者进行测定,所得的结果也不 可能与 T 完全一致;由同一有经验的分析人员对同一样品进行多次分析,所得的结果也不 可能完全一致。 1 第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 1、准确度 准确度表征测定结果与真实值的符合程度。准确度的高低用误差来衡量。测量值 与真实值之间差别越小,则分析结果的准确度越高。 2、精密度 精密度表征几次平行测量值相互符合程度。精密度的高低用偏差来衡量。平行测 定所得数据间差别越小,则分析结果的精密度越高。 3、精密度与准确度的关系 例A、B、C、D四个分析人员对同一铁标样(wFe37.40)中的铁含量进行测量, 结果如图示,比较其准确度和精密度 精密度与准确度的关系可表示为 1.精密度是保证准确度的前提; 2.精密度高,不一定准确度高 4 系统误差 系统误差是由某种固定的原因造成的误差。具有重现性,系统误差的正负、大小 都有一定的规律性。在理论上讲是可以测定的,又称可测误差。系统误差存在与否 决定分析结果的准确度。 1.方法误差,由分析方法自身不足所造成的误差。如,重量分析法中,沉淀的溶解 度大,沉淀不完全引起的分析结果偏低;滴定分析中,指示剂选择不适合,滴定终 点与化学计量点不符合引起的误差。 2.仪器误差,由测量仪器自身的不足所引起的误差。如,容量仪器体积不准确; 分光光度计的波长不准确。 3.试剂误差,由于试剂不纯引起的误差。如,试剂和蒸馏水含有待测组分,使测定 2 第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 结果系统偏高。 4.操作误差 由分析人员的主观原因造成的误差。如分析人员掌握的分析操作与正 确的分析操作有差别;分析人员对颜色敏感度的不同等。 5、随机误差亦称偶然误差 随机误差是由某些不确定的偶然的因素引起的误差。 例如,测量时环境温度、湿度和气压的微小波动;仪器电源的微小波动;分析人员 对各份试样处理的微小差别等。 随即误差的正负、大小都不预见,也称不可测误差。随机误差的出现符合统计规 律。随机误差的大小决定分析结果的精密度。 6、总体与样本 在统计学中,对于所考察的对象的全体,称为总体(或母体) 。从总体中随机抽出 的一组测量值,称为样品(或子样) 。样品所含测量值的数目,称为样本容量(或大 小) 。 例如,对某批矿石中的镍含量进行分析,经取样、破碎、过筛、混匀、缩分后, 得到一定数量 (例如 500 g) 的试样供分析用。 这就是分析试样, 是供分析用的总体。 如果分析人员甲和乙分别从中称取 3 份和 4 份进行平行分析,分别得到 3 个和 4 个 测量值,则这两组分析结果就是矿石分析试样总体的两个随机样本,样本容量分别 为 3 和 4。 7、真值 某一物理量本身具有的客观存在的真实值。其值是未知的、客观存在的量,在特 定情况下认为是已知的 1 理论真值(如化合物的理论组成) ; 2 计量学约定真值(如国际计量大会确定的长度、质量、物质的量单位等等) ; 3 相对真值(如高一级精度的测量值相对于低一级精度的测量值) 。 8、平均值 样本容量为n的一组测量数据的算数平均值为 9、中位数 一组测量数据按大小顺序排列,中间一个数据即为中位数xM。当测量值的个数为 偶数时,中位数为中间相邻两个测量值的平均值。 10、误差 对真值为 T 的分析对象总体随机抽取一个样本进行 n 次测量。 3 第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 1 个别测量值的误差为 Eixi-T ; 2 实际上,通常用各次测量结果的平均值表示测定结果,测定结果的绝对误差 为 Ea-T; 3 测量结果的相对误差为 。 11、极差(R) 式中,xmax和xmin分别为测量数据中的最大值和最小值。 12、相对极差(RR) 13、公差 公差是生产部分对于分析结果允许误差的一种表示方法。 如果分析结果超出允许 的公差范围,称为超差,该项分析工作必须重做。 如,对钢中硫含量分析的允许公差范围规定如下 硫的质量分数% ≤0.020 0.020∼0.0500.050∼0.1000.100∼0.200 ≥0.200 公差 (绝对误差) % 0.002 0.004 0.006 0.010 0.015 14、偏差与标准偏差 样品容量为 n 的一组测量数据; 1 各次测量值的偏差为 xxd ii − 4 第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 2 个别测量值的平均偏差为 ; 3 个别测量值的相对平均偏差为 ; 4 样本的标准偏差为 式中(n - 1)称为自由度,以 f 表示。自由度 f 是指计算一组测量数据分散程度的 独立偏差数; 5 样本的相对标准偏差,亦称变异系数(CV) 。 16、总体标准偏差 当测量次数为无限多次时,各测量值对总体平均值 μ 的偏离,用总体标准偏差 σ 表示, 17、总体平均值 当测量次数为无限多次时,所得的平均值为总体平均值 μ, 若没有系统误差,则总体平均值 μ 就是真值 T。 18、总体平均偏差 当测量次数为无限多次时,单次测量的平均偏差为 19、平均值的标准偏差 5 第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 当测量次数无限增多 (或实际上 n 30 ) 时, 单次测量值 xi 的偏差为 σi xi - μ 求各次测量值的偏差和,得 是平均值对总体平均值的偏离,即为平均值的总体标准偏差。 故 上式表明,测定的平均值的偏差等于各测量值偏差求平均值。当测定次数趋于无 穷大时,正、负误差互相抵消, 计算平均值的偏差的平方,有 根据误差分布规律,上式二倍乘积的各项有不同的符号以及相对称的两项其绝对 值相等,因而其代数和趋于零,上式变为 即平均值的总体标准偏差为单次测定的总体标准误差除以测定次数的平方根。 对有限次测量,则为 6 第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 平均值的标准偏差与测定次数的关系 增加测定次数,可以提高测量的精密度,但增加测定次数的代价不一定能从减小 误差得到补偿。在分析化学实际工作中,一般平行测定 46 次就已足够。 20、有效数字 有效数字就是实际上能测到的数字,其最后一位是可疑数字。例如,读取滴定管上 的刻度,三个学生可能得不同的读数。 甲 22.42 ml 乙 22.43 ml 丙 22.41 ml 这三个测量数据中,前三个数字都是准确的,第四位是估计出来的,所以稍有差 别,称为可疑数字。这三个测量数据的有效数字都是 4。 (1).数字的修约规则 各测量值的有效数字位数确定后,就要将它后面多余的数字舍弃。舍弃多余数字 的过程称为“数字修约”,目前一般采用“四舍六入五成双”规则。 “四舍六入五成双”规则规定,当测量值中被修约的那个数字等于或小于 4 时,该数 字舍弃;等于或大于 6 时,进位;等于 5 时,如进位后末位数为偶数则进位,进位 后末位数为奇数则舍弃。根据这一规则,将下列测量值修约为两位有效数字时,结 果应为 3.148 3.1 ; 7.397 7.4 ; 0.736 0.74 ; 75.5 76 (2).数据的计算规则 数据的计算规则,是根据误差的传递规律而确定的。 加减法 是各个测量值绝对误差的传递, 绝对误差最大的测量值的绝对误差决 定了分析结果的不确定性。因此,求几个测量值的代数和时,有效数字位数的保留, 7 第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 应以小数点后位数最小的数为依据。 乘除法 是各个测量值相对误差的传递, 结果的相对误差应与各测量值中相对误 差最大的那个数相适应。因此,在乘除法运算中通常根据有效数字位数最少的数来 进行修约。 2 2. .2 2 随随机机误误差差的的分分布布随机误差是由一些偶然的因素造成的,其大小、正负 具有随机性,服从一定的统计规律。 2.2.1 频率分布 某校的学生对海水中的卤素含量进行测定,得到 由于测定过程中存在随机误差,测量值有高有低,具有分散性。将测量值按大小 顺序排列,由最大值和最小值可知测量值落在 16.19gL-115.84 gL-1范围。如果 按组距 0.03 gL-1。将 198 个测量值分组,每组中数据出现的个数称为频数ni, 频数除以测量值总数n称为频率ni /n, 频率除以组距△S称为频率密度ni/n△S, 以频率密度对相应组值范围作图,就得到频率密度直方图。直接连接相邻组中值对 应的频率密度点,得到频率密度分布图。 8 第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 频数 ni) 频率 ni/n) No 分组 频率 密度 ni/ n△S 1 15.83 1.0 0.005 0.17 2 15.86 2.0 频率密度分布图直观地反映出测量数据的集中趋势。 当测量值个数 n 趋近于无穷大,组距 △S 趋近于无穷小,频率密度曲线趋近于 一条正态分布的平滑曲线。该曲线称为概率密度曲线。 2.2.2 正态分布 当测量值个数 n 趋近于无穷大,组距 △S 趋近于无穷小,频率分布曲线趋近于 一条正态分布的平滑曲线,称为概率密度曲线。 正态分布的概率密度函数式是 这样的正态分布记作 Nμ,σ, 其中,y 表示概率分布;x 表示测量值; μ 表示总体平均值,即无限次测定所得数据 0.01 0.34 3 15.89 3.0 0.02 0.51 4 15.92 9.0 0.05 1.52 5 15.95 18.0 0.09 3.03 6 15.98 33.0 0.17 5.56 7 16.01 53.0 0.27 8.92 8 16.04 38.0 0.19 6.40 9 16.07 20.0 0.10 2.37 10 16.10 12.0 0.06 2.02 11 19.13 5.0 0.03 0.84 12 16.16 3.0 0.02 0.51 13 16.19 1.0 0.01 0.17 9 第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 的平均值,表示无限个数据的集中趋势。 没有系统误差时, μ T。 σ 表示总体标准偏差, 表征无限次测定数据的分散程度。 x - μ表示随机误差,若以x - μ为横坐标,则曲线最高点横坐标为 0。这时表示 的是随机误差的正态分布。 测量值和随机误差的正态分布体现了随机误差的概率统计规律 ①小误差出现的概率大,大误差出现的概率小,特别大的误差出现的概率极小; ②正误差出现的概率与负误差出现的概率相等; ③ x μ 时,y 值最大,表明测量值向 μ 集中的趋势; ④ x μ 时, 表明数据的分散程度与 σ 有关,σ 越大,测量值的分散程度越大,正态分布曲线也就越 平坦。 思考出现图示二条正态分布曲线的可能情况是什么 10 第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 2.2.3 标准正态分布 正态分布曲线的形状随 σ 而异。 令 将正态分布的概率密度函数转换为 这样的分布称为标准正态分布,记作 N0,1。标准正态分布与 σ 无关 2.2.4 区间概率 随机误差在某一区间出现的概率(P),可以取不同的 μ 值对标准正态分布的概率 密度函数进行定积分, 正态分布概率积分表中列出的面积与图中阴影部分相对应,表示随机误差在此区 间的概率。若是求μ值区间的概率,必须乘以 2。 例如 11 第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 测量值出 现的区间 随机误差出 现的区 间以 σ 为单 位 概 率 μ1 xμ1σ 68.3 μ1.96 xμ1.96σ 95.0 μ2 xμ2σ 95.5 μ2.58 xμ2.58σ 99.0 μ3 xμ3σ 99.7 正态分布概率积分图 2.3 有限数据的统计处理2.3 有限数据的统计处理 2.3.1. t 分布 正态分布是无限次测量数据的分布规律。当测量数据不多时,其分布服从t 分布 规律。 定义 t 分布函数是 t分布曲线随自由度f而改变。当f趋近于无穷大时,t分布趋近于正态分布。 区间概率 t 分布曲线下面一定区间内的积分面积,就是该区间内随机误差出现的概率。 12 第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 不同 f 值及概率所相应的 t 值已有表可查。 表中置信度用 P 表示,它表示在 区间内出现的概率;α 称为显著性水准,表 示在 区间以外所出现的概率。 P1-α; 由于 t 值与置信度及自由度有关,一般表示为 tα,f 。 例如t0.05,10 表示置信度为 95,自由度为 10 时的 t 值。 2.3.2 置信区间 对少量测量数据,以样品平均值估计总体平均值可能存在的区间 为 。 它表示在一定置信度下,以平均值为中心,包括总体平均值μ的范围,称为总体 平均值的置信区间。 在测量次数增多(实际上时) ,总体标准偏差已知的情况下,总体平均值在 一定置信度下的置信区间为 。 例如,μ 36.86%0.10%(置信度为 95%) ,可理解为有 95%的把握说在 36.86 %0.10%区间里包含了总体平均值。 2.3.3 显著性检验 显著性检验是指对存在着差异的两个样本平均值之间、或样本平均值与总体真值之 间是否存在“显著性差异”的检验。 在实际工作中, 往往会遇到对标准样品进行测定时, 所得到的平均值与标准值 (相 对真值)不完全一致;或者采用两种不同的分析法或不同的分析仪器或不同的分析 人员对同一试剂进行分析时,所得的样本平均值有一定的差异。显著性检验就是检 13 第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 验这种差异是由随机误差引起或是由系统误差引起。如果存在“显著性差异”,就认 为这种差异是由系统误差引起;否则这种误差就是由随机误差引起,认为是正常的。 2.3.3.1 t 检验法 1.平均值与标准值的比较 根据下式计算出 t 值 从附录表中查出指定置信度下的值,并进行比较。如果,则认为存在 着显著性差异,否则不存在显著性差异。在分析化学中,通常以 95的置信度为检 验标准,即显著性水准为 5。 2.两组平均值的比较 设两组分析数据为 如证明 s1和s2之间没有显著性差异(F 检验),则可以为,用下式求得合 并标准偏差s。 或 计算 t 值, 附 录表 2-1 tα,f值表(双边) 置信度,显著性水准 f P0.09 P0.95 P0.99 α0.10 α0.05 α0.01 1 6.31 12.71 63.66 2 2.92 4.30 9.92 3 2.35 3.18 5.84 4 2.13 2.78 4.60 14 第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 5 2.02 2.57 4.03 6 1.94 2.45 3.71 7 1.90 2.36 3.50 8 1.86 2.31 3.36 9 1.83 2.26 3.25 10 1.81 2.23 3.17 20 1.72 2.09 2.84 ∞ 1.64 1.96 2.58 查附录表(总自由度 f=n n -2) 12 ,得 ,并比较。 如果, 两组平均值存在显著性差异; , 两组平均值不存在显著性差异。 2.3.3.2 F 检验 F 检验是通过比较两组数据的方差,以确定它们的精密度是否有显著性差异的 方法。按下式计算 F 值, 式中,和分别代表两组数据中自由度大的方差和小的方差。 查附录表 22,的值,并比较,如果 则认为两组数据的精密度之间存在显著性差异(置信度为 95%),否则不存在显 著性差异。 附录表 所列 F 值用于单边检验时,即检验某组数据的精密度是否大于或等于另 一组数据的精密度,此时置信度为 95%(显著性水平为 0.05)。而用于判断两组数 据的精密度是否有显著性差异时,即一组数据的精密度可能大于,等于,也可能小 于另一组数据的精密度时,显著性水平为单边检验时的两倍,即 α0.10,因而此时 的置信度 (90) 附 录 表 2-2 置信度为 95 的 F 值(单边) f大 2 3 4 5 6 7 8 9 10 ∞ 15 第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 f小 2 19.00 19.16 19.25 19.30 19.33 19.36 19.37 19.38 19.39 19.50 3 9.55 9.28 9.12 9.01 8.94 8.88 8.84 8.81 8.78 8.53 4 6.54 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.63 5 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.78 4.71 4.36 6 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.67 7 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.63 3.23 8 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.34 2.93 9 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.13 2.71 10 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.97 2.54 ∞ 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83 1.00 2.3.4 离群值的取舍 一组分析测量数据中的异常值的取舍,可按统计学方法进行处理。 2.3.4.1 格鲁布斯Grubbs法 有一组数据,从小到大排列为 x1 , x2 , xn-1 , xn 其中x1或xn可能是异常值。 统计量 T 定义为 (x1为可疑值) 或 (xn为可疑值) 从附录表中查出指定显著性水平T 的Tα,n值,并进行比较。 如果 T计算 Tα,n , 则异常 值应舍去,否则应保留 2.3.4.2 Q 检验法 有一组数据,从小到大排列为 x1 , x2 , xn-1 , xn 统计量 Q 定义为 16 第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 或 Q 称为“舍弃商”。 从附录表中查出指定置信度下的 Qp,n值,并进行比较,如果 Q计算 Qp,n,该异常 值应舍弃,否则应予保留。 2.4. 误差的传递误差的传递 分析结果通常是经过一系列测量步骤之后获得的, 其中每一步骤的测量误差都会反映到分析 结果中去。误差的传递方式取决于 I、误差的性质(随机误差或系统误差) ;II、分析结果 与测量值之间的关系(线性组合、乘除、指数、对数等) 。 2.4.1 系统误差 设A、B、C、D为相互独立的测量值;ΔA、ΔB、ΔC、ΔD分别是测量值A、B、C、 D的系统误差(包含系统误差的正负号) ;K、KA、KB、为常数;y为由测量值根据 化学计量关系计算所得的分析结果; Δy为分析结果的系统误差。 系统误差的传递公 式 1. 当 yKK B AAKB B B时 有 ΔyKAΔAKBΔB 2. 当时 有 D D C C B B A A y yΔ − Δ − Δ Δ Δ 3.当 yfx, 有 2.4.2 随机误差 设A、B、C、D为相互独立的测量值;sA、sB、s B C、sD分别为测量值A、B、C、D 的标准偏差;K、KA、KB B 、为常数;y为由测量值根据化学计量关系计算所得的分析 结果;sy为分析结果y的标准偏差。 随机误差的传递公式为 17 第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 当 yKKAAKBB时 有 B 当 时 有 当 yfx 有 2.5 标准曲线及线性回归标准曲线及线性回归 在仪器分析中,常用标准工作曲线法确定待测组份的含量。由于随机误差的存在,测量值不 可能完全落在同一曲线上。 回归分析就是用数理统计方法确定一条对各测量值误差较小的直 线。这条直线所表达的两个变量之间的某种线性关系是否有意义,则用相关系数进行判断。 2.5.1 一元线性回归方程 设以X表示自变量, y为因变量,则一元线性回归方程表示为 yabx 其中a和b称为回归系数。设对y作n次独立的测量,得到一系列测量值 (xi,yi),i1,2,3,,n 通常假设xi具有足够的精密度,所有的随机误差都来源于测量值 y。 根据最小二乘法的原理,最佳的回归线应是各测量值yi与相对应的落在回归线上的值之差 的平方和(Q)为最小。 欲使 Q 达到最小,对 Q 分别求a和b的偏微分,并令其为零 上两式求解得 18 第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 2.5.2 相关系数 1、相关系数定义为 2、相关系数的物理意义 (1).当所有的 Yi 值都落在回归线上,R 1; (2).当Y与x之间完全不存在线性关系时,R 0; (3) .当R的值在 0 与 1 之间时, 如果其值与指定置信度下相关系数临界值比 较, 满足 ,就可以认为这一回归线是有意义的。 2 2. .6 6 提提高高分分析析准准确确度度的的方方法法 2.6.1 减小测量误差 1、减少称量误差 一般分析天平一次读数的绝对误差 Ei 0.0001 g 19 第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 一次称量读两次 Ea 2Ei 0.0002 g 常量分析要求 Er 0.1 故 即试样的质量必须在 0.2 g以上。 2、减少容量误差 一般滴定管读数常有 0.01 ml的误差 一次滴定中,读数两次 Ea 0.02 ml 常量分析要求 Er 测量精度,不合理。 2.7.7 综合题 例 10 某分析工作者根据客户的要求对果汁中的铅含量进行测定。客户指明样品中 的铅含量处在数量级,并要求分析结果的准确度优于,可接受 24 第二章第二章 误差与数据处理讲稿误差与数据处理讲稿 的置信度为 95。已知分析方法对给定浓度范围铅含量进行分析的精密度为 ,问需要平行测定几次才能满足客户的需求。 解 根据题意知道客户要求在 95。置信度下总体平均值μ (要求没有系统误 差存在,μT)包含在区间内, 并要求。 即 要平行测定 10 次才能满足客户的需要。 25