分析数据的处理.pdf
1 第第8章分析化学中的数据处理章分析化学中的数据处理 几个概念几个概念 总体所研究对象的全体总体所研究对象的全体 样本从总体中随机抽出的一组测量值样本从总体中随机抽出的一组测量值 样本容量样本中所含测量值的数目样本容量样本中所含测量值的数目 n 例如预分析某批铜矿石中铜的含量,首先按有关部门的规定进 行取样、粉碎和缩分,制成一定质量的分析试样(如 例如预分析某批铜矿石中铜的含量,首先按有关部门的规定进 行取样、粉碎和缩分,制成一定质量的分析试样(如500g)若从 中取 )若从 中取6份试样进行平行测定,得到份试样进行平行测定,得到6个测定值。个测定值。 总体总体 该总体的一个随机样本该总体的一个随机样本 ∑ n 1i i x n 1 x样本平均值样本平均值 ((8--1)) xx n 1 limlim n i n∞→∞→ ∑ 总体平均值总体平均值 ((8--2)) 无系统误差时 μ=无系统误差时 μ=xT 2 8--1标准偏差(均方偏差)标准偏差(均方偏差) 一、总体标准偏差σ一、总体标准偏差σ n x 2 i∑ − σ ((8--3)) 二、样本标准偏差二、样本标准偏差s 1n xx s 2 i − − ∑ ((8--4)) 自由度自由度 f==n--1,指独立偏差的个数,指独立偏差的个数 n很多时很多时→−→x1nn,, n x 1n xx 2 i n 2 i n limlim ∑∑ − − − ∞→∞→ σ→s 3 三、样本的相对标准偏差(变异系数)三、样本的相对标准偏差(变异系数)RSD 100 x s RSD((8--5)) RSD, s , x d , d例例1((P242例例1)计算)计算 解解 43.10 5 40.1043.1047.1037.1048.10 x 036. 0 5 03. 004. 006. 005. 0 d 35. 0100 43.10 036. 0 100 x d 046. 0 4 03. 004. 006. 005. 0 1n d s 2222 2 i − ∑ 44. 0100 43.10 046. 0 x s RSD 4 四、标准偏差与平均偏差δ四、标准偏差与平均偏差δ 统计学表明,当统计学表明,当n20时时 δ=δ=0.7979σ≈σ≈0.8 σ(σ(8--6)) 五、平均值的标准偏差五、平均值的标准偏差 从总体中随机抽出一个样本,进行从总体中随机抽出一个样本,进行n次测定,得,若随 机抽出数个样本,分别进行 次测定,得,若随 机抽出数个样本,分别进行n次测定,得到一系列样本平均 值,。用统计学方法证明 次测定,得到一系列样本平均 值,。用统计学方法证明 x n21 xx,xL n x σ σ ((8--7)) n s s x 0.2 0.4 0.6 0.8 1.0 0 5101520 n 时,趋于平缓 的增大而急剧下降,随时, 5n n s s 4n x 一般分析,一般分析,n==3~~4已足够已足够 作业,作业,P2682T 5 8--2随机误差的正态分布随机误差的正态分布 一、频数分布一、频数分布 如,铜矿石铜含量测定,如,铜矿石铜含量测定,100个测量值,按由小到大分为个测量值,按由小到大分为10组组 %) 组数 极差 组距(=03. 0 R 频数-各组所包含的数据个数频数-各组所包含的数据个数 数据总数 频数 相对频数 列出频数分布表(列出频数分布表(P245 绘出相对频数分布直方图测量数据绘出相对频数分布直方图测量数据相对频数(相对频数(P245 6 平均值1.41%附近的两组数据相对频率最高,处于它两侧的数据 次之。说明测定值出现在平均值附近的频率很高,具有明显集 中的趋势。而距平均值较远的数据出现的频率较小,如小到1.27 %和大到1.55%的数据共有两个。 即,测量数据的分布具有规律性既分散又集中 二、正态分布二、正态分布高斯分布(高斯分布(Gauss)) 1、数学表达式、数学表达式 22 2/x e 2 1 xfy σ−− πσ ((8--8)无系统误差时)无系统误差时x-μ-随机误差μ-随机误差 y~~x测量值的正态分布测量值的正态分布 y~~x-μμ随机误差的正态分布随机误差的正态分布 大的曲线平坦,,,若时,σ∴σσ πσ 2112 yy 2 1 yx μ体现了测量值的集中趋势 σ体现了测量值的分散程度, σ小,精密度 高,峰窄 μ体现了测量值的集中趋势 σ体现了测量值的分散程度, σ小,精密度 高,峰窄 正态分布的两 个基本参数 正态分布的两 个基本参数 正态分布曲线的表示正态分布曲线的表示Nμμ, σσ2 7 8 2、随机误差分布的特点和规律、随机误差分布的特点和规律 ((1)对称性)对称性 ((2)单峰性)单峰性 ((3)有界性 )有界性 3σ之内σ之内 三、标准正态分布三、标准正态分布 N0,1 定义定义 σ − x u ((8--9)) 2/u 2 e 2 1 xfy − πσ 由(由(8--9)得)得 σ dx du duudue 2 1 dxxf 2/u 2 ⋅φ⋅ π − 9 2/u 2 e 2 1 uy − π φ 在正态分布中,曲线拐点的横坐标总是在正态分布中,曲线拐点的横坐标总是1,故σ,故σ2==1 ((8--10)) (曲线形状与(曲线形状与u和σ无关)和σ无关) 四、随机误差的区间概率四、随机误差的区间概率 正态分布曲线与横坐标正态分布曲线与横坐标-∞到∞到∞之间所夹的面积代表所有数 据出现概率的总和,其值应为 ∞之间所夹的面积代表所有数 据出现概率的总和,其值应为1,即概率,即概率P为为 1due 2 1 duup 2/u 2 π ⋅Φ − ∞ ∞− ∞ ∞− ∫∫ ((8--11)) 也可求出某一区间的概率,如也可求出某一区间的概率,如u==1 683. 0due 2 1 p 2/u 1 1 2 π − − ∫ 10 正态分布概率积分表正态分布概率积分表 |μμ|面积面积|μμ|面积面积|μμ|面积面积 0.00.00001.00.34132.00.4773 0.10.03981.10.36432.10.4821 0.20.07931.20.38492.20.4861 0.30.11791.30.40322.30.4893 0.40.15541.40.41922.40.4918 0.50.19151.50.43322.50.4938 0.60.22581.60.44522.60.4953 0.70.25801.70.45542.70.4965 0.80.28811.80.46412.80.4974 0.90.35191.90.47133.00.4987 11 例例2((P248例例3)) 已知试样中已知试样中Co的质量分数为的质量分数为1.75%,σ=%,σ=0.10%,若测量时无系 统误差,①求分析结果落在 %,若测量时无系 统误差,①求分析结果落在1.750.15%范围内的概率②求分析 结果大于 %范围内的概率②求分析 结果大于2.00%的概率%的概率 解解 5 . 1 10. 0 75. 115. 075. 1 ux u 1 − σ − K 查表查表P248P20.4332≈≈86.6%(双边检验)%(双边检验) 5 . 2 10. 0 75. 100. 2ux u2 − σ − K 查表查表P248P0.4938((x落在落在2%以内的概率的一半)%以内的概率的一半) X2.00%的概率,%的概率,P==0.5000--0.4938==0.62%% 12 正态分布概率积分表正态分布概率积分表 随机误差出现的区间测量值出现的区间概率随机误差出现的区间测量值出现的区间概率 以σ为单位以σ为单位 u1 xμμ1σσ68.3 u1.96 xμμ1.96σσ95.0 u2 xμμ2σσ95.5 u2.58 xμμ2.58σσ99.0 u3 xμμ3σσ99.7 13 8--3有限数据的统计处理有限数据的统计处理 一、一、t分布分布 无限次测量中,测量值和随机误差服从正态分布无限次测量中,测量值和随机误差服从正态分布 有限次测量中,若以有限次测量中,若以s代替σ去估计测量数据的分散情况, 将会引起正态分布的偏离,但此时测量值和随机误差服从 代替σ去估计测量数据的分散情况, 将会引起正态分布的偏离,但此时测量值和随机误差服从 t分布 纵坐标仍为概率密度, 但横坐标则为统计量 分布 纵坐标仍为概率密度, 但横坐标则为统计量t 定义定义 x s x t − ((8--12) 自由度 ) 自由度f degree of freedom f n-1 t分布曲线,形状与正态分布相似, 但随 分布曲线,形状与正态分布相似, 但随f变化。变化。 f→∞时,→∞时,t分布趋于标准正态分布分布趋于标准正态分布 14 曲线下面的面积为测量值曲线下面的面积为测量值or随机误差出现的概率 不同 随机误差出现的概率 不同f及概率时的及概率时的t值见值见P250表 置信度 表 置信度P某一某一t时,测得值落在 范围内的概率 时,测得值落在 范围内的概率 x ts 显著性水准α=显著性水准α=1--P 某一某一t时,测得 值落在范围外的概率 时,测得 值落在范围外的概率 x ts f越大越大 P越小越小 t越小越小 f∞时,∞时,tu 15 Anal. Chem. LYNU. 临师 tα,f值表(双边) 置信度,显著性水准 f P0.90 α0.10 P0.95 α0.05 P0.99 α0.01 1 2 3 4 5 6 7 8 9 10 20 ∞ 6.31 2.92 2.35 2.13 2.02 1.94 1.90 1.86 1.83 12.81 1.72 1.64 12.71 4.30 3.18 2.78 2.57 2.45 2.36 2.31 2.26 2.23 2.09 1.96 63.66 992 584 460 403 371 350 3.36 3.25 3.17 2.84 2.58 16 二、平均值的置信区间二、平均值的置信区间 1、无限次测量(σ已知)、无限次测量(σ已知) σ − x u 若由单次测量结果若由单次测量结果x来估计μ的范围来估计μ的范围 σux ((8--13)) n u xux x σ σ((8--14)) 2、有限次测量(、有限次测量(s已知)已知) n ts xtsx x 置信区间的含义表示在一定置信度下,以平均值为中心, 包括总体平均值μ的范围 置信区间的含义表示在一定置信度下,以平均值为中心, 包括总体平均值μ的范围 ((8--15)) x 17 如μ=如μ=32.65%%0.06%(置信度%(置信度P95)表示在区间)表示在区间32.65% % 0.06%内,包括总体平均值μ的概率为%内,包括总体平均值μ的概率为95%。不能说μ落在该 区间内的概率为 %。不能说μ落在该 区间内的概率为95% ( μ为客观值,无随机性)% ( μ为客观值,无随机性) 例例3((P251例例5)) 对其未知试样中对其未知试样中Cl-的质量分数进行测定,的质量分数进行测定,4次结果为次结果为47.64,, 47.69,,47.52,,47.55。计算置信度为。计算置信度为90,,95和和99 时,总体平均值时,总体平均值μμ的置信区间。的置信区间。 解解 60.47 4 55.4752.4769.4764.47 x 08. 0 1n xx s 2 − − ∑ 置信度为置信度为90%时,%时,t0.10,32.35 09. 060.47 n st x f , α 18 置信度为置信度为95%时,%时,t0.05,33.18 13. 060.47 n st x f , α 置信度为置信度为99%时,%时,t0.01,35.84 23. 060.47 n st x f , α 置信度越高,置信区间就越大,所估计的区间包括真值 的可能性也就越大,置信度定在 置信度越高,置信区间就越大,所估计的区间包括真值 的可能性也就越大,置信度定在95或或90。。 作业作业P2684、、7、、10 19 三、显著性检验三、显著性检验Significance test 用于检验分析系统中是否存在系统误差用于检验分析系统中是否存在系统误差 x 21 xx - “假设检验假设检验” 1、样本平均值与标准值的比较-、样本平均值与标准值的比较-t检验检验 n ts x n s x t − 若若ttα α,f表,则存在显著性差异,该法能引起明显的系统误差 表,则存在显著性差异,该法能引起明显的系统误差 ((8--16)) 若若t=查表 , 所以,有所以,有95%的把握认为%的把握认为1.40应保留应保留 3、、Q检验法(适于检验法(适于n==3--10次测定)次测定) ((1)将数据由小到大排列)将数据由小到大排列x1,,x2,,xnx1or xn可疑 ( 可疑 (2)统计量)统计量 最小最大 邻疑 xx xx Q − − ((8--22) ( ) (3)查表)查表Q 0.90,n 若若QQ表弃去可疑值表弃去可疑值 若若Q≤≤Q表保留可疑值表保留可疑值 28 例例9((P257例例12)) 1.25,,1.27,,1.31,,1.40 解解1.40可疑可疑 60 . 0 25. 140. 1 30 . 1 40 . 1 Q − − 查表查表Q 0.90,4==0.760.60 ∴∴1.40应保留应保留 作业作业P270 20,,21b 20、提示判断一个最大的不能舍,小的就不用算了、提示判断一个最大的不能舍,小的就不用算了 21、、a若若4.71舍去,下一个检验就不应包括舍去,下一个检验就不应包括4.71了了 8--4误差的传递(自学)误差的传递(自学) 29 8--5一元线性回归分析一元线性回归分析 A=ε=εbc 若直线能通过所有的实验点若直线能通过所有的实验点统计上认为统计上认为A与与c有密切的线 性关系 有密切的线 性关系 一、一元线性回归方程一、一元线性回归方程 用(用(xi,,yi)表示)表示n个实验点(个实验点(i1,,2,,n)) 任一条直线方程为任一条直线方程为y*==a bx ((8--23)) 则对每个数据点来说,测量值的误差为则对每个数据点来说,测量值的误差为 yi--y*==yi--a--bxi 总的误差平方和总的误差平方和∑ −− n 1i 2 ii bxayQ ∵回归直线是在所有直线中差方和∵回归直线是在所有直线中差方和Q最小的一条直线最小的一条直线 根据微积分求极值的原理令根据微积分求极值的原理令 30 0 a Q ∂ ∂ 0 b Q ∂ ∂ 求解得求解得 xbya− ((8--24)) ∑ ∑ ∑ ∑ − − − −− 22 i ii n 1i 2 i n 1i ii xnx yxnyx xx yyxx b ((8--25)) 为计算方便,令为计算方便,令 22 ixx xnxL− ∑((8--26a)) yxnyxL iixy − ∑ ((8--26b)) 22 iyy ynyL− ∑ ((8--26c)) 31 xx xy L L b ((8--27)) xbya− bxay 1、求回归直线的过程如、求回归直线的过程如Aycx xy 1 ,求出 bL,LL2 yyxyxx →,求 xbya− 3斜率斜率b越大,灵敏度越高越大,灵敏度越高 2、回归直线特点、回归直线特点 ((1)必定通过()点)必定通过()点y, x((1)必定通过()点)必定通过()点y, x ((2)对所有实验点来说,误差最小)对所有实验点来说,误差最小 ((3)不一定通过所有的实验点)不一定通过所有的实验点 32 二、相关系数二、相关系数r yyxx xy LL L r r物理意义物理意义 ((8--28)) ((1)当)当r==1时,所有的实验点都落在直线上,称时,所有的实验点都落在直线上,称x与与y完全 线性相关 完全 线性相关 ((2)当)当r==0时,则时,则b==0,回归直线平行,回归直线平行x轴,称轴,称x与与y毫无 线性相关 ( 毫无 线性相关 (3),测量有误差,越接近),测量有误差,越接近1,则,则x与与y线性 关系越好 线性 关系越好 1r0 r 33 例例10((P263例例17)) 解解 275. 0y7g06. 0 x次平均), 7053. 0y0364. 0 x 2 i 2 i ∑∑ , 7n1598. 0yx ii ∑ ,, Lxx0.0112 Lyy0.1759 Lxy0.0443 96. 3 L L b xx xy 037. 0 xbya− ∴∴y0.0373.96x r0.9981 g052. 0 96. 3 037. 0242. 0 m − == 试样 34 8--6提高分析结果准确度的方法提高分析结果准确度的方法 1、选择合适的分析方法、选择合适的分析方法 例(例(98中国科技大)对某赤铁矿中全铁的测定,用哪种方法 最好() 中国科技大)对某赤铁矿中全铁的测定,用哪种方法 最好()A KSCN比色法比色法 B K2Cr2O7滴定法滴定法 C 发射光 谱法 发射光 谱法 D 氨水沉淀法氨水沉淀法 2、减小测量误差、减小测量误差 常量分析中,一般要求常量分析中,一般要求1 . 0Er≤ 用万分之一天平称量用万分之一天平称量 g2 . 0 1 . 0 0002 . 0 m= % = 最小 g2 . 0m ≥ 一般滴定管滴定所消耗体积一般滴定管滴定所消耗体积 mL20 1 . 0 02 . 0 V ≥ 20~~30mL 据体积计算称量范围据体积计算称量范围 V120mL→→m1 V230mL→→m2 m1~~m2 35 微量分析如光度法测微量分析如光度法测Cu,设方法的,设方法的Er==2%,欲称取%,欲称取 0.5g试样分析,称量绝对误差≤试样分析,称量绝对误差≤0.52%=%=0.01g 为保证准确度,一般称准至为保证准确度,一般称准至0.001g 3、减小随机误差、减小随机误差 一般平行测定一般平行测定3--4次,准确度要求高时,测定次,准确度要求高时,测定10次次 4、消除系统误差、消除系统误差 ((1)对照试验)对照试验 ((2)空白试验)空白试验 ((3)校准仪器)校准仪器 ((4)分析结果校正)分析结果校正 36 小结小结 1、了解总体、样本、样本容量、总体平均值的概念、了解总体、样本、样本容量、总体平均值的概念 2、理解、理解 测量值的集中趋势(无限次测定用μ表示分析结果有 限次测定用表示分析结果) 测量值的集中趋势(无限次测定用μ表示分析结果有 限次测定用表示分析结果)x 测量值的分散程度(精密度)偏差、平均偏差、 相对平均偏差、 测量值的分散程度(精密度)偏差、平均偏差、 相对平均偏差、s、、RSD、、 x s 并掌握其计算并掌握其计算 无限次测定无限次测定正态分布正态分布 3、理解随机误差的分布规律、理解随机误差的分布规律 有限次测定有限次测定t分布分布 对称性、单峰性、有界性对称性、单峰性、有界性 随机误差区间概率的计算表随机误差区间概率的计算表U 4、理解置信度、平均值的置信区间的含义,掌握μ的置信区间的 计算 、理解置信度、平均值的置信区间的含义,掌握μ的置信区间的 计算 37 5、理解显著性检验的含义、理解显著性检验的含义 t检验法检验法准确度的检验,检验分析系统中是否存在系统误差准确度的检验,检验分析系统中是否存在系统误差 之间与 之间与 21 xx x F检验法检验法精密度检验,检验两组数据的精密度之间(精密度检验,检验两组数据的精密度之间(or方 差 方 差s1与与s2是否存在显著性差异是否存在显著性差异 6、可疑值的取舍、可疑值的取舍 掌握掌握Q检验法(检验法(n3--10)) 格鲁布斯检验法格鲁布斯检验法 7、提高分析结果准确度的方法、提高分析结果准确度的方法 ((1)方法的选择)方法的选择 ((2)如何减小测量误差)如何减小测量误差 ((3)怎样消除系统误差和随机误差)怎样消除系统误差和随机误差 38 Anal. Chem. LYNU. 临师 习题课