基于多元统计的水质动态评价模型研究与应用.pdf
评 价 与 监 测 基于多元统计的水质动态评价模型研究与应用 * 王晓鹏 1 曹广超 2 丁生喜 3 1. 青海师范大学数学与信息科学系, 西宁 810008;2. 青藏高原环境与资源教育部重点实验室, 西宁 810008; 3. 青海大学财经学院, 西宁 810016 摘要 给出一种基于多元统计的水质动态评价模型方法, 该模型方法以全局主成分分析 GPCA 方法为主, 以动态聚 类分析、 判别分析为辅助方法。再以湟水流域水质断面为例, 根据有机污染、 无机污染和综合污染等 3 个方面对这些 水质断面 19982005 年水质污染状态进行定量评价和动态分析。研究结果表明湟水流域水质断面有机污染较为 严重, 以上 3 个方面的污染状态逐年严重,综合污染指数均值从 1998 年的 1. 63605 上升到 2005 年的 2. 38624, 2001 年以后有加速恶化的迹象。 关键词 水质;多元统计;动态评价 STUDY ON MULTIVARIATE STATISTICAL MODEL FOR DYNAMIC UATION OF WATER QUALITY AND ITS APPLICATION Wang Xiaopeng1Cao Guangchao2Ding Shengxi3 1. Department of Mathematics and Ination Sciences,Qinghai Normal University,Xining 810008,China; 2. Key Laboratory for Environment and Resources of Qinghai-Xizang Plateau,Ministry of Education,Xining 810008,China; 3. Financial Insistute of Qinghai University,Xining 810016,China AbstractThis paper provided a dynamic uation model for water quality based on multivariate statistical analysis. And this model includes three analysis s,i. e.generalization principal component analysis GPCA , cluster analysis, discriminant analysis. Taking Huangshui River Basin for example,this model was used for dynamic analysis and quantitative uation of water quality from the year of 1998 ~ 2005. And this water quality system includes three factors,i. e. organic pollution,inorganic pollution and integral pollution. The results suggested 1the water sections in Huangshui River Basin was seriously polluted by organic pollutants; 2the polluting status of every section for the three aspects strengthened gradually in recent years,the mean of integration pollutant index increased from 1. 63605 in 1998 to 2. 38624 in 2005;and 3there is a trend of increased speed since 2001. Keywordswater quality;multivariate statistical analysis;dynamic uation * 国 家 自 然 科 学 基 金 项 目 40861026 ; 国 家 社 会 科 学 基 金 项 目 06CTJ004 。 0引言 环境问题是关系人类前途命运的重大问题, 当今 社会, 水环境污染已成为制约人类生存发展的主要因 素, 水质评价亦成为环境科学的重要课题, 除了传统 水质综合指数法 例如 R. M. Brown 指数法、 N. L. Nemerow 指数法、 S. L. Ross 指数法、 姚氏指数法等 以外, 20 世纪 70 年代以来, 随着数理统计学、 模糊数 学、 灰色系统、 神经网络和 “3S” 技术等现代科学理论 和技术的迅速发展, 国内外学者开始尝试了利用数学 方 法 及 模 型 体 系 开 展 水 质 评 价, 取 得 了 相 当 的 成就 [ 1- 5]。 一般水质综合评价的难点在于 水质系统是由多 维因子 各种污染物含量指标变量 组成的复杂系 统, 每一因子从某一方面反映了水质质量, 但依据他 们作综合评价有一定难度。多元统计 [ 2- 3]的特点, 可 以有效简化多指标数据、 展示高维数据的内在规律和 复杂系统的结构, 符合水质评价问题的基本要求。近 年来, 多元统计中相关方法 主成分分析、 因子分析、 聚类分析、 回归分析等 逐渐成为有效的水质评价手 段 [ 4- 5]。已有的研究大都应用于对截面静态数据的分 09 环境工程 2010 年 10 月第 28 卷第 5 期 析, 利用多元统计方法实现动态评价研究极为罕见, 本文在此方面进行了研究。 1评价模型的构建 在对水环境评价系统认识过程中, 存在着众多表 现系统特征和运行状态的原始数据集合, 如何分析和 认识这种高维甚至动态的复杂数据集合内在规律性 和本质特征, 清晰地展示系统结构, 准确直观描述样 本点的可持续发展状态和变化趋势, 这些都是利用数 学方法模型实现对系统客观认识的基本内容和目标, 并且正是多元统计数学擅长和应用最为广泛的领域。 1. 1主成分分析方法 以下简称 PCA 考虑到水质评价的利用污染指数实现对评价样 本的综合评价、 排序的研究目标和特点, 首先选择多 元统计中在此方面最具优势 [ 6], 计算简便且理论成 熟完善的主成分分析方法 已知 p 维静态 一般指某一时间 水质评价样本 X 截面数据表 , 对样本 A { ai, i 1, 2, , n}的 同方向规格化变量记作X { xj, j 1, 2, , p} , PCA 经过线性变换, 以少数新的综合变量 即主成 分 取代原来的变量S sij pp为协方差阵,ei ei1, ei2, , eip是 S 的单位化特征向量, 则第 i 个主 成分见式 1 yi ei1x1 ei2x2 eipxp 1 再以方差贡献率为权, 对各主成分加权合成最终 评价指标 y , 见式 2 y d1y1 d2y2 dmym 2 m 由累积方差贡献率∑ m i 1 di∑ m i 1 λi/∑ p k 1 λk达到一定 比率来确定。将规格化数据代入式 1 , 计算样本主 成分得分, 再利用式 2 , 求出综合得分, 它就是对样 本的污染程度评价值, 以上即为传统 PCA 方法应用 所常用的方差贡献率评价模型。 1. 2全局主成分分析方法 以下简称 GPCA 为实现对水质状态的动态评价和认识, 本文使用 由 PCA 延续发展而来的全局主成分分析方法 [ 6] 评 价样本不再是静态数据表 X , 而是时序立体数据表 K, 见式 3 K { Xt∈ Rnp, t 1, 2, , T} 3 这里 K 是一组按时间 t 排放的平面数据表序列, 并 且, 所有的数据表有完全同名的样本点和完全同名的 同方向规格化变量指标x1, , xp,对整张时序立体 数据表 K 执行 PCA 分析并实现对样本群点 AtI { ati, i 1, 2, , n; t 1, , T}的可持续发展量化评价。 1. 3水质评价分类构权 GPCA 评价模型 相关研究表明 [ 6- 7], 对 GPCA 和 PCA 而言, 只有 指标集合中有规模大、 聚集度高的子集合, 由式 1 所构造出的主成分才有可能具有实际统计意义。而 把数量众多、 性质迥异的指标放在一个层面构造合理 有效的主成分甚至污染指数是不可能的, 单指数据分 析而言, 甚至连进行 GPCA 前必须的统计检验都无法 通过。另外, GPCA 如果直接使用, 式 1 、 式 2 两 式采用信息量赋权法, 没有考虑评价指标对评价目标 的重要性。对一般水质问题, 污染指标本身具备重要 性的差异。 做水质评价时其先建议根据相关性进行评价指 标的分类处理, 将评价总系统 计作 T 分成子系统 记作 Si 这样处理的意义是 a. 可对水质样本从多 个方面实现评价, 不仅结构严谨, 而且有助于更加清 晰地展示水环境系统的结构; b. 总系统分成子系统 后, 子系统内的各指标性质相近且相关性较高, 使 GPCA 评价中构造污染指数 具有实际统计意义的主 成分 得到保证。 子系统及子系统指标项分别给予归一化重要性 权, 设总系统 T 下的各子系统 Si对的权记作 w 1 1 , , w 1 n ,子系统 Si的各指标权记作 w 2 i1 , , w 2 im 。 对子系统 Si作评价时, 本模型采用加权 GPCA 方法 设数据规格化数据阵是 Xl xi1, xi2, , xim , 由此构造新数据阵, 见式 4 珘 Xl 1 w 2 i1 xi1, , 1 w 2 im xim 4 此时有式 5 var 1 w 2 ik xik 1 w 2 ik 2var x ik 5 以下对珘X l 展开 GPCA 评价, 其意义在于 使具备 更大重要性的变量的数据方差相应被拉长 见式 5 , 在子系统 Si的 GPCA 评价中得到了更多的重 视, 从而将主、 客观赋权有机地结合起来。最后可依 照 T 下的各子系统重要权加权合成水质污染综合指 数 设子系统 Si的 GPCA 评价指数记作 fi,综合指数 记作 T, 见式 6 T ∑w 1 i fi 6 1. 4判定样本的水质级别的方法 本文模型下一步利用多元统计中另一方法聚类 分析来实现对样本点的判定, 使用的基础是上述水质 评价的分层构权 GPCA 评价结果已经作出。 19 环境工程 2010 年 10 月第 28 卷第 5 期 聚类分析 [ 6] cluster analysis 是将研究对象按其 共性进行分类, 以便系统地加以科学研究的一种有效 方法, 其目的在依据评价指标上相似性并将研究对象 划分成若干类, 使类内对象高度共质, 而类间性质高 度相异。对水质评价而言, 本文建议使用动态聚类 法, 依据所有样本点评价指 数值 进 行 分 类, 以 GB 3838 - 2002 国家地表水环境质量标准的 5 类标准 评价值作为聚核, 使得 5 个级别 类 内的元素都是 聚合的, 并且不同级别 类 之间能很好地区别, 实现 水质级别的准确和可靠地判定。并且, 以上聚类 分 级 过程既可对子系统分指数进行, 也可对综合指数 进行, 强化了研究结果的层次性、 可比性和说服力。 1. 5校验样本的水质级别的方法 本文模型使用多元统计中的判别分析方法对断 面样本水质级别的划分实现校验, 以提高这种级别划 分的可靠性, 针对水质评价问题, 这里选择 Bayes 判 别准则下的多组判别分析方法, 其基本思想及方法 为 将 p 维空间划分为互不相交的 m 个区域, 使错判 的平均损失最小; 对待判样点 X x1, , xp , 计算它 的条件概率 P L/X L 1, 2, , q , 将样点判于概 率最大的分类组。 2实证分析 湟水流域各断面 19982005 年水 质动态评价研究 湟水是黄河在上游的一级支流, 发源于青海省海 晏县, 自西向东流经青海省的海晏、 湟源、 湟中, 西宁、 互助、 平安、 乐都、 民和等 8 个县市, 在流经甘肃省兰 州市红古区永靖县时, 注入黄河。湟水流域总面积 17 333 km2, 青海省境内流域面积16 120 km2, 对其流 域内水环境质量做出科学分析评价具备相当的实际 意义和经济价值。 2. 1数据来源及规格化处理 为说明问题, 选择湟水流域内空间跨度大及污染 差异分布广泛的 17 个水质断面 1998 年、 2001 年、 2003 年、 2005 年 4 个年度的流域内 10 项 污染物 浓 度指标年均值数据, 原始数据来自相应年份的青海 省环境质量监测报告书 ,数据均值化处理后构成的 时序立体数据表 K, 具体指标是 x1 高锰酸盐、 x2 生 化需氧量、 x3 氨氮、 x4 亚硝酸盐氮、 x5 硝酸盐、 x6 挥 发酚、 x7 总氰化物、 x8 总砷、 x9 六价铬、 x10 石油类。 2. 2指标分类与加权处理 对该流域水质施行评价, 首先对 10 项指标分类 处理, 计算 10 项指标的相关系数矩阵 R 略 , 并由此 可知 x1、 x2、 x3、 x6、 x10之间具有较强的相关性, 这些指 标均属于有机污染指标; 指标 x4、 x5、 x7、 x8、 x9之间具 有较强的相关性, 而这些指标均属于无机污染指标, 由此将湟水流域水质评价总系统 T 分成 2 个子系统 S1 有机污染类, S2 无机污染类。 依照国家环保局关于地表水污染物浓度达标率 的规定 [ 8]并结合 DelPhi 法, 对指标类的重要性赋权 为等权处理 w1 w2 0. 5 S1下的指标项重要性赋权向量为 w 1 0. 174, 0. 217, 0. 217, 0. 217, 0. 174 ′ S2下的指标项重要性赋权向量为 w 2 0. 174, 0. 174, 0. 217, 0. 217, 0. 217 ′ 将 GB 3838 - 2002 中的 5 类标点与 17 个水质断 面同时纳入评价, 调用统计软件 SAS 编程对 2 个子 系统分别实行 GPCA 过程再加权合成, 两个子系统 GPCA 主要结果见式 7 、 式 8 有机污染指数 方差贡献 d1 89. 2 f1 0. 220珓x* 1 0. 493珓x * 2 0. 592珓x * 3 0. 205珓x * 6 0. 562珓x * 10 7 无机污染指数 方差贡献 d1 85. 9 f2 0. 473珓x* 4 0. 270珓x * 5 0. 223珓x * 7 0. 701珓x * 8 0. 322珓x * 9 8 两个子系统主成分评价中构造第一主成分 f2、 f2 都是水平因子 即水环境质量的两个分指数 , 由此 进一步构造出湟水流域 2003 年水环境质量综合指 数, 见式 9 T 0. 110珓x * 1 0. 247珓x * 2 0. 296珓x * 3 0. 103珓x * 6 0. 28珓x * 10 0. 236珓x * 4 0. 135珓x * 5 0. 116珓x * 7 0. 35珓x * 8 0. 161珓x * 9 9 利用式 7~ 式 9 计算出不同年份 17 个待评 断面及 5 个标点的有机污染、 无机污染和综合污染指 数值, 并以进行 5 个标点的指数值为聚核用动态聚类 分析将待评断面分为 5 个级别, 再以判别分析方法对 断面样本水质级别的划分实现校验和修正, 最终具体 结果见表 1。 3相关讨论 表 1 中湟水流域水质污染情况的定量评价结果 不仅清晰明确, 且具有极高的可靠性和准确度, 并且 还同时具备良好的区分度、 稳定性和系统结构解释效 果, 指数化的评价结果清晰可靠, 便于各断面之间的 29 环境工程 2010 年 10 月第 28 卷第 5 期 的横纵两个方向上的比较分析和排序。 表 1基于多元统计的湟水流域各断面 19982005 年水质动态评价结果表 断面 f1 有机污染指数f2 无机污染指数 1998 年级别2001 年 级别2003 年级别2005 年级别1998 年级别2001 年级别2003 年级别2005 年级别 1 扎马隆0. 7594Ⅲ 0. 7442Ⅲ0. 7973Ⅲ0. 9492Ⅳ0. 6598Ⅰ0. 6466Ⅰ0. 6928Ⅰ0. 8248Ⅰ 2 西钢桥0. 9371Ⅳ 0. 9184Ⅳ0. 9840Ⅳ1. 1714Ⅳ0. 9532Ⅱ0. 9341Ⅱ1. 0008Ⅱ1. 1914Ⅱ 3 新宁桥1. 5929Ⅳ 1. 5610Ⅳ1. 6725Ⅴ1. 9911Ⅴ0. 9176Ⅱ0. 8992Ⅰ0. 9634Ⅱ1. 1470Ⅱ 4 报社桥5. 4745Ⅴ 5. 3650Ⅴ5. 7482Ⅴ6. 8431Ⅴ1. 6456Ⅲ1. 6127Ⅲ1. 7279Ⅲ2. 0570Ⅳ 14 老幼堡0. 7218Ⅱ 0. 7074Ⅱ0. 7579Ⅱ0. 9023Ⅲ0. 8276Ⅰ0. 8110Ⅰ0. 8690Ⅰ1. 0345Ⅱ 15 七一桥8. 8327Ⅴ 8. 6561Ⅴ9. 2744Ⅴ11. 040Ⅴ2. 3170Ⅳ2. 2706Ⅳ2. 4328Ⅳ2. 8962Ⅴ 16 三其桥1. 3193Ⅳ 1. 2929Ⅳ1. 3852Ⅳ1. 6491Ⅴ1. 0595Ⅱ1. 0383Ⅱ1. 1125Ⅱ1. 3244Ⅱ 17 沙塘桥3. 2612Ⅴ 3. 1959Ⅴ3. 4242Ⅴ4. 0765Ⅴ1. 1296Ⅱ1. 1070Ⅱ1. 1860Ⅱ1. 4119Ⅱ 续表 1 断面 T 综合污染指数 1998 年级别 2001 年级别 2003 年级别 2005 年级别 1 扎马隆0. 70960 Ⅱ0. 69540Ⅱ0. 74505Ⅱ0. 88700Ⅱ 2 西钢桥0. 94515 Ⅱ0. 92625Ⅱ1. 39240Ⅲ1. 48140Ⅲ 3 新宁桥1. 25525 Ⅲ1. 23010Ⅲ1. 31795Ⅲ1. 56905Ⅲ 4 报社桥3. 56005 Ⅴ3. 48885Ⅴ3. 73805Ⅴ4. 45005Ⅴ 14 老幼堡0. 77470 Ⅱ0. 75920Ⅱ0. 81345Ⅱ0. 96840Ⅱ 15 七一桥5. 57485 Ⅴ5. 46335Ⅴ5. 85360Ⅴ6. 96855Ⅴ 16 三其桥1. 18940 Ⅱ1. 16560Ⅱ1. 44885Ⅲ1. 48675Ⅲ 17 沙塘桥2. 19540 Ⅳ2. 15145Ⅳ2. 30510Ⅳ3. 74420Ⅴ 以 5 个标点的指数值为聚核用动态聚类分析将 待评断面分为 5 个级别, 并以判别分析方法实现校验 和修正, 方法理论严谨, 结果可信度高。 同时, 由表 1 计算出各年度 3 个层面的指数评价 值的均值及不同水质级别断面数, 由此实现整个湟水 流域水质系统各个时间上的水质污染总体状态动态 比较 见表 2、 表 3 。 表 2湟水流域各断面 19982005 年水质动态 评价总体评价比较表 年度 有机污染指 数平均值 无机污染 指数平均值 综合污染 指数平均值 1998 年 1. 976631. 291941. 63605 2001 年 1. 937031. 266081. 60332 2003 年 2. 075631. 456521. 97666 2005 年 2. 475151. 720792. 38623 4结论 由于人口增加、 工业污染和城市生活污水排放量 加大, 湟水流域水环境质量较差, 湟水流域各断面 表 3湟水流域各断面 19982005 年水质动态 评价级别划分年度统计表 年度 有机污染各 级别断面数 无机污染各 级别断面数 综合污染各 级别断面数 ⅠⅡⅢⅣⅤⅠⅡⅢⅣⅤⅠⅡⅢⅣⅤ 1998 年03 2753932008522 2001 年03 2754922008522 2003 年03 2663743004562 2005 年00 4491743204517 19982005 年水质主要污染因子为 5 日生化需氧 量、 高锰酸盐指数、 硝酸盐、 氨氮和石油类, 呈有机污 染型, 2001 年以后湟水流域各断面水质污染有明显 恶化的趋势, 尤其 2005 年湟水各断面水质总体为重 度污染 其中 17 个断面中有 13 个属于中度污染以 上, 7 个属于严重污染 。 湟水流域作为青海省政治、 文化、 经济中心地带, 近年来城市化、 工业化程度不断加快, 排污量不断 下转第 109 页 39 环境工程 2010 年 10 月第 28 卷第 5 期 色皿, 蒸馏水为参比液, 测定吸光度。测定结果见 表 2。 表 2文献[ 1] 法与减量法的测定结果对比 水样 文献法测定均值 / mgL - 1 减量法测定均值 / mgL - 1 相对误差 / 废水 113. 50 13. 40- 0. 74 废水 29. 66 10. 35 6. 90 国标样 14. 02 3. 98- 1. 00 国标样 22. 93 2. 78- 5. 25 由表 2 可知两法的相对误差在 10 以内, 说明 改进的蒸馏法是可行的。用减量法和规定蒸馏法测 定水中的氨氮所得的结果基本一致。 2. 6. 3水样的测定试验 1 改进的纳氏试剂光度法。吸取适量经上述改 进法预处理过的水样于 50 mL 比色管中, 加水稀释至 标线。加 1. 0 mL 酒石酸钾钠溶液, 混匀。加 3. 00 mL 纳氏试剂, 混匀, 放置 15 min 后 显色时间不宜超 过 20 min, 以免影响显色效果 在波长 420 nm 处, 用 2 cm 比色皿, 以蒸馏水为参比, 测量吸光度。 2 样品分析。取 2 个废水样, 按改进后的纳氏试 剂光度法测定样品中氨氮含量, 结果见表 3。 表 3废水中氨氮含量的测定数据 样品 测得值 / mgL - 1 RSD / 加入氨氮 量 / mgL - 1 回收氨氮 量 / mgL - 1 回收率 / 污水 15. 8 2. 110. 010. 2102 污水 215. 5 1. 310. 010. 3103 3结论 通过对国家标准法纳氏剂光度法对水中氨氮含 量测定的改进, 经试验证明, 改进后的方法操作简便、 省时、 节能, 测定结果准确可靠, 有推广价值。 参考文献 [1 ] 国家环境保护总局水和废水监测分析方法 编委会. 水和废 水监测分析方法[M] . 4 版. 北京 中国环境科学出版社, 2002. [2 ] 环境保护操 作 工 人 培 训 系 列 教 材 编 写 组. 水污染防治技术 [M] . 南京 江苏人民出版社, 2003. 作者通信处金文斌226007江苏南通市南通职业大学化工系 电话 0513 81050856 E- mailjinwenbin316 sina. com 2010 - 03 - 02 櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅 收稿 上接第 93 页 增加, 使湟水污染严重。造成这些污染的主要原因是 河流所在地区人口、 社会经济活动高度集中, 工业污 染、 城市生活污水、 固体废物产生量大, 而处置设施落 后、 处置率低, 污水大部分直接排入河流, 导致沿岸水 质恶化。此外, 还存在一定程度的面源污染, 如水土 流失、 农药化肥的使用、 村镇村落地表径流的污染等。 湟水流域水质环境不容乐观, 应该引起社会各界的高 度重视。 参考文献 [ 1] 李祚泳, 丁晶, 彭荔红. 环境质量评价原理与方法[M] . 北京 化 学工业出版社, 2004. [ 2] 杨晓华, 杨志峰. 大气环境质量综合评价的物元分析法[J] . 环 境工程,2003, 21 5 69- 80. [ 3] 金开正. 大气环境质量综合评价的修正 Logistic 曲线模型[J] . 环境工程,2005, 23 1 62- 64. [ 4] 王晓鹏, 曹广超. 基于多元统计的大气环境质量评价模型与应 用[J] . 环境工程, 2007, 25 6 81- 85. [ 5] 辛欣, 卢文喜, 等. 判别分析方法在水质评价中的应用[J] . 环境 科学与技术, 2008, 31 1 113- 115. [ 6] 任若恩, 王惠文. 多元统计数据分析[M] . 北京 国防工业出版 社, 1997. [ 7] Saporta M. Analysis des Donnees[R] . ENSAE, Paris, 1988. [ 8]GB 3838 - 2002 地表水环境质量标准[S] . 作者通信处王晓鹏810008青海省西宁市 青海师范大学数学与 信息科学系 E- mailwwxxpp518518 163. com 2010 - 03 - 18 收稿 901 环境工程 2010 年 10 月第 28 卷第 5 期