BP神经网络在北京市API预报中的应用.pdf
BP 神经网络在北京市 API 预报中的应用 * 郭庆春 1 何振芳 2 寇立群 1 李力 3 张小永 1 孔令军 1 1. 陕西广播电视大学教务处, 西安 710068;2. 中国科学院寒区旱区环境与工程研究所, 兰州 730000; 3. 中国科学院地球环境研究所, 西安 710075 摘要 对大气污染进行预测具有十分重要的意义。以北京市为例, 综合考虑 BP 网络的逼近能力和泛化能力, 将时间 序列作为 BP 神经网络的输入, 对空气污染指数的预测做了建模研究。实验结果表明 BP 神经网络的输出值与实际值 之间的误差在可以接受的范围, 特别是对骤升骤降趋势也能得到准确度较高的预报结果。因此在实际应用中, 可以将 BP 网络方法作为一种考虑采用的方法。 关键词 空气污染指数; 神经网络; 大气污染; 时间序列 APLICATION OF BP NEURAL NETWORK TO FORECASTING API IN BEIJING Guo Qingchun1He Zhenfang2Kou Liqun1Li Li3Zhang Xiaoyong1Kong Lingjun1 1. Shanxi Radio & TV University,Xi’ an 710068,China;2. Cold and Arid Regions Environmental and Engineering Research Institute,Chinese Academy of Sciences,Lanzhou 730000,China; 3. Institute of Earth Environment Research, Chinese Academy of Sciences,Xi’ an 710075,China AbstractForecasting the level of air pollution has a great significance. Taking Beijing as an example,the optimal network structure is determined by making an integrated survey of the approximation capability and the generalization of the network. The time series is taken as the of BP neural network, and a lot of research has been done on forecasting the level of air pollution. The experimental result indicates that the error between the output of the neural network and the actual numerical values is in the acceptable range. It can be gained a highly precise forecast result in the trend of increasing dramatically and declining sharply. As a result, the network can be considered as an adoptable in practice. Keywordsair pollution index ; neural network; atmospheric pollution;time serial * 国家自然科学基金项目 0211003026 /11220300 ; 国家重点基础研究 发展规划 973 项目 041J007026 /21010703 。 0引言 北京市是我国首都, 全国第二大城市及政治、 交 通和文化中心。北京中心位于北纬395420″, 东经 1162529″, 位于华北平原西北边缘, 毗邻渤海湾, 西 部是太行山山脉余脉的西山, 北部是燕山山脉的军都 山, 两山在南口关沟相交, 形成一个向东南展开的半 圆形大山弯, 人们称为北京弯, 它所围绕的小平原即 为北京小平原。北京是综合性产业城市, 综合经济实 力保持在全国前列, 第三产业规模居中国大陆第一。 2009 年, 北京市地区生产总值11 865. 9亿元, 同比增 长 10. 1 。人均 GDP 达到67 612元, 在中国大陆仅 次于上海市。曾经的北京及华北春季多发沙尘暴, 经 过多年治理, 取得显著成效。2009 年北京市空气质 量二级和好于二级的天数累计达 285 天, 占 78. 1 , 比 2008 年 多 11 天, 比 2000 年 以 来 同 期 平 均 高 16. 8 , 四级以上天数 5 天, 是十年来同期中重度污 染天数最少的一年, 比 2000 年同期减少 18 天。尽管 2009 年北京市空气质量得到很大改善, 但大气环境 质量与国家标准、 市民期望和建设世界城市的要求还 有一定差距。还要继续加大污染防治工作力度, 继续 推进大气环境质量改善进程。 作为城市大气污染治理的重要工作, 城市大气污 染预测可有效降低大气污染治理成本。建立合理精 确的预测模型是城市大气污染预测的基础。开展大 气污染预报业务, 也为公众为政府决策提供有价值的 参考信息, 具有十分重要的意义。 通过对污染物资料的分析, 发现大气污染物浓度 601 环境工程 2011 年 8 月第 29 卷第 4 期 的变化具有较强的非线性特性, 要对其进行较为准确 的预测, 就必须采用能捕捉非线性变化规律的预报方 法, 如非线性相空间动力学预报方法等 [1]。人工神 经网络是一种描述和刻画非线性现象的强有力的工 具, 目前用人工神经网络进行非线性特征分析与预报 研究, 已经取得了一些令人瞩目的成果 [2- 9]。 1资料与预处理 环境资料来源于中国环境保护部数据中心, 时间 为 2005 年 6 月 1 日2010 年 8 月 31 日, 资料为北京 市逐日空气污染指数, 一般来说, 在实际应用中, 由于 所采集的数据跨度较大, 为了便于网络训练, 防止计 算过程出现“过拟合” 等问题, 需先将数据进行“标准 化” 处理, 标准化方法可采用零均值标准差标准化方 法或归一化等方法, 在实践中发现, 采用归一化方法 效果较好, 因此把空气污染指数通过归一化 y 2 x - min x / max x- min x - 1 处理使之无 量纲化, 构成一组新序列。 2非线性时间序列神经网络模型的建立与分析 2. 1时间序列参数的确定 时间序列分析方法就是从具有先后顺序的信息 中提取有用信息, 其实质是通过对历史数据的处理, 寻找出前后数据之间的关系, 建立关联模型, 然后通 过历史数据和所建立的关联模型来预测时间序列的 未来值, 从而把握事物的未来发展。文中采取三层结 构, 一步预测的模式, 采用上面的神经网络模型, 以北 京市空气污染指数 20052010 年 为例说明该模型 在大气污染中的应用。数据按顺序构成一组时间序 列, 利用时间序列分析对此时序进行检验识别, 可知 此时序服从 6 阶自回归模型 AR 6 , 由此时序模型 确定空气污染指数的时间序列神经元网络预测模型 输入层单元数为 6 个, 输出层单元数为 1 个。 2. 2基于时间序列的神经网络模型的建立 BP 算法即误差反向传播算法是神经网络学习中 最常用的学习方法之一, 它具有归纳、 分类、 容错性、 冗余性、 非线性处理 、 自组织及自适应性 、 学习能 力、 联想能力等特点。BP 算法通过对神经计算得到 的输出和样本值进行误差分析, 不断反复修正神经网 络中各权重系数和偏置量, 从而使网络的输出接近所 希望的输出, 最终误差满足要求, 即确定学习结束, 获 得学习成功后的权重系数和偏置量, 由于在 BP 算法 中误差计算是由输出层向输入层的方向进行, 因此称 为误差反向传播算法。 在预报为目的的 BP 模型中, 转移函数常用的有 两种 sigmoid 函数和线性函数 y x , sigmoid 函数 又有两种函数 tansig 函数和 logsig 函数, 本研究穷尽 了这二种转移函数的搭配组合, 测试不同组合对网络 性能的影响, 结果表明, 当输入 - 隐层为 tansig 函数、 隐层 - 输出层为线性函数时, 效果最好。 本文分别组建了隐层节点数从 1 ~ 25 的 BP 网 络, 为了防止出现过拟合现象, 经过大量试算, 最后根 据试报效果, 确定了较为理想的隐层单元数是 8。如 此, 本研究确定的用于空气污染指数预测的 BP 网络 模型结构为 1网络结构为 6 - 8 - 1;2转移函数 的组合方式 tansig - 线性函数; 3算法 BP 算法。 在设置初始权重、 学习率、 动态系数等参数时, 都从 0. 1 ~ 0. 9 取值实验, 每次间隔为 0. 05, 当分别取值为 0. 3、 0. 9、 0. 5 时计算速度较快, 效果最佳。 2. 3预报效果分析 用北京市 20052009 年的逐日空气污染指数作 为神经网络模型的训练样本, 进行训练, 因为不同季 节的大气污染规律有所不同, 所以用 2005 年 6 月 1 日 2009 年 8 月 31 日 春季 35 月 、 夏季 6 8 月 、 秋季 911 月、 冬季 122 月 的 4 组数 据, 以第 1 天到第 6 天的实际值可预测出第 7 天的 值, 然后以第 2 天到第 7 天的实际值作为输入, 可预 测出第 8 天的值, 依次类推, 这样就能一次性预测出 未来多天的逐日空气污染指数 注意此处不能过分 地要求误差很小, 否则会造成过度训练, 那样, 虽然能 够很好地拟合学习样本, 但是会造成预测能力差 。 分别建立了 4 个季节的日空气污染指数的预报模型, 为了验证模型的正确性, 利用训练好的神经网络模 型, 采用调整后的权重系数和偏置量, 用 2009 年 9 月 1 日 2010 年 8 月 31 日 春季、 夏季、 秋季、 冬 季的数据作为独立样本进行预报检验, 实验结果表 明 训练样本的日空气污染指数的拟合值的平均相对 误差分别为 18. 2 、 14. 3 、 13. 1 、 17. 4 , 独立样 本的日空气污染指数的预测值的平均相对误差分别 为 28. 3 、 24. 5 、 18. 6 、 26. 9 , 独立样本的日空 气污染指数的预测值与真实值的线性相关系数分别 为 0. 835、 0. 841、 0. 852、 0. 833。说明 4 个模型拟合的 效果均较好, 预报结果的相对误差均较小, 此模型可 以满足日常预报工作的需要。 3讨论 从实验结果可以看出, 训练样本的日空气污染指 701 环境工程 2011 年 8 月第 29 卷第 4 期 数的 拟 合 值 的 平 均 相 对 误 差 范 围 为 13. 1~ 18. 2 , 均较小, 其中秋季最小, 平均相对误差从小到 大依次为夏季、 冬季、 春季, 模型的拟合效果较好。独 立样本的日空气污染指数的预测值的平均相对误差 范围为 18. 6 ~ 28. 3 , 也较小, 平均相对误差从小 到大依次为秋季、 夏季、 冬季、 春季。独立样本的日空 气污染指数的预测值与真实值的线性相关系数范围 为 0. 833 ~ 0. 852, 均较高, 相关系数从大到小依次为 秋季、 夏季、 春季、 冬季, 表明模型的预测精确度高, 预 报效果好。 通过 ANN 建立模型可以看出, 充分利用神经网 络的记忆、 联想、 自组织、 自学习、 容错等智能功能, 人 工神经网络模型对训练样本数要求不高, 有效地利用 训练数据进行最佳模拟, 得到的预测值可达到一定的 精度要求, 可以大大降低常规监测强度, 提高工作效 率。这在大气污染规划和控制以及环境管理、 政策制 定等方面能起到很好的指导作用。 理论研究和实验分析均表明人工神经网络技术 用于大气污染预测研究是可行的, 而且对大气污染时 间序列的复杂关系有较强的模拟能力, 因而在非线性 时间序列的预报中显示出其独特的优越性, 并将会在 大气污染预报中得到更多的应用。 4结论 1 利用时间序列作为 BP 神经网络的输入, 建立 并优化了 BP 神经网络, 获得了最佳网络参数 最佳 隐含层神经元数为 8, 最佳输入层神经元数为 6, 最优 的传递函数组合为 tansig - 线性函数, 最优的算法为 BP 算法。 2 从模型实验结果看, 模型的拟合效果均较好, 预报值与实际值之间的相对误差小, 预报值与实际值 的相关系数高, 说明通过设置初始权重、 学习率、 动态 系数等参数使基于 BP 神经网络的大气污染预测模 型的精度得到提高, 神经网络在预测大气污染方面有 良好的实用性, 并且模式简单, 必将在未来的空气污 染预报领域中得到广泛的应用。 3为了提高网络的稳定性和泛化效果,还可以 对模型的算法和网络参数做进一步优化。鉴于 BP 神经网络模型对空气污染指数具有良好的预报效果, 可推广应用于大气污染物的浓度预报, 但该方法是否 适用, 能否应用于大气污染物浓度的逐时预报, 还有 待进一步研究。 参考文献 [ 1]刘罡. 大气污染物浓度的非线性预报与混沌控制研究[D]. 北 京 中国科学院大气物理研究所, 1999 12- 25. [ 2]刘长青, 张峰, 程丽华, 等. 一体化 A - mO - n 工艺 BP 神经网络 数学模型研究[J]. 环境工程, 2009, 27 5 56- 59. [ 3]邹志红, 王学良. 基于随机样本的 BP 模型在水质评价中的应用 [J]. 环境工程, 2007, 25 1 69- 71. [ 4]张晓丹, 黄朝君, 徐菡, 等. 基于 RBF 神经网络的湖库水质富营 养化程度评价模型[J]. 环境工程, 2007, 25 2 80- 82. [ 5]曾维华, 陈荣昌, 施涵, 等. 基于人工神经网络的行业无害化生产 能力评价模型研究[J]. 环境工程, 2003, 21 6 70- 72. [ 6]罗先香, 杨建强. 径向基函数网络在水环境质量评价分区中的应 用[J]. 环境工程, 2000, 18 6 50- 52. [ 7]李祚泳. B - P 网络用于水质综合评价方法的研究[J]. 环境工 程, 1995, 13 2 51- 53. [ 8]王李管, 贾明涛. 水质评价及预测的神经网络方法[J]. 环境工 程, 1998, 16 2 62- 65. [ 9]崔玉波, 霍明昕. 改进的 B - P 网络在大气环境质量综合评价中 的应用[J]. 环境工程, 1998, 16 2 66- 68. 作者通信处郭庆春710068陕西省西安市含光北路 32 号陕西 广播电视大学教务处 E- mailgqc ieecas. cn 2010 - 11 - 08 櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅櫅 收稿 上接第 93 页 [ 13]冯润棠, 刘百宽. 高性能蓄热体的研制及应用[J]. 工业炉, 2004,26 6 51- 54. [ 14]钟水库. 蜂窝型陶瓷蓄热体换热器的热动态特性实验研究 [J]. 工业加热,2006,35 4 35- 37. [ 15]王皆腾, 祁海鹰. 蜂巢蓄热体换热性能的实验研究[J]. 工程 热物理学报,2003,24 5 897- 899. [ 16]曹小玲, 苏明. 高温空气发生器实验台的研制[J]. 太阳能学 报,2004,26 3 391- 395. [ 17]曹小玲, 蒋绍坚. 高温空气发生器热态实验研究[J]. 中国电 机工程学报,2005,25 2 109- 113. [ 18]郑彦民. 高温空气发生器试验研究与高温空气气化器设计 [D]. 长沙中南大学, 2004. 作者通信处吕元100190北京市海淀区北四环西路 11 号工程热 物理研究所 E- mailluyuan305 mails. gucas. ac. cn 2010 - 10 - 18 收稿 801 环境工程 2011 年 8 月第 29 卷第 4 期