基于数据挖掘的铁水硅质量分数SVM预测方法.pdf
1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. 第37卷 第5期 2009年 5月 华 中 科 技 大 学 学 报自然科学版 J. Huazhong Univ. of Sci.重庆市科委自然科学基金资助项目CSTC2006BB2430 . 基于数据挖掘的铁水硅质量分数SVM预测方法 杨 佳1 许 强2 曹长修1 1 重庆大学 自动化学院,重庆400030 ; 2重庆工商大学 计算机科学与信息工程学院,重庆400067 摘要提出了一种基于蚁群聚类算法数据挖掘预处理的支持向量机SVM预测方法.利用其在处理大数据 量、 消除冗余信息等方面的独特优势,寻找与预测炉况同等的多个历史铁水硅质量分数,由此组成具有高度相 似炉况特征的数据序列,将此数据序列作为SVM的训练数据.这种处理方法可减少数据量,提高预测的速度 和精度.将该系统应用于铁水硅质量分数预测中,与单纯的SVM方法相比,具有较高的预测精度. 关 键 词数据挖掘;炉况;支持向量机;蚁群聚类算法;铁水硅质量分数预测 中图分类号 TP181 文献标识码 A 文章编号 16712451220090520068204 SVM forecasting of hot metal silicon quality score using data mining Yang J ia1 X u Qiang2 Cao Changxiu1 1 College of Automation , Chongqing University , Chongqing 400030 , China ; 2 College of Computer Science and Ination Engineering , Chongqing Technology and Business University , Chongqing 400067 , China Abstract The advantages of the data mining technology in processing large data and eliminating re2 dundant ination were fully considered. Thus , a support vector machines SVM forecasting sys2 tem based on data mining preprocess of ant colony optimizing algorithm was proposed to search the historical daily silicon content with the same furnace status as the forecasting day and to compose data sequence with highly similar furnace status features. Taking the new data sequence as the training da2 ta of SVM , the data amount was decreased and the processing speed was improved. This approach achieves greater forecasting accuracy comparing with the of single SVM. Key words data mining ; furnace status; support vector machines ; ant colony clustering algorithm ; hot metal silicon quality score forecasting 目前,一般采用人工神经网络模型、 遗传算法 模型和小波分析模型进行铁水硅质量分数预测, 其中人工神经网络模型应用最为广泛.但普通神 经网络模型大多不考虑炉况因素影响,并且出现 了一些新的问题[1].支持向量机SVM [2 ,3] 已经 扩展为解决非线性回归估计问题,而且与神经网 络方法相比,有着显著的优越性. SVM算法中仅 有3个自由参数,而神经网络却有大量的自由参 数,需要凭经验主观选择.但是经典的SVM算法 在处理大数据量的模式分类和时间序列预测等方 面存在速度慢、 时间长的缺点. 基于以上分析,认为提高铁水硅质量分数预 测精度的关键在于历史数据的预处理方式和预测 模型的改进,而数据挖掘[4]可实现分类、 聚类、 关 联和预测的功能.因此提出了基于数据挖掘的支 持向量机铁水硅质量分数预测新方法. 1 基于数据挖掘的SVM预测方法 蚁群优化算法ACOA在求解复杂优化问题 方面表现出明显的优势[5 ,6],已成功用于各领域 的相关问题的研究[7~12]. 根据ACOA的基本原理[5],将其用于铁水硅 质量分数时间序列的聚类分析CA时,只需掌握 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. ACOA与铁水硅质量分数时间序列CA的对应 关系即可.在基于ACOA的CA中[6],将要进行 CA的铁水硅质量分数数据序列样本视为具有不 同属性的蚂蚁,各聚类中心看作是蚂蚁所要寻找 的食物源集合.这样,就可将数据序列样本的聚类 过程看作是蚂蚁寻找食物源集合的过程,即数据 序列样本的归类过程.得到不同炉况下的铁水硅 质量分数聚类,然后将每一类铁水硅质量分数按 时间先后排序作为新的历史数据序列,这样就完 成了挖掘提取工作. 用SVM算法估计回归函数时,其基本思想 是通过一个非线性映射,把输入空间的数据映射 到一个高维特征空间中去,然后在这一高维空间 中作线性回归.任何函数只要满足Mercer条件都 可用作核函数,采用不同的函数作为核函数,可以 构造输入空间中不同类型的非线性决策面的学习 机器. 2 基于数据挖掘的SVM预测模型 2. 1 SVM模型的结构 分析数据挖掘技术和SVM方法的功能、 特 点,可发现它们存在2个互补性的差别 a. SVM处理信息一般不能将输入信息空间 维数简化,所以当输入信息空间维数较大时,就会 导致SVM训练时间较长,而数据挖掘技术通过 发现数据间的关系,既可以去掉数据中的冗余信 息,又可以简化输入信息的数据空间维数. b.数据挖掘技术在实际应用过程中对噪声 比较敏感,因而用无噪声的训练样本学习推理的 结果在有噪声的环境中应用效果就不太好,即数 据挖掘技术的泛化性能较差,而SVM方法有较 好的抑制噪声干扰的能力和良好的泛化能力. 因此,根据它们的互补性把两者结合起来,用 数据挖掘技术先对数据进行预处理,将历史数据 序列的变化规律进行简化、 随机性弱化且含炉况 特征,以便建立支持向量机预测模型时可以不再 重复考虑炉况特征的输入,就可使预测结果自然 含有炉况特征,模型训练速度明显加快.再根据数 据挖掘预处理后的信息结构来构成SVM的信息 预测系统.这种系统的结构如图1所示. 在图1中,假 设 训 练 样 本 为G{ xi, yi } n i 1,式中xi∈R d 是输入向量; yi∈R是期望 值; n是数据点的总数.在所有输入向量中,假设 支持向量有N个,分别为SV1,SV2,⋯, SVN,相 应的满足Mercer条件的非线性映射 Φ x i和 图1 基于数据挖掘的支持向量机结构图 Φ x j为2个向量xi和xj在其特征空间中的像, K xi, xj为核函数. 2.2 SVM算法的实现 选取改进SMO算法 [13]来确定拉格朗日乘子 αi和α3i以及阈值b.它是目前实现SVM算法中 效率最高的一种,其具体实现步骤为 a.输入历史数据并进行预处理.采用提出的 蚁群聚类算法的数据挖掘技术,形成具有高度相 似性炉况特征的训练和测试样本集. b.对SVM的模型参数进行初始化.对αi和 α3i以及b赋以随机的初始值. c.利用训练样本建立目标函数,然后采用改 进的SMO算法求解目标函数,得到αi 和α 3 i以及 b的值. d.将得到的参数值代入,用测试样本计算未 来某一时刻的预测值. e.计算误差函数.若误差的绝对值小于预先 设定的某个正数,则结束学习过程或设置迭代次 数控制学习过程 , 否则返回步骤c. 3 仿真分析 对四川省某大型钢铁厂4 高炉的铁水硅质 量分数预测进行实证分析,并与单纯的SVM模 型进行预测精度分析比较. 3. 1 样本选择 采用2006年4月11日~30日的150炉高 炉数据,其中前50炉数据作为训练样本集,中间 50炉数据作为验证样本集,后50炉数据作为预 测样本集.对于训练样本,通过提出的数据挖掘技 术找出和预测点在炉况特性和预测时段都相同的 数据作为SVM中的y值,相应的x值即样本输 入量分为以下几类. a. A{ a1, a2,⋯, an} ,预测日之前n日内的 预测时段的铁水硅质量分数数据. b. B{ b1,b2,⋯, bm} ,预测日前一日预测时 段之前的m个铁水硅质量分数数据. 96第5期 杨 佳等基于数据挖掘的铁水硅质量分数SVM预测方法 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. c. C{ c1,c2,⋯,cm} ,预测日的炉况预报,每 个元素ci共s个数据,包含透气性指数、 风温、 顶 温、 料速、 富氧量、 批料负荷、 煤气利用率. d. D{ d1, d2,⋯, dn} ,预测日之前n日内的 每日炉况数据,其任何一个元素di包含s个如上 所述的炉况数据. 3.2 参数分析 采用高斯函数作为核函数, K xi, xj exp[ - xi- xj 2/δ2 ] , 式中δ 2 为高斯核的宽度参数. 参数的选择分别为δ 2 20, c 100和ε 0.001.研究中发现,核参数δ 2 和c对SVM算法 的表现起着非常重要的作用,当分别把c和ε固 定在10和0.001时,训练集的标准均方差随着δ 2 的增大而增大.另一方面,测试集的标准均方差随 着δ 2 的增大而起初减小,随后增大.这表明δ 2 的 值太小0.1~1 , 会对训练集造成过学习现象; δ 2 的值太大100~100 000 , 会对训练集造成欠 学习现象.δ 2 的适合值应在1~100之间.由此可 见,δ 2 对SVM的泛化性能起着关键作用. 当分别把δ 2 和ε固定在10和0.001时,训练 集的标准均方差随着c的增大而单调减小;同时, 当c的值从0.1增大到10时,测试集的标准均方 差逐渐减小;当c的值从10增大到100时,测试 集的标准均方差几乎保持为一常量;当c的值超 过100时,测试集的标准均方差开始增大,其原因 在于小的c值会对训练数据造成欠学习现象, c 值太大容易对训练数据造成过学习现象而导致泛 化性能恶化,因此,c的适合值应在为10~100. 当δ 2 和c固定不变时,ε的变化对训练集和 测试集的标准均方差的影响不大,这表明SVM 的性能对ε不敏感.当分别把δ 2 和c都固定在10 时,训练集和测试集的标准均方差非常稳定,不受 ε值变化的影响;一般情况下,支持向量的数目随 着ε的增大而减小,然而大的ε值也能降低数据 点的逼近精度,因此ε不能太大.根据训练过程, 当ε 0.001时,支持向量的数目较少,而数据点 的逼近精度也较高. 3.3 误差与结果分析 选取平均相对算术误差 e作为各种方法预测 效果判断的根据, e 1 n∑ n i 1 yi - yi yi 100 , 式中 yi 和 y i 分别为实际铁水硅质量分数值 和预测铁水硅质量分数值. 用本文模型记为DMSVM和SVM方法对 2006年4月11日~30日的150炉铁水硅质量分 数进行预测,并比较二者的精度,结果见表1.从 表1可看出DMSVM比SVM方法的预测误差明 显要小. DMSVM的相对误差总平均值为6. 4 , SVM法为12. 2 . 表1 两种选取算法的性能比较 选取算法中心数迭代次数e/ SVM3312012. 2 DMSVM33216. 4 图2为2种模型对连续50炉铁水硅质量分 数的拟合曲线与实际铁水硅质量分数曲线的对比 分析图.从图2可看出本文方法的拟合精度较好, 可见本文方法预测效果好、 精度高,能够有效地提 高短期铁水硅质量分数预测的精度,能相对简化 铁水硅质量分数预测模型,免去SVM建模时的 炉况特征输入量,同时,SVM方法能有效地克服 普通网络的缺点,使预测误差进一步减小,预测精 度有了较大的提高,达到了实用的要求. 图2 铁水硅质量分数预测值与实际值的对比 充分考虑了炉况中的主要影响因素对铁水硅 质量分数预测的影响,提出了基于蚁群算法的数 据挖掘技术,对训练样本进行了有效地约简,提高 了训练速度,并使预测结果自然地含有炉况因素, 不需要人工干预. 经过数据挖掘预处理后,用具有更好泛化能 力和全局寻优能力的支持向量机建立预测模型, 较好地解决了有限样本学习问题,并有惟一的全 局最优解. 经过与单纯的SVM模型的实际预测比较, 证明所建模型较大地提高了铁水硅质量分数预测 的精度和系统的实用性,易于软件实现,能够有效 地应用于铁水硅质量分数预测的管理工作. 参考文献 [1]刘祥官,刘 芳.高炉炼铁过程优化与智能控制系统 [M].北京冶金工业出版社, 2003. [2 ] Shevade S K, Keerthi S S , Bhattacharyy C , et al. 07 华 中 科 技 大 学 学 报自然科学版 第37卷 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. Improvements to SMO algorithm for SVM regression [J ]. IEEE Trans on Neural Network , 2000 , 115 1 18821 193. [3] Chen L D , Toru S. Data mining s , applic2 ations , and tools [J ].Ination System Manage2 ment , 2000 , 171 65270. [4] Suykens J A K, Lukas L , Vandewalle J. Space ap2 proxim2ation using least squares support vector ma2 chine[C]∥Int Symposium on Circuits and Systems. Geneva IEEE , 2000 7572760. [5] Abraham A , Ramos V. Web usage mining using arti2 ficial ant colony clustering and linear genetic program2 ming[C]∥Proceedings of the Congress on Evolution2 ary Computation.Canberra IEEE , 2003 1 3842 1 391. [6] Shelokar P S , Jayaraman V K, Kulkarni B D. An ant colony approach for clustering[J ]. Analytica Chimica Acta , 2004 , 5092 1872195. [7] Vlachogiannis J G, Hatziargyriou N D , Lee K Y. Ant colony system based algorithm for constrained load flow problem[J ]. IEEE Transactions on Power Systems , 2005 , 203 1 24121 249. [8] Shi Libao , Hao Jin , Zhou Jiaqi , et al. Ant colony op2 timization algorithm with random perturbation behav2 ior to the problem of optimal unit commitment with probabilistic spinning reserve determination[J ]. Elec2 tric Power Systems Research , 2004 , 69 223 2952 303. [9] Merp P , Freisleben B. A comparison of memetic al2 gorithms , tabu search , and ant colonies for the quad2 ratic assignment problem [ C ]∥Proceedings of the Congress on Evolutionary Computation. Washington Evolutionary Computation , 1999 2 06122 070. [10] Talbi E G, Roux O , Fonlupt C , et al. Parallel ant colonies for the quadratic assignment problem [J ]. FutureGeneration Computer Systems , 2001 , 17 4 4412449. [11] Gomez J F , Khodr H M , de Oliveira P M , et al. Ant colony system algorithm for the planning of pri2 mary distribution circuits[J ]. IEEE Transactions on Power Systems , 2004 , 192 99621 004. [12]侯云鹤,熊信艮,吴耀武,等.基于广义蚁群算法的电 力系统经济负荷分配[J ].中国电机工程学报, 2003 , 233 59264. [13] Shevade S K, Keerthi S S , Bhattacharyy C , et al. Improvements to SMO algorithm for SVM regres2 sion[J ]. IEEE Transaction Neural Networks , 2000 , 115 3562362. 上接第63页 difference [ C ]∥10th ACM SIGKDD International Conference on Knowledge Discovery and Data Min2 ing. Seattle ACM , 2004 6472652. [5] Nijssen S , Kok J N. Efficient discovery of frequent unordered trees[ C]∥First International Workshop on Mining Graphs , Trees and Sequences. Croatia Springer2Verlag , 2003 55264. [6] Asai T , Toivonen H , King R D. Discovering fre2 quent substructures in large unordered trees , 216 [R]. Kyushuu University of Kyushuu , 2003. [7] Chi Y, Nijessn S , Muntz R R , et al. Frequent sub2 tree mining an overview[J ]. Fundamenta Inati2 cae , Special Issue on Graph Tree Mining , 2005 , 66 1612198. [8] Chi Y, Yang Y, Muntz R R.Hybridtreeminer an efficient algorithm for mining frequent rooted trees and free trees using canonical s[C]∥16th Inter2 national Conference on Scientific and Statistical Data2 base Management.Santorini Island IEEE , 2004 21223. [9] Chi Yun , Yang Yirong , Muntz R R. Mining frequent rooted trees and free trees using canonical s , 030043[ R]. Los Angeles University of California , Los Angeles , 2004. [10] Han J W , Pei J , Yang X F. From sequential pattern mining tostructured pattern mining a pattern2 growth approach [J ]. Journal of Computer Science and Technology , 2004 , 9 2572259. [11] Yan X, Han J. gSpan graph2based substructure pattern mining , 2296[ R]. Urbana2Champaign , Illi2 nois University of Illinois at Urbana2Champaign , 2002. [12] Ruchert U , Kramer S. Frequent free tree discovery in graph data[C]∥Special Track on Data Mining , ACM Symposium on Applied Computing , 2004. Nicosia ACM , 2004 5642570. 17第5期 杨 佳等基于数据挖掘的铁水硅质量分数SVM预测方法