矿井突水信息处理的SVM-RS模型.pdf
第3 7 卷第3 期 中国矿业大学学报 V 0 1 .3 7N o .3 2 0 0 8 年5 月 J o u r n a lo fC h i n aU n i v e r s i t yo fM i n i n g T e c h n o l o g yM a y2 0 0 8 矿井突水信息处理的S V M R S 模型 闫志刚1 ’2 ,杜培军1 ’,张海荣1 1 .中国矿业大学环境与测绘学院,江苏徐州2 2 1 1 1 6 ; 2 .中国矿业大学深部岩石力学与地下工程国家重点实验室,江苏徐州 2 2 1 0 0 8 摘要提出了数据处理的支持向量机一粗集 S V M R S 模型.根据原始突水样本构造S V M 预测 模型,对该模型依次约简部分属性做重复测试,当预测精度降低,表示该属性重要,予以保留,否 则,予以约简,以此优化突水预测的属性集;利用S V M 对连续的属性值进行离散化处理,以线性 S V M 的分类超平面确定属性值的断点位置;利用R S 分析突水决策表,提取预测规则.该模型综 合了S V M 泛化性能优与R S 分析数据、提取规则能力强的优势,在实际应用中表现良好. 关键词S V M ;R S ;S V M R S ;矿井突水;规则提取 中图分类号T D7 4 5文献标识码A文章编号1 0 0 0 - 1 9 6 4 2 0 0 8 0 3 0 2 9 5 0 5 P r o c e s s i n gP r e d i c t o r so fW a t e rI n r u s hi n C o a lM i n e sU s i n gaS V M R SM o d e l Y A NZ h i g a n 9 1 ~,D UP e i - j u n l ,Z H A N GH a i r o n 9 1 1 .S c h o o lo fE n v i r o n m e n ta n dS p a t i a lI n f o r m a t i c s ,C h i n aU n i v e r s i t yo fM i n i n g &T e c h n o l o g y , X u z h o u ,J i a n g s u2 2 1 1 1 6 ,C h i n a ;2 .S t a t eK e yL a b o r a t o r yf o rG e o m e c h a n i c s D e e pU n d e r g r o u n dE n g i n e e r i n g , C h i n aU n i v e r s i t yo fM i n i n g &T e c h n o l o g y ,X u z h o u ,J i a n g s u2 2 1 0 0 8 ,C h i n a A b s t r a c t AS u p p o r tV e c t o rM a c h i n eu s i n gaR e d u c e dS e t S V M R S i sp r e s e n t e da sam o d e l f o rp r e d i c t i n gw a t e ri n r u s hi nc o a lm i n e s .A tf i r s tt h em o d e lw a sb u i l tu s i n gt h er a wt r a i n i n g s a m p l e s .T h et r a i n e dm o d e lw a sr e t e s t e d ,l e a v i n go u te a c ha t t r i b u t eo ft h et r a i n i n gs a m p l e si n o r d e rt Od e t e r m i n ew h i c ha t t r i b u t e si m p r o v e dm o d e la c c u r a c ya n d ,t h u s ,s h o u l db ei n c l u d e di n t h ef i n a lm o d e l .I nt h i sw a yam o r es a t i s f a c t o r yf e a t u r es p a c ew a ss e l e c t e df o rp r e d i c t i n gw a t e r i n r u s h .C o n t i n u o u sv a l u e da t t r i b u t e sw e r ed i s c r e t i z e db yal i n e a rS V M ,t h eh y p e r p l a n e sb e i n g u s e dt ol o c a t et h ed i s c r e t ep o i n t si na t t r i b u t es p a c e .P r e p r o c e s s e dd a t aw e r ea n a l y z e db yR Sa n d p r e d i c t i o nr u l e se x t r a c t e d .T h em e t h o di sn o v e li ni n t e g r a t i n gt h ea d v a n t a g e so fS V M a n dR S , t h e r e b yo f f s e t t i n gt h e i ri n d i v i d u a ld e f i c i e n c i e s 。a n di Sp r a c t i c a b l ea n du s e f u l . K e w o r d s S V M ;R S ;S V M R S ;w a t e ri n r u s hi nc o a lm i n e ;r u l ee x t r a c t i o n 矿井突水预测是一个涉及水文地质、工程地 质、开采条件、岩石力学等诸多因素的复杂问题,仍 是当前煤矿生产中亟待解决的重大课题.支持向量 机 s u p p o r tv e c t o rm a c h i n e ,S V M 与粗集理论 r o u g hs e t ,R S 是突水预测的有效方法,文献[ 1 2 ] 分别研究了R S ,S V M 在矿井突水预测中的应 用,均取得了较好的应用效果.但在矿井突水数据 预处理方面,S V M 不能接受属性缺失数据,但它可 以同时处理连续和离散数据;R S 可以容许属性数 据缺失,但它只能处理离散数据.在结果分析上, 收稿日期2 0 0 7 一0 4 2 5 基金项目国家重点基础发展计划 9 7 3 项目 2 0 0 7 C B 2 0 9 4 0 0 l 国家自然科学基金项目 4 0 4 0 1 0 3 8 作者简介同志刚 1 9 7 4 一 ,男,河北省张家口市人,讲师,工学博士 博士后 ,从事矿井突水预测、机器学习、高光谱遥感等方面的研 究. E - m a i l z h g - y a n 1 6 3 .c o r n T e l 1 3 7 7 6 7 8 6 8 3 2 万方数据 2 9 6中国矿业大学学报第3 7 卷 S V M 可以通过明确的数学函数预测突水等级,R S 虽无明确的数学表达,但它可以系统地分析突水条 件与结论,提取、简化突水规则.R S 的缺点是容错 能力与泛化能力弱,且只能处理离散数据,而这恰 好是S V M 的长处;S V M 的缺点是只能以函数形 式隐含地表示知识,无法发现数据的内在联系,而 这正是R S 的长处.R S ,S V M 在矿井突水数据处 理、结果分析以及各自解决问题的范围存在较强的 互补性,探索两者的有机结合具有重要意义. 目前,R S ,S V M 通常的结合模式为利用R S 约简属性个数,优选合适的属性集来训练S V M ,使 S V M 模型具有一定的抗信息丢失能力,并且,属性 的减少也加快了S V M 的训练速度,这种组合称为 粗支持向量机 R S V M [ 3 ] .从功能上讲,R S V M 只 是R S ,S V M 对数据的协同处理,各自的工作方式 并没有任何改变.因此,本文认为R S ,S V M 是等同 的,应称为粗集一支持向量机方法 R S - S V M ;同 理,当使用S V M 对数据进行预处理,再通过R S 提 取规则时,则称为支持向量机一粗集方法 S V M R S . 1 突水数据处理的S V M - R S 模型 1 .1 利用S V M 优选属性集 对于R S - S V M ,其重点在S V M ,以分类为目 的;S V M - R S 则以R S 为主,以提取规则知识为目 的.利用R S 分析数据、提取规则的过程是先对属 性数据离散化处理,然后进行约简.由于离散化总 要丢失信息,先离散化后约简势必存在误差累积效 应,再加上R S 本身的泛化能力、容错能力弱,数据 处理的精度无法保证.与R S 不同,S V M R S 使用 S V M 约简属性并离散化处理,是先约简后离散,这 样,可以有效地降低误差累积效应,并且S V M 的 泛化能力、容错能力强,其对属性的约简也更可靠. 利用S V M 约简属性的一般过程如下 1 针对样本集训练S V M 分类器; 2 依次约简部分属性后重新训练S V M ,如果 约简某一属性后S V M 的预测精度明显降低,则说 明该属性是重要属性,应予以保留,否则,予以约 简. 本文以文献[ 2 ] 提供的1 9 个工作面底板突水 样本为 见表1 ,介绍如何利用S V M 约简突水属 性. 由于原始样本的中、小样本数量偏小,本文将 其合并处理,则突水大小分为3 级,属多类分类问 题.层次S V M s h i e r a r c h i c a lS V M s ,H S V M s 是 常用的多类S V M 算法[ 4 ] ,它首先将所有类别分成 2 个子类,再将子类进一步划分成2 个次级子类, 直到得到若干单独的类别为止,是一棵倒立的二叉 分类树 见图1 .H - S V M s 非常适合于小类别数的 层次分类问题,因此,选择其分析矿井突水信息. 表1 突水实验样本 T a b e l1 T r a i n i n gs a m p l e so fw a t e ri n r u s h 含水层 隔水层导水断裂断层落突水 厚/薄厚度/m 带宽度/m差/m等级 12 0 O1 0 11 5 07 .3 14 4 .3 05 5 .9 1 1 7 11 6 .5 13 0 12 3 1 4 0 O6 5 .8 6 11 6 13 0 14 0 12 3 .1 11 8 12 3 .5 1 2 5 .7 图1H S V M s 1 , 2 ,3 不意图 F i g .1 S k e t c ho fH S V M s 1 , 2 ,3 依次从每类样本中各任选一样本,组成测试样 本集,余下的样本组成训练集.测试集计数为 C { C c ;,共2 5 2 种,相当于每类别取一样本的“留一 法”,而“留一法”是对S V M 推广能力的无偏估计. 经测试,线性S V M 具有较好的预测精度,训练参 数C 1 时预测精度较优,3 类样本的H S V M s 树 结构有3 种,各H - S V M s 结构的测试结果见表2 . 表2H - S V M s 结构及对应的平均训练精度、 预测精度 C - - 1 。线性核 T a b e l2 A v e r a g et r a i n i n ga n dp r e d i c t i n ga c c u r a c i e s a c c o r d i n gt od i f f e r e n tH - S V M ss t r u c t u r e s C ;1 ,L i n e a rK e r n e l 由表2 可知,结构为 1 , 2 ,3 的H S V M s 的 预测精度较高,并且它的分类层次也与实际吻合, 颧塑。。;。。。。。。;;。大大大大大大中中中申中中小小小小小小小 5 2 9 5 4 5 5 5 0 3 7 8 3 4 0 6 O O 1 O 0 0 0 O 1 ,O 1 5 7 3 4 6 5 3 3 9 9 9 7 5 2 0如n,H“0 M他他2 0化加”n 0 坫 /l 一 1 9 8 6 5 1 6 2 压限一o■舟■J J“∞■一一加■ 固舟加卫“ K Ⅳ一1 1 l 2 3 5 0 1 1 1 2 4 1 2 2 O 1 1 1 万方数据 第3 期闫志刚等矿井突水信息处理的S V M - R S 模型2 9 7 其结构如图1 所示.对突水样本依次约简部分属 性,重复测试H - S V M s 1 , 2 ,3 ,相应的预测精 度见表3 . 表3依次约简属性后H - S V M s 1 , 2 。3 的预测精度 T a b e l3 A v e r a g ep r e d i c t i n ga c c u r a c yo f H S V M s 1 。 2 。3 w h e na t t r i b u t e sr e d u c e di no r d e r 预测属性集预测精度 原始数据 约简水压 约简含水层 约简隔水层厚度 约简导水断裂带宽度 约简断层落差 约简导水断裂带宽度、含水层 0 .7 9 37 0 .6 8 39 0 .8 5 05 0 .6 2 96 0 .7 9 63 0 .4 6 16 O .8 3 33 由表3 可知,约简某些属性后,H S V M s 的性 能得到改善,如约简导水断裂带宽度、含水层;但约 简另外一些属性后,H S V M s 的性能下降,如水 压、断层落差、以及隔水层厚度.这说明,有些属性 对矿井突水影响小,甚至于无影响,而有些属性与 矿井突水关系密切;还有一些属性由于数据质量的 原因影响了性能,如含水层的厚、薄,虽然与矿井突 水关系密切,但由于精度偏低,最终也不得不约简. 因此,不仅要选择合理的属性集,更要保证属性自 身的容量与精度. 通过测试,可以得到本文突水样本的属性约简 结果,即约简含水层厚度、导水断裂带宽度. 1 .2 基于S V M 的连续属性离散化 在R S 理论中,连续属性的离散化方法很多, 如非监督离散化方法中的等宽度、等频率离散化; 监督离散方法中的单规则离散器、统计检验、信息 熵、自适应量化和布尔逻辑方法等.此外,文献[ 5 - 7 ] 分别提出了超平面间接离散化方法、基于密度分 布函数聚类的离散化算法、类别可分离性优先的广 义离散化方法. 上述方法中,一类是以区域划分为主,目的是 寻找样本可分性较优的区域,然后以区域边界确定 断点位置,称之为区域离散化;另一类是先构造评 价函数,再测试不同的断点组合,以评价函数优选 最优断点集,称之为断点离散化.从实用效果看,区 域离散化求解速度快,对多数有明显分布特征的样 本集应用效果较好;断点离散化原理简单,普适性 强,但随着属性数增多,属性的断点数增多,不利于 求解,并且,设置多少断点,断点间隔多大,仍难以 解决. 考虑到小样本情况下,S V M 是区分两类样本 的有效方法.本文基于区域离散化思想,尝试用 S V M 来确定样本属性的分类边界,并以S V M 的 错分率来评价离散化的损失程度,建立连续属性离 散化的S V M 模型.为了说明问题,先假设两类样 本,属性维数为2 ,以每类样本的最t l , b 接圆表示 样本分布,k 。,k z 表示样本类别,a 。,n 。表示样本属 性,两类样本S V M 分类的示意图见图2 . a b c d 图2利用S V M 划分离散区域示意图 F i g .2 S k e t c ho ft h es p a c ed i s c r e t i z e db a s e do nS V M 从图2 可以看出利用S V M 的分类超平面, 可将区域分为正、负两部分,分别对应各样本识别 率高的区域,但离散化结果要求每个区域都应当是 矩形,因此,对样本类按属性a ,,口分别训练S V M , 得到各属性对样本的分类超平面九,,,口z ;九。,丘。 将属性范围划分为4 个区域,记为I ,Ⅱ,Ⅲ,Ⅳ,则 离散化结果为口l a 1 。i n ’S 1 1 ,I s l l ’a l 。;] ,口2 [ 口2 。| n ,S 2 1 ,I s 2 1 ,口2 。。] ,其中,[ 口1 。i 。,口l 一] 、[ 口2 m i 。, 口。。] 为属性口。,口。的取值范围,S n ,S 。表示属性 a 。,n z 的断点位置.下面讨论利用S V M 离散化的 效果. 两类样本与工。,工z 的关系可归纳为3 种1 两类样本对口。,口。均完全可分,如图l a ;2 两类样 本对某一属性完全可分,对另一属性不完全可分, 如图l b ;3 两类样本对a ,,口均不完全可分,如图 1 c ,d . 对于情况1 ,对任意属性可分,属性集可以约 简为{ 口。} 或 口。} ,错分率为0 ; 对于情况2 ,对口,可分,属性集可约简为 { a , ,错分率为0 ; 对于情况3 ,情形比较复杂,属性集可约简为 口。 、{ 口。 或{ 口t ,a ,不同属性约简有不同的错分 率,可以是E 。,,E 。2 , E 。1 E 。2 1 2 ,其中E 。。,E 。z 分别表示样本集对属性口,,锄训练S V M 的错分 万方数据 2 9 8中国矿业大学学报第3 7 卷 率, E 。。 E 以 /z 表示 l , 。划分样本空间时错 分率的数学期望. 通过以上分析,可知使用S V M 离散化连续属 性是可行的,尤其是样本空间在某些属性方向有良 好的可分性时,可以快速、合理地确定断点位置. 上述结论是在两类样本、两维属性情况下得到 的,但可以推广到多维属性,并且,随着属性维数的 增多,就更有可能获得可分性好的属性维.如果是 多类样本,可以采用H S V M s 加以处理,H S V M s 是对输入类别空间的不断二分,而连续属性的离散 化处理也是对属性范围的不断细化,可以参考H S V M s 的分类层次来确定属性轴上的断点个数.具 体算法为 S t e p l构造多类样本的H - S V M s 分类树} S t e p 2 采用T o p D o w n 顺序,沿着H S V M s 分类树的路径不断划分属性空间.在每一决策结点 处对输入样本类别按属性维分别训练S V M ,选取 错分率低的部分属性组成新的属性空间重新训练 该结点的S V M ,新的S V M 预测值与原S V M 对 比,如果精度损失小于某一阈值,则对参与训练的 属性依次离散化,并记录断点位置;如果所有属性 维训练的S V M 的错分率都比较高,则表明样本类 别的线性可分性差,相应R S 的识别率自然也差, 此时可以选择放弃,或者优选错分率最低的某一属 性继续离散化; S t e p 3 整理断点,划分离散区间. 利用S V M 方法实现连续属性的离散化特点 有 1 尽可能地减少断点数,该方法每次只选择 部分属性离散化,每次只优选一个属性断点,这样, R S 的论域数就少,相应的决策规则就少.在文献 E 8 3 中证实,一般情况下,粗集中的决策规则越少则 性能越优; 2 在离散化的同时,还可以约简属性.通过以 上分析可知,每次离散化只针对部分属性进行,如 果某一属性未经过离散化处理,则可约简} 3 利用S V M 对连续属性离散化,要求样本类 别间有良好的线性可分性.对线性可分性差的样 本,其他离散化方法也难以处理,此时要考虑领域 问题是否适合于R S . 1 .3 .利用R S 分析提取预测规则 根据R S 理论的观点,规则知识的获取可看作 为一个知识表达、提取有用属性、简化属性表达、获 得推理规则的过程.一般的实现步骤为 1 将要处理的问题表达为知识系统,即信息 表; 2 根据专家经验和领域背景知识决定各条件 属性的重要程度; 3 消去信息表的重复信息,即行的简化,利用 R S 理论分析条件属性和决策属性的依赖关系,结 合各个属性的重要度判断并消去冗余条件属性,即 条件简化; 4 对简化后的知识系统,计算各条规则的核 值与其可能的规则简化形式; 5 在众多的可能规则组合中求出一个优化的 规则集. 本文首先通过S V M ,H S V M s 结合背景知。 识,确定了突水预测的属性集并进行了离散化处 理,解决了R S 获取知识的关键问题.然后分析突 水决策信息间的关系,以挖掘重要的突水规则,依 据规则的适应度对所获取的规则加以筛选. 在实验中发现,按照原始的突水等级来获取规 则,由于属性断点多,导致规则多且杂乱,无法实 用,其可能的原因有 1 实验样本数少,突水因素信息量少,并且混 杂了噪声信息; 2 原始数据的预测精度一般,属性约简后可 达0 .8 3 .在数据处理方法上,R S 本身的泛化、容错 能力差,在数据离散化时存在无法避免的信息损 失; 3 矿井突水本身的机理复杂,有限的样本难 以揭示复杂的突水规律. 为了获得实用的预测规则,需要继续合并突水 等级,以精简属性断点.考虑到少量突水可以认为 是正常的涌水,而中、大量突水则属于灾害性突水, 因此,将中、大突水样本合并,称为突水样本,小突 水样本称为不突样本,重新提取矿井突水相关规 则,见表4 . 表4突水规则提取结果 T a b e i4R u l e se x t r a c t e df o rp r e d i c t i n gw a t e ri n r u s h 由表4 可总结出表1 的突水样本所揭示的矿 井突水规律,矿井突水与断层落差关系密切,落差 超过3m 的断层附近容易突水;同时,水压大且隔 水层厚度小时也容易突水;当水压小、断层落差小 时,则不容易突水;隔水层厚、断层落差小时也不易 万方数据 第3 期 闫志刚等矿井突水信息处理的S V M - R S 模型 2 9 9 突水.依次类推,还可以继续分析大、中突水以及 中、,J 、突水的笋0 另0 规贝q . 2结论 1 本文提出的S V M R S 方法由于S V M 的推 广性能优,其对突水属性数据的约简也更确切,同 时,利用S V M 实现连续属性数据的离散化,可以 获得性能较优的突水预测规则.使用本文方法对矿 井突水案例进行分析,为矿井突水防治提供决策支 持是可行的,所得结论与实际吻合. 2 利用S V M - R S 模型处理矿井突水信息时, 模型的精度与预测规则的可靠度严重依赖于样本 数据的精度与可靠度,不同矿井应根据各自突水的 实际情况,合理选取突水案例才能获得可靠的预测 规则. 致射本文得到中国矿业大学青年科技基金项目 资助 2 0 0 7 A 0 3 4 ,特此感谢. 参考文献 [ 1 ] [ 2 3 [ 3 ] 冯利军.基于R o u g h 集理论的矿井突水规则获取 [ J ] .煤田地质与勘探,2 0 0 3 。3 1 1 ;3 8 4 1 . F E N GL i j u n .A c q u i s t i t i o no fm i n ew a t e ri n r u s h r u l e sb a s e do nR o u g hs e tt h e o r y [ J ] .C o a lG e o l o g y E x p l o r r a t i o n ,2 0 0 3 ,3 1 1 3 8 4 1 . 姜诸男,梁冰.基于最小二乘支持向量机的煤层 底板突水量预测[ J ] .煤炭学报,2 0 0 5 ,3 0 5 6 1 3 6 1 7 . J I A N GA n - n a n ,L I A N GB i n g .F o r e c a s to fw a t e ri n - r u s hf r o mc o a lf l o o rb a s e do nl e a s ts q u a r es u p p o r t v e c t o rm a c h i n e [ J ] .J o u r n a lo fC h i n aC o a lS o c i e t y , 2 0 0 5 ,3 0 5 6 1 3 6 1 7 . 范听炜,杜树新,吴铁军.粗S V M 分类方法及其在 污水处理过程中的应用[ J ] .控制与决策,2 0 0 4 ,1 9 5 5 7 3 5 7 6 . F A NX i n - w e i ,D US h u - x i n ,W UT i e - j u mR o u g h s u p p o r t v e c t o rm a c h i n ea n di t s a p p l i c a t i o n t O w a s t e w a t e rt r e a t m e n tp r o c e s s e s [ J ] .C o n t r o la n dD e c i s i o n ,2 0 0 4 ,1 9 5 5 7 3 5 7 6 . [ 4 ]F U M I T A K ET ,S H I G E OA .D e c i s i o n - t r e e - b a s e d m u l t i c l a s ss u p p o r tv e c t o rm a c h i n e s [ J ] .P r o c e e d i n g s o fI C O N I P 。2 0 0 2 3 1 4 1 8 1 4 2 6 . [ 5 ] N G U Y E NHS ,NG U Y E NSH .F r o mo p t i m a lh y p e r p l a n e st oo p t i m a ld e c i s i o nt r e e s r o u g hs e ta n d B o o l e a nr e a s o n i n ga p p r o a c h [ C ] //S U M O T OST , K O B A Y A S H IS 。Y O K O M O R IT ,e ta l 。T h eF o u r t h I n t e r n a t i o n a lW o r k s h o po nR o u g hS e t s .F u z z yS e t s a n dM a c h i n eD i s c o v e r y R S F D ’9 6 ,U n i v e r s i t yo f T o k y o ,1 9 9 6 8 2 - 8 8 . [ 6 ] 李兴生,李德毅.一种基于密度分布函数聚类的属 性离散化方法[ J ] .系统仿真学报,2 0 0 3 。1 5 6 t 8 0 4 8 0 6 . L IX i n g - s h e n g ,L ID e - y i .An e wm e t h o db a s e do n d e n s i t yc l u s t e r i n gf o rd i s c r e t i z a t i o no fc o n t i n u o u sa t - t r i b u t e s [ J ] .J o u r n a lo fS y s t e mS i m u l a t i o n ,2 0 0 3 ,15 6 8 0 4 8 0 6 . [ 7 ]张葛祥,金炜东,胡来招.粗集理论中连续属性的广 义离散化[ J ] .控制与决策,2 0 0 5 ,2 0 4 3 7 2 - 3 7 6 . Z H A N GG e - x i a n g ,J I NW e F d o n g ,H UL a F z h a o . G e n e r a l i z e dd i s c r e t i z a t i o no fc o n t i n u o u sa t t r i b u t e si n r o u g hs e tt h e o r y [ J ] .C o n t r o la n dD e c i s i o n ,2 0 0 5 ,2 0 4 3 7 2 3 7 6 . [ 8 ] H O L T ERC .V e r ys i m p l ec l a s s i f i c a t i o nr u l e sp e r f o r mw e l lo nm o s tc o m m o n l yu s e dd a t a s e t s [ J ] .M a - c h i n eL e a r n i n g ,1 9 9 3 1 1 6 3 9 0 . 责任编辑邓群 万方数据