煤矿事故本体自动构建.pdf
工矿自动化 Ind ustr ya nd MineAuto ma tio n 第45卷第9期 2019年9月 Vo l 45 No 9 Sep 2019 文章编号1671-251X201909-0075-05DOI10. 13272/j. issn. 1671-251x. 2019030021 煤矿事故本体自动构建 桂冬冬王向前李慧宗1 (1.安徽理工大学经济与管理学院%安徽淮南232001 ; 2.复旦大学管理科学与工程博士后流动站上海200433) 扫码移动阅读 摘要针对通过人工方式构建煤矿事故本体存在耗时耗力、具有局限性等问题,提出了一种煤矿事故本 体自动构建方法。首先,以煤矿事故案例文本作为数据源,采用BP神经网络自动提取本体概念。然后,通 过层次聚类法和关联规则法分别自动提取本体概念间层次关系、非层次关系。最后,利用Pr o teg e本体编辑 器对煤矿事故本体概念、概念间关系和实例进行可视化表达,得到煤矿事故本体。自动构建的煤矿事故本体 更加全面,可为煤矿安全生产工作提供有力支持% 关键词煤矿事故;本体;概念提取;关系提取;层次聚类;关联规则 中图分类号TD67 文献标志码A Auto ma tic c o ns tr uc tio no fc o a l minea c c id ento nto l o g y GUI Do ng d o ng1 , WANG Xia ng qia n1,2 , LI Huizo ng1 1.Sc h o o l o fEc o no mic sa nd Ma na g ement,Anh uiUniver sityo fSc ienc ea nd Tec h no l o g y, Hua ina n 232001, Ch ina; 2. Po st-d o c to r a l Sta tio n o f Ma na g ement Sc ienc e a nd Eng ineer ing ,Fud a n Univer s ity,Sh a ng h a i200433,Ch ina AbstractAiming a tpr o b l emso ftime-c o nsuming ,l a b o r -c o nsuming a nd l imita tio ninc o nstr uc ting c o a l minea c c id ento nto l o g yb yma nua l mea ns,a na uto ma tic c o nstr uc tio nmeth o d o fc o a l minea c c id ento nto l o g y wa s pr o po s ed .Fir s tl y,ta king texto fc o a l minea c c id entc a s ea s d a ta s o ur c e,BPneur a l netwo r kis us ed to a uto ma tic alyextr a c to nto l o g yc o nc ept.Th en,h ier a r c h ic a l r el a tio nsh ipa nd no n-h ier a r c h ic a l r el a tio nsh ip b etween o nto l o g y c o nc epts a r e a uto ma tic al y extr a c ted b y a d o pting h ier a r c h ic a l c l uster ing meth o d a nd a sso c ia tio nr ul esmeth o d .Finaly,o nto l o g yc o nc epts,r el a tio nsh ipb etweenc o nc eptsa nd exa mpl es o fc o a l minea c c id enta r evisua l ized b yuseo fPr o teg eo nto l o g yed ito r ,so a sto o b ta inc o a l minea c c id ento nto l o g y. Th e c o a l mine a c c id ent o nto l o g y b y a uto ma tic c o nstr uc tio n is mo r e c o mpr eh ensive a nd c a n pr o vid e str o ng suppo r tfo r c o a l minesa fetypr o d uc tio nwo r k. Key words c o a l mine a c c id ent ; o nto l o g y; c o nc ept extr a c t; r el a tio nsh ip extr a c t; h ier a r c h ic a l c l uster ing ; a sso c ia tio n r ul es 0引言 作为世界范围内的产煤大国,我国煤炭开采产 量一直处于较高水平,但同时我国煤矿事故发生率 和人员死亡率也是最高的。煤矿事故发生后,如何 在这些事故案例中寻找或发现特定的、有用的信息 来应用于以后的安全预警或救援行动中,其困难和 复杂程度相对较高。本体作为一种可共享的、明确 的、规范化的说明丄,能够很好地实现领域知识的共 享和重用。目前已有部分学者对煤矿事故本体进行 了研究 刘婷通过 FCA ( Fo r ma l Co nc ept Ana l ysis,形式概念分析)技术构建采煤工作面动态 收稿日期收稿日期019-03-08;修回日期修回日期019-08-14;责任编辑责任编辑盛男。 基金项目基金项目国家自然科学基金资助项目(51474007);安徽省自然科学基金面上项目(1808085MG221 作者简介作者简介桂冬冬(1994 ),男,安徽安庆人,硕士研究生,主要研究方向为本体工程、管理信息系统,E-ma il943870725qq. c o m。 引用格式引用格式桂冬冬,王,王向前,李慧宗煤矿事故本体自动构建工矿自动化,2019,45“)75-79. GUI Do ng d o ng, WANG Xia ng qia n, LI Huizo ng . Auto ma tic c o nstr uc tio n o f c o a l mine a c c id ent o nto l o g y d *. Ind us tr y a nd Mine Auto ma tio n201945(9)75-79. ・76・ 工矿自动化 2019年第45卷 本体并结合Jena推理机进行推理,可及时发现煤矿 井下不安全因素并采取措施,保障煤矿生产安全- 郭晓黎等囚从煤矿事故发生前、发生中、发生后3个 方面构建了煤矿安全事件本体模型并添加相应实 例,为煤矿事故应急处理提供支持。桂红军⑷构建 了一种基于本体的煤矿案例库并应用于煤矿应急救 援决策系统,为制定煤矿事故救援方案提供参考- 孟现飞囚基于本体构建了煤矿事故预警知识库模 型,应用结果表明该模型可有效提高安全预警准确 率。药慧婷等「6*构建了掘进工作面安全生产本体模 型,可为智慧矿山的智能决策提供帮助。但上述本 体在构建时,本体概念及概念间关系大多依靠人工 进行提取,耗费大量人力、时间,同时受人的主观性 影响,所构建本体具有局限性。鉴此,本文提出了一 种煤矿事故本体自动构建方法,采用BP神经网络 对煤矿事故本体概念进行自动提取,并在此基础上 对概念间关系进行自动提取,从而大大减少煤矿事 故本体构建的工作量,且所构建本体更全面,可为煤 矿安全生产提供有力支持。 1煤矿事故本体构建流程煤矿事故本体构建流程 煤矿事故本体构建流程如图1所示,具体步骤 如下。 煤矿领域词典 上停用词表 t I C T C L A S 图1煤矿事故本体构建流程 Fig .1 Pr o c esso fc o nstr uc tio no fc o a l mine a c c id ento nto l o g y 1搜集煤矿事故案例文本这样的非结构化数 据作为数据源,相比于结构化数据,可获得更多的概 念和关系,使所构建煤矿事故本体更加全面、完整。 由于大量文本杂乱无章、难以操作,需对数据进行预 处理,利用ICTCLAS中文分词系统并结合停用词 表和煤矿领域词典对数据进行分词、词性标注、停用 词过滤、词性统计、语义过滤等一系列操作,得到候 选概念集合。 2 通常利用特征来描述概念,但单一的特征 对候 概念 分 高, 为提高 分 果, 加背景语料库来获得概念的特征,并采用多个特征 组成特征向量来描述概念。构建BP神经网络并以 特征向量作为神经网络的输入,对神经网络进行训 练,完成对煤矿事故本体的概念提取。 3 在获得煤矿事故本体概念集合后,将每一 个概念视为一个类,采用层次聚类法⑺并依据平均 相似度进行迭代,得到概念间层次关系。利用关联 规则法囚提取概念间非层次关系,从而完成本体概 念间关系自动提取。 4 利用Pr o teg e本体编辑器⑼和OWLWeb Onto l o g y La ng ua g e,网络本体语言对本体的概念、 概念间 实 进行 矿 本体。 2煤矿事故本体概念自动提取煤矿事故本体概念自动提取 2. 1 数据预处理 2.1.1 文 分 ICTCLAS是由中科院研发的汉语词法分析系 统,其功能主要包括中文分词、词性标注、命名实体 识别等「10*,且支持导入自定义词典,分词准确率较 高 文 ICTCLAS 对文 进行分 处 但针对某个特定领域的概念时,ICTCLAS有时会 个概念 分为多个 而影响分 果 0工作面”可能被分为“工作/面1“瓦斯涌出”被分为 “瓦斯/涌出1“瓦斯爆炸事故”被分为“瓦斯/爆炸/ 事故”等。因此根据煤矿事故领域词汇的特征,通过 人工获取常用的煤矿领域词汇来构建自定义煤矿领 域词典并导入ICTCLAS中,提高文本分词效果。 2.1.2 停 滤 经过分词处理后的文本中包含很多与煤矿事故 领域无关的高频词汇,例如连词“然后1“接着1副 词0直1“非常”等,还有大量标点符号。这些连 词、副词、标点符号等停用词没有实际含义,增加了 概念提取的工作量。因此选取哈尔滨工业大学停用 词表和百度停用词表对分词处理后文本中所出现的 停用词进行过滤,提高概念提取的精度。 2. 2 基于BP神经网络网络的煤矿事故本体概念提取 BP神经网络由多个非线性函数组成,具有高度 的非线性运算能力和容错能力,本质上是一种黑箱 建模方法,不必对事物的机理进行准确、详细的数学 描述,常用于函数拟合、预测和分类等问题「八12*。 对 矿 体概念进行提取实 上 是概念分类 问题,因此可通过BP神经网络进行模式识别,从而 自动提取本体概念。 2019年第9期 桂冬冬等煤矿事故本体自动构建 ・・77・ ・ 2. 2. 1煤矿事故本体概念特征提取 在经过数据预处理得到候选概念集合后,需要 定义特征来表示煤矿事故本体概念与非煤矿事故本 体概念的差异。。特征是对一个客体或一组客体特性 进行抽象的结果,用来描述概念。为更好地区分煤 矿 体概念与 非 矿 体概念, , 需要 背景语料库来进行概念特征提取「13*,本文从艺术、 教育、军事、体育、健康、金融6个领域选取100篇文 本组成背景语料库。煤矿事故本体概念有众多特 性,根据煤矿事故本体概念共有的特性抽象出某一 特征,该特征就可用来区分是否为煤矿事故本体概 念。同时,将这些特征通过向量的形式作为BP神 经网络的输入,从而完成神经网络训练和概念分类- 本文选用 TF ( Ter m Fr equenc y,词频)、DF (Do c ument Fr equenc y,文档 频率)、IDF ( Inver se Do c ument Fr equenc y,逆文档频率)这3种特征组成 特征向量,部分候选概念的特征向量经归一化处 理后结果见表1O 表1部分候选概念的特征向量 Ta b l e1 Fea tur evec to r so fpa r tia l c a nd id a tec o nc epts 候选概念 TFIDFDF 煤矿事故 1 0000000 6943451.0 瓦斯爆炸 0 1327420 7923430.5 有害气体 0 0713450 6976530.2 巷道 0 0864930.586 3410.3 顶板事故 0 1242020.732 8130.6 停风 0 0564430.4852330.1 2. 2. 2煤矿事故本体概念提取 设训练样本集O { (1,-1 ),(2 2 ),, Ckk)},其中( 1,2,,E,为样本数)为第 个候选概念的特征, -R为特征个数,为第 i个候选概念所属分类,{0,1},设“0”表示非煤 矿事故本体概念,“1”表示煤矿事故本体概念-因此 煤矿事故本体概念的提取转换为寻找一个函数,满 足当为煤矿事故本体概念特征时 1,当为 非煤矿事故本体概念特征时“0。 。 首先对候选概念进行人工标记,将煤矿事故本 体概念即正样本标记为(1,0),非煤矿事故本体概念 即负样本标记为(0,1)O然后将样本的特征向量作 为神经网络 入 标 向 量 为神 经网 络的输出,进行BP神经网络的学习,学习特征向量 与标记样本之间的关系。在BP神经网络的学习过 程中不断调整网络的权值和阈值,,训练得到的神 经网络模型用于概念提取,最后得到煤矿事故本体 概念集合。煤矿事故本体概念提取流程如图2 O 图2煤矿事故本体概念提取流程 Fig 2 Pr o c esso fc o nc eptextr a c tio no fc o a l mine a c c id ento nto l o g y 3煤矿事故本体概念间关系自动提取煤矿事故本体概念间关系自动提取 在得到煤矿事故本体概念集合后,需要判断所 提取的概念与概念之间是否存在关系及存在何种关 O 体概念间 分为 非 系(也称分类关系和非分类关系)「15*层次关系表示 概念间的父子关系或上下位关系;非层次关系表示 除层次关系之外的其他关系,主要包括整体与部分 关系、属性关系等。 3. 1 煤矿事故本体概念间层次关系提取 目前,研究者大多采用基于语言学的方法来提 取本体概念间层次关系。但由于汉语语句组成形式 多 基 学 体概念间 提取 没有统一的方法,过程繁琐。聚类方法是一种无监 督学习方法,它将集合中的元素按照相似度组成多 个类,不需要特定的汉语句式,操作方法简单且统 O 类法对 矿 体概念间 次关系进行自动提取,具体实施步骤如下。 (1) 将煤矿事故本体概念集合中各概念视为一 个单独的类,使用余弦距离法计算各概念间的语义 相似度。 (2) 选取相似度最大(距离最小)的2个类E, F,将E,R聚为一类形成一个新的类-重复聚类操 作,直至所有类之间的相似度小于事先设置的阈值。 2个类E,R的相似度为 * sim(Ce,Cf ) sim(E,F) C- -E‘,f------------------------ (1) ・78・工矿自动化2019年第45卷 式中 C,Cp17v7“,17P7w,“,w 分别为类UF 中概念 量分别为类U,F中的概念。 3 当 类完成后,确定每一个类中的父 概念。一个概念与类中其他所有概念的平均相似度 大,说 与类中其他概念联 密切,走 广 泛性,因此取平均相 大的概念作为类 概 念。概念与类中其他概念的平均相 为 *simQ , D sima vg Cg 11 2 式中 Cg, C17I7f , g9h,f 为类中概念 的数量为类中的概念。 4 通过确定每个簇中的父概念和子概念,得 到煤矿 体概念间 。 3. 2 煤矿事故本体概念间非层次关系提取 非 主要反映本体概念各个类之间的主 要 ,通过提取非 ,, 增加知识表示 备 ,而且确 对本体进行推 J 完备性。概念间非 提取主要是 联 概念对的提取,并判断概念对中2个概念之间的具 体 矿事故案例文本中,如果2个煤矿事故本 体概念以较高频率出现在同一句子时,说明这2个 概念之间可能存在某 。当寻找出有关 矿事故本体概念对后,再筛选出与这2个煤矿事故 体概念 紧密的动词「16*,, 为概念对的 标签,从而 矿事故本体概念间非层次关 系。本文通过关联规则法自动提取煤矿事故本体概 念间非 ,具体实施步骤 。 1 从煤矿事故本体概念集合中取出2个概念 C , Cz ,判 是否 已提取 矿事故本体概念 间 同一类中,若不是则计算这2个概念 并判断是否大于或等 若是,则说明概念C和Cz具有 关联关系,将概念C和Cz提取出来形成1个概 念对。 2 当提取出存在关系的概念对之后,需要判 断存在何种具体关系。提取煤矿事故案例文本中连 接概念C和Cz的所有动词,计算动词V与概念对 点互信息值式3,若大于或等 点互信 息阈值,, 动词作为概念对 标签,彳 矿 体概念间非 。部分煤矿 体 概念间非 提取结果 2。 PM】“G,G,V心虫 LCCV⑶ 式中P・为概率。 表2部分煤矿事故本体概念间非层次关系提取结果 Ta b l e2 Extr a c tio nr eul to fno n-h ier a r c h ic a l r el a tio nh ip b etweenc o nc epto fpa r tia l c o a l minea c c id ento nto l o g ie 概念G概念Cz支持度置信度点互 值标 瓦斯爆炸有害气体 0.02730.21094.1462 产生 顶板事故回采工作面 0.01510.18865.2313 发生在 瓦斯泄漏瓦斯中毒 0.01270.06388.7531 引发 停积 0.01150.13617.5841 成 4本体可视化本体可视化 取 矿 体概念 概念间 需 要 体以 形式 ,彳 解煤 矿 知 需 要 对 矿 体概 念和概念间关系进行编辑。为 矿 体更 好地应用于煤矿领域,则需要添加实例。目前比较 成熟的本体构建工具有Onto Lea r n , Text-To-Onto , Onto Buil d er , Pr o teg e 等。其中 Pr o teg e 支持多种知 识表示,拥有图形 面,易于操 同时支持多种本体描述语言。另外Pr o teg e 优 件能力,通过安装插件 能,增强所 构建本体的应用能力。本文采用Pr o teg e本体编辑 器,选取 体描述 OWL对 矿事故本体概念、概念间关系和实例进行可视化表 矿 体,如图3 。 〔Ac tive Onto l o g y x j Entities x | Cl a sses | Ob jec t Pr o per ties x Da ta Pr o per ties x | Ind ivid ua l s b y c l a ss x | DL Quer y x I Cl a ss h ier a r c h y Cl a ss h ier a r c h yinfer r ed | Cl a ss h ier a r c h y瓦斯中毒事故 ▼■■■■ * o wkTh ing -事故地点 ▼ 煤矿事故 放炮事故 -机电事故 7火灾事故 ▼瓦斯事故 瓦斯突出事故 ■ 瓦斯爆炸事故 ▼ 顶板事故 ;推垮型冒顶 ;漏垮型冒顶 Q]曰回因 | Cl a ss Anno ta tio ns | Cl a ss Usa g e j Anno ta tio ns瓦斯中毒事故 Anno ta tio ns Desc r iptio n瓦斯中毒事故 Equiva l ent To O Sub Cl a ss o f 0 瓦斯事故 图 3 矿 体 Fig .3 Co a l minea c c id ento nto l o g y 5结语结语 提出了一种煤矿事故本体自动构建方法。首 先,通过BP神经网络从煤矿事故案例文本中自动 提取煤矿 体概念。然后,彳 类法自 动提取 矿 体概念间 联规 法提取 矿 体概念间 非 。 Pr o teg e 体编辑器对 矿 体概 念、概念间 实例进行 ,彳 矿事 体。相比以 人工构建方式,该方法大大减 工作量,同 建大规 体。但 建煤 2019年第9期桂冬冬等煤矿事故本体自动构建 79 矿事故本体的过程中仍存在一些不足在选取概念 特征作为BP神经网络的输入时,只选取了 3个特 征组成特征向量,不能更准确地描述领域概念,使得 概念自动提取过程变得繁琐;煤矿事故本体概念间 非层次关系并不全是由动词决定的,本文只考虑动 词这种情况,影响非层次关系提取的准确性。因此, 寻找更多的特征来提高概念自动提取精度,研究如 何自动提取其他词性的词决定的非层次关系将是下 一步研究重点。 参考文献References 1* STUDER R,BENJAMINS V R,FENSEL D. Kno wl ed g e eng ineer ing pr inc ipl es a nd meth o d s*. Da ta a nd Kno wl ed g e Eng ineer ing,1998,25 1/2 161-197. 2*刘婷.采煤工作面动态本体构建及推理规则研究 [D*太原太原科技大学,2017. 3 *郭晓黎,王宇,刘瑞祥.面向煤矿安全事件本体模型研 究与应用中国煤炭,2014,4012113116. GUO Xia o l i,WANG Yu,LIU Ruixia ng . Resea r c h a nd a ppl ic a tio n o f event o nto l o g y mo d el o f c o a l mine a c c id entsJ* Ch ina Co a l 2014 4012113-116 4 *桂红军.煤矿事故应急救援案例推理系统研究[D*. ,安 ,安科技大学 2017 5 *孟现飞基于本体的煤矿事故预警知识库模型及其应 用[D*徐州中国矿业大学2014. 6 *药慧婷,陈立潮,潘理虎.掘进工作面本体模型研究 J* 工矿自动 201541993-96 YAO HuitingCHEN Lic h a oPAN Lih u Resea r c h o f o nto l o g y mo d el o f h ea d ing fa c eJ* Ind ustr y a nd Mine Auto ma tio n 2015 41993-96 7*井津.聚类分析在煤矿安全事故特征分析的应用[J*. 陕西煤炭,2015,341959 8 JINGJin Appl ic a tio n o f c l uster a na l ysis in th e r esea r c h o f minesa fety a c c id entc h a r a c ter istic sJ* Sh a a nxiCo a l 2015 34195-98 8*贺海涛,郑山红,侯丽鑫,等基于中文文本的疾病领 域本体学习的研究吉林大学学报信息科学版, 2014,32176-81. Resea r c h o nd isea seo nto l o g yl ea r ning b a sed Ch inese text J*8Jo ur na l o f Jil in Univer sity Info r ma tio n Sc ienc eEd itio n 2014 32176-818 9 * NOY N FFERGERSON R WMUSEN M A8Th e kno wl ed g e mo d el o f Pr o teg e-2000 c o mb ining inter o per a b il ity a nd fl exib il ity C*//Pr o c eed ing s o f th e 12th Eur o pea n Wo r ksh o p o n Kno wl ed g e Ac quisitio n, Mo d el ing a nd Ma na g ement, Lo nd o n, 200017-328 10* ZHANG Hua pingYU Ho ng kuiXIONG Deyieta l 8 HHMM-b a sed Ch inese l exic a l a na l yzer ICTCLAS [C *//Th e 2nd SIGHAN Wo r ksh o p o n Ch inese La ng ua g ePr o c essing Sa ppo r o 2003758-7598 1*刘奕君,赵强,郝文利基于遗传算法优化BP神经网 络的瓦斯浓度预测研究矿业安全与环保,2015, 42256-60 LIU YijunZHAO Qia ngHAO Wenl i Stud yo fg a s c o nc entr a tio n pr ed ic tio n b a sed o n g enetic a l g o r ith m a nd o ptimizing BP neur a l netwo r kJ* Mining Sa fety Envir o nmenta l Pr o tec tio n,2015,422 56-60. [12*贺超峰,华心祝,马菁花,等.基于BP神经网络的回 采巷道围岩稳定性分类矿业工程研究,2012, 2736-9 HE Ch a o fengHUA Xinzh uMA Jing h uaet a l Cl a ssific a tio no fsur r o und ing r o c ksta b il ityo fr o a d wa y b a sed o nBPneur a l netwo r kJ* Miner a l Eng ineer ing Resea r c h 2012 2736-9 3*左红涛.基于人工神经网络的水环境本体概念抽取与 本体映射研究[D*武汉华中科技大学2016. [14*熊魏.基于TF-IDF推荐算法的多样性研究[D*荆 州长江大学2018 5*李志义,李德惠,赵鹏武.电子商务领域本体概念及概 念间关系的自动抽取研究[J*情报科学,2018, 36785-90 LIZh iyiLI Deh uiZHAO Peng wu Resea r c h o n a uto ma tic extr a c tio n o f o nto l o g y c o nc ept a nd its r el a tio n in E-c o mmer c e J * Info r ma tio n Sc ienc e 2018,3678590. 6*唐涛.基于文本挖掘的领域本体学习模型研究图 书情报工作2010,54增刊2348-352. HE Ha ita oZHENG Sh a nh o ngHOU Lixineta l