数据挖掘技术在煤矿隐患管理中的应用.pdf
第 4 2 卷 第 2期 2 0 1 6年 2月 工矿 自 动化 I n dus t r y a n d M i ne Au t oma t i on Vo 1 . 4 2 NO . 2 Fe b . 2 O 1 6 文章 编号 1 6 7 1 2 5 1 X 2 0 1 6 0 2 0 0 2 7 0 4 DO I 1 0 . 1 3 2 7 2 / j . i s s n . 1 6 7 1 2 5 1 X . 2 0 1 6 . 0 2 . 0 0 7 陈运启. 数据挖掘技术在煤矿隐患管理 中的应用E J ] . 工矿 自动化 , 2 0 1 6 , 4 2 2 2 7 3 0 . 数据挖掘技术在煤矿隐患管理中的应用 陈 运 启 中煤 科 工集 团重 庆研 究 院有 限公 司 , 重 庆4 O 0 0 3 9 摘 要 针 对 目前煤 矿 隐 患管理 缺乏 对 隐 患数 据 深入 分析 的 问题 , 介 绍 了适合 隐 患关联 规 则发现 的数 据挖 掘算法, 提 出用支持度一 置信度一 Ku l c z y n s k i 度量模式表达 隐患 因素间的关联 关系。对 隐患数据预处理、 转 换后构建隐患数据仓库, 并在隐患责任部门、 隐患种类、 隐患等级和 隐患发生地点 4个维度上进行挖掘分析, 发现 多维度间存在 的较强关联规则, 给 出针对性的辅助决策。现场实际应 用表明, 通过使用数据挖掘 算法, 减少了隐患的发生次数, 为煤矿隐患治理提供 了可靠支持 。 关键 词 煤矿 隐患 ;数据 挖掘 ;支持 度 ;置信 度 ; Ku l c z y n s k i 度 量 ;关联 规 则 中 图分类 号 T D6 7 文献 标 志码 A 网络 出版 时间 2 0 1 6 一 O 1 ~ 2 6 1 5 4 3 网络 出版 地址 h t t p / / www. c n k i . n e t / k c ms / d e t a i l / 3 2 . 1 6 2 7 . T P . 2 0 1 6 0 1 2 6 . 1 5 4 3 . 0 0 7 . h t ml Ap pl i c a t i o n o f d a t a mi ni n g t e c hn o l o g y i n c o a l mi ne h i d d e n h a z a r d ma na g e me nt CHEN Yu nq i CCTEG C h o n g q i n g Re s e a r c h I n s t i t u t e ,Ch o n g q i n g 4 0 0 0 3 9 ,Ch i n a Ab s t r a c tFo r l a c k o f de e p a na l y s i s O hi d de n ha z a r d d a t a i n c ur r e n t c o a l m i ne hi dd e n ha z a r d ma n a ge me n t ,d a t a m i n i ng a l g or i t hm s wh i c h we r e s u i t a bl e f or d i s c o ve r i ng a s s oc i a t i o n r ul e o f hi dd e n h a z a r d we r e i nt r o du c e d, a nd s u pp o r t c o n f i de nc e K u l c z y ns ki mod e l wa s p r op o s e d t o i nd i c a t e a s s o c i a t i o n r e l a t i o n s h i p a mo n g h i d d e n h a z a r d f a c t o r s .Da t a wa r e h o u s e i s b u i l t a f t e r p r e p r o c e s s i n g a n d c o n v e r s i o n o f hi d d e n ha z a r d da t a,a nd mi ni ng a n a l ys i s i s c o nd uc t e d on f ou r d i me ns i o ns s u c h a s de p a r t m e nt ,c a t e go r y, l e v e l a n d a d d r e s s o f h i d d e n h a z a r d,S O a s t o p r o v i d e c o r r e s p o n d i n g a s s i s t a n t d e c i s i o n ma k i n g a c c o r d i n g t o s t r o n g a s s o c i a t i o n r u l e f o u n d e d a mo n g d i me n s i o n s .Th e a c t u a l a p p l i c a t i o n r e s u l t s s h o w t h a t o c c u r r e n c e o f h i dd e n ha z a r d i s r e d uc e d a nd r e l i a bl e s up po r t i s p r ov i d e d f o r c o a l mi ne hi d de n ha z a r d ma n a ge me nt by us e o f t he d a t a mi ni n g a l go r i t hm . Ke y wo r d s c o a l mi n e h i d d e n h a z a r d;d a t a mi n i n g;s u p p o r t ;c o n f i d e n c e ;Ku l c z y n s k i me a s u r e me n t ; a S S O c i a t j o n r u 1 e 0引 言 隐患的排查与整改是煤矿安全生产管理的重要 环节, 特别是当前安全检查的力度不断加大 , 暴露出 来的各类煤矿安全 隐患 的数 量也越来 越多 。据统 计 , 2 0 1 3年中国仅工矿企业排查出的隐患数据就多 达 5 0 0万 。为 了应对企业 隐患 的信息化 管理要 求 , 各种隐患管理系统的研发与应用也在不断开展。 但是 , 当前多数隐患管理系统基本上只提供对隐患 信息的简单记录与查 询统计 , 缺乏对海 量隐患数据 的深入分析。发现 隐患数据 中各 因素 间的关联关 系, 减少隐患发生次数 , 提高生产安全指数 , 是当前 煤矿隐患排查治理和信息化发展过程中亟需解决的 重要课题之一 。本文将数据挖掘算法应用于煤矿隐 收稿 日期 2 0 1 5 1 1 - 1 3 ; 修 回日期 2 0 1 6 0 1 1 0 ; 责任 编辑 盛男 。 基金项 目 工信部 2 0 1 4年物联网发展专项资金项 目 2 0 1 4 O 8 3 1 0 5 。 作者简介 陈运启 1 9 8 4 一 , 男 , 安徽萧 县人 , 助理研究员 , 硕 士, 主要从事煤矿综合 自动化与信息化 等方 面的研究 工作 , E - ma i l c h e n . y u n . q i q q.c orn o 2 8 工矿 自动化 2 0 1 6年 第 4 2卷 患 管理 系统 , 针对 隐 患数 据 在 多 个 维 度 上展 开 关 联 分析与挖掘 , 为后续 隐患管理提供较为准确 、 可靠 的 辅助 决策 。 1数据挖 掘 技术 数据 挖 掘概 念 出现 于 2 O世 纪 8 O年 代 , 是 一 种 多学 科综 合 的产物 , 其 充分 利 用 统 计 学 、 数 据 库 、 人 工智能、 模式识别和机器学习等理论与技术 , 从海量 数据 中进行 自动分析与挖掘 , 发现潜在的隐含知识 , 协助用户做出合理决策与准确预测等 ] 。目前 , 数 据挖 掘相 关技 术与 产 品 已广泛 应 用 于金 融 分 析 、 医 疗保健、 商 品销售、 行为预测分析等领域 。 1 . 1数 据 挖 掘 过 程 对数 据 挖 掘过 程 的 研究 有 多 种 , 但 基本 上 可 归 为数据预处理 、 数据转换 、 数据挖掘和结果评估与表 达 4个 步 骤 。 数据预处理是指从数据源中选择要处理的数据 对象或数据主题 , 并对选择的数据进行清理 , 去掉其 中的噪声数据、 重 复数 据, 补 充不完整或缺 失的数 据 。数据 预处 理是 数 据 挖 掘 的重 要 基 础 , 处 理 后 的 数据质量直接决定了整个数据挖掘结果的准确度和 可信度 。 数据转换是将预处理后的数据根据挖掘需要在 数据范围和数据维度上做 出一定的计算与选取。往 往预处理后的数据在数量级和维度上都 比较高, 在 数据挖掘执行过程 中, 可能会分批选择不 同阶段和 不同维度上的数据 , 并转换为适合数据挖掘算法使 用的数据结构 。 数据挖掘是在前期处理结果 的基础上 , 利用许 多不 同方法如决策树方法、 神经网络方法、 贝叶斯方 法、 关联分析方法、 聚类分析方法等对数据进行挖掘 计算 , 从而发现相应 的关联关系和知识模型 。 结果评估与表达是数据挖掘过程的最后阶段 , 其利用适当的可视化技术和知识合理表达数据挖掘 的计算结果并呈现给用户 , 进而评估数据挖掘质量 以及 知识 模 型 的有 效性 。 1 . 2 关联规 则 算法 所谓关联 , 就是反映一个事物与其他事物之 间 的依赖关系 。关联规则算法是一种在海量数据中找 出这些依赖关系的方法 , 适 用于隐患数据中各因素 间关联关系的挖掘与分析 。关联规则中的基本概念 有 项 集 I t e ms e t 、 支 持 度 S u p p o r t 和 置 信 度 C o n f i d e n c e E a ] 。 设定存在事务数据库 D一{ t , t , ⋯, t } , 其 中 t , t , ⋯ , t 表 示 每 一 个 事 务 ; 所 有 项 目的 集 合 , 一 { i 。 , i , ⋯, i , 其 中 i , i , ⋯ , i 表示 每一个项 目, 每个事务包含 的项集都是 I的子集 。关联规则是支 持度和置 信度 分别满 足给定 阈值 的规 则, 用 形 如 X y的蕴涵 式来 表 示 X, Y 表 示 项 集 , 其 中支 持 度表示 X y蕴涵式在事务数据库 中出现 的频率 , 即 S u p p o r t X Y 一P xUy , 置信度表示 y在包 含 X 的 事 务 中 出现 的频 率 , 即 C o n f i d e n c e X y 一 S u p p o r t X y / S u p p o r t X 一P y 1 X 。 Ap r i o r i 算 法 是关 联 规 则 挖 掘 领 域 中 的经 典 算 法 , 应用 非 常广泛 。Ap r i o r i 算 法 的核 心是 挖 掘 频繁 项集的递推算法 , 其基本思想是用迭代的方 法找出 所有的候选集 , 将这些候选集 的支持度与最小支持 度 比较 , 如果不小于最小支持度 , 即为频繁项集 。找 到频繁项集后, 计算规则的置信度, 如果所得置信度 大于最小置信度 , 则产生强关联规则_ 4 ] 。 Ap r i o r i 算法在搜索频繁项集和挖掘强关联规 则时, 需要多次扫描事务数据库 , 同时会产生大量的 候选集 , 算法执行所花费的时间和空间代价都 比较 大 , 在挖掘长频繁模式时算法性能较为低下 , 挖掘的 强关联规则也容易产生误导信息。 1 . 3 支持度 一 置信 度 一 Ku l e z y n s k i 度 量模 式 针对 Ap r i o r i 算法存 在 的缺点 , 韩 家炜提 出了 F P Gr o wt h F r e q u e n t P a t t e r n Gr o wt h , 频 繁 模 式 增长 算法。F P G r o w t h算法首先对事务数据库进 行分析和处理, 生成 1 一 频繁项集 , 并根据支持度 由 大到小排序 , 形成频 繁项索引表。然后构建根节点 为“ n u l l ” 的 F P Tr e e F r e q u e n t P a t t e r n Tr e e , 频 繁 模式树 , 并对事务数据库 中的每个事务进行处理 , 不 断构建 F P ~ T r e e分 支节 点 。最后 进 行 F P T r e e 挖 掘 , 可 采用 自底 向上 的迭 代方式 , 以叶子 节点 为后 缀的项 与 一起 出现 的前 缀路 径 组成 一 个 条件 模 式基 引。 在 生成 卜 频 繁项 集 时 , 可 以根 据 支 持 度 大 小 , 限制生成的 1 一 频繁项集 的大小 , 以减少迭代次数 , 提高挖掘效率。由于 F P Gr o wt h算法对事务数据 库有效压缩 , 相 比 Ap r i o r i 算法避 免了重复扫描事 务数据库带来的额外 开销 ; 此外, F P Gr o wt h算法 还将发现长频繁模式的问题转化为递归模式增长的 策略, 避免产生大量候选集 , 大大降低了算法的时间 2 0 1 6年第 2期 陈运启 数据挖掘技术在煤矿隐患管理 中的应用 2 9 复杂 度 。 F P Gr o wt h算法采用支持度和置信度表示发 现 的规则 之 间 的关 联性 , 容 易 产 生误 导 的关 联 规 则 结果 , 特别是 P Xl y 与 P yl x 相差较大时 , x与 y 之 间可能 具有 正相 关与 负相 关 2种 对立 关 系 。 因 此增加更有效的 Ku l c z y n s k i 度量【 6 ] , 它仅受条件概 率影 响, 而 与 事 务 总 数 无 关 , 具 有 零 不 变 性。 Ku l c z y n s k i 度 量是 与 X, y相 关 的 2个 关 联 规则 x y, y x 的置信度 的平均值 , 即 Ku l c z y n s k i X, y 一 P Xl y P yl x / 2 , 利用它来扩展支持 度一 置信度模式 , 生成支持度一 置信度 一 Ku l c z y n s k i 度 量模 式 , 有助 于挖 掘 煤 矿 隐 患 多 个 维度 之 间更 有 效 的关 联规 则 。 2 隐患数 据挖 掘与 应 用 针 对 隐患数 据 展开 的挖 掘分 析是 在煤 矿 隐患 闭 环 管 理 系 统 基 础 上 展 开 的。 系 统 基 于 . NE T F r a me wo r k技术平 台实现 ] , 使用 Mi c r o s o f t S QL S e r v e r 2 0 0 8 作为持久层数据库服务器 , 利用 AS P . N E T MV C框架 并结 合 Ht ml , C S S , J a v a S c r i p t , j Qu e r y等前端编程技术 与插件实现 We b终端报表 查询 、 图表统计 、 挖掘结果呈现等功能, 提供 了友好 的用 户体 验 。隐患 处理 流程 包含 隐患 排查 、 整 改 、 申 诉 、 验收和存档等 , 系统对存档的数据进行预处理后 展开数据挖掘 , 给出合理的决策建议 , 如图 1 所示 。 _ _ I 员 改 f 挖 掘 分 析 策 建 议 l ’ 决策人员 图 1隐 患 处 理 流 程 2 . 1 隐患数 据预 处 理与数 据 转换 为了提高数据挖掘的准确性和速度 , 在展开挖 掘之前对隐患数据进行相应的处理 。在综合考虑数 据仓库数据更新速度 和数据完整性 的情况下, 设定 隐患数据从源数据库 中抽取的周期为 7 d , 抽取过程 中去除 申诉成功并取消 的隐患数据 。同时 , 从隐患 自身特点 和实 际需要 出发 , 决定 在 隐患责 任部 门 D e p a r t me n t 、 隐 患 种 类 C a t e g o r y 、隐 患 等 级 L e v e 1 、 隐患发生地 点 Ad d r e s s 4个 维度上进行 挖 掘分 析 。 隐患 种 类包 括 调 度类 、 通 风类 、 采 掘 类 、 机运类 、 地测防治水类 、 爆炸品与放炮类 和共性类 ; 隐患等级依据严重程度由高到低分为 A级、 B级、 C 级和 D级。在隐患数据载人数据仓库之前, 对数据 进行精简 , 只保 留隐患的基本信 息和以上几个维度 信息 , 可减少冗余数据 , 提高挖掘效率。 2 . 2挖掘 分析 过程 及 结果 本文以某煤矿现场的实际隐患数据展开数据挖 掘过程并分析隐患各维度间的关联关系 , 发现较强 的关联规则指导现场生产。以该煤矿 1个月 2 8 4条 隐患数据为例 , 经计算后其频繁项索引表前 1 0项见 表 1 。 表 1 隐患数 据频 繁项 索引表前 1 O项 从表 1可看出, C级、 采掘类和 B级隐患排名靠 前 , 且掘进二 队的隐患数量位居各部门首位 , 因此以 掘进二队为基础 , 从隐患责任部门、 隐患等级和隐患 种 类 3 个 维 度上 进行 分析 , 生成 相应 的 F P Tr e e如 图 2所 示 。 图 2 隐患责任部门一隐患等级一隐患种类 F P Tr e e 从图 2可看出, 掘进二 队负责整改 的相关隐患 中 , 采掘类 和 C级 隐 患 占 了非 常 高 的 比例 , 通 过 计 3 O 工矿 自动化 2 0 1 6年 第 4 2卷 算可得 D e p a r t me n t 掘 进 二 队 C a t e g o r y 采 掘 类 [ S u p p o r t一 1 5 .4 9 ,C o n f i d e n c e一 8 1 .4 8 , Ku l c z y n s k i 一5 2 . 0 2 ]; D e p a r t me n t 掘 进 二 队 C a t e g o r y 采 掘 类 L e v e l C 级 [ S u p p o r t 一 1 3 .0 3 , C o n f i d e n c e一 8 4 . 0 9 %, Ku l c z y n s k i 5 1 . 4 0 ] 。 此外 , 针对掘进二 队的隐患增加隐患发生地点 维度的挖掘与分析 , 其 F P T r e e如 图 3所示 , 其 中 4 3 2 1 3 8运输 巷 隐患 总数 为 2 9条 , 1 6 0 0 m 进 风 斜井隐患总数为 1 8 条 。通过计算可得 De p a r t me n t 掘进 二 队 Ad d r e s s 4 3 2 1 3 8运 输 巷 [- S u p p o r t 一 1 0 . 2 1 , C o n f i d e n c e 一 5 3 . 7 0 , Ku l c z y n s k i 一7 5 . 1 8 ] ; De p a r t me n t 掘 进 二 队 Ad d r e s s 1 6 0 0 m 进 风 斜 井 [ S u p p o r t一 6 .6 9 , C o n f i d e n c e一 3 3 . 3 3 , Ku l c z y n s k i 6 4 . 0 3 ] 。 图 3 隐患责任部门一隐患发生地点 F P T r e e 2 . 3 辅助 决 策 从掘进二队在陷患种类和隐患等级维度上的挖 掘结果可看 出, 掘进二 队与采掘类和 c级隐患的关 联关 系更 强 。因此 , 建 议 掘进二 队在 处理 隐患 时 , 将 重点 放在采 掘类 和 C级 隐 患上 。 对掘进二队隐患发生地点维度上的数据进行挖 掘分析后可看出, 掘进二 队的主要 隐患发生地点集 中在 4 3 2 1 3 8运输巷和1 6 0 0 m进风斜井处 , 且 相比置信度 而言 , Ku l c z y n s k i 度量值更 高 , 表 明该 2 个地点发生的隐患与掘进二队的关联性更强 。因 此建议掘进二队着重处理该 2个地点的隐患 。 通过以上计算和分析 , 就掘进二队而言 , 在隐患 发生地点 、 隐患种类和隐患等级上 , 均给出了有数据 支持 的辅 助 决 策 。在 随后 1个 月 的 隐 患 治 理 整 改 中, 掘进二队负责整改 的隐患 占全矿 隐患的 比例 由 1 9 . 0 1 %下降至 1 3 . 5 0 , 效果非常明显 。 3 结语 数据挖掘技术在煤矿隐患管理中的应用 , 给隐 患治理提供 了切实可用的决策建议 , 使 隐患得到了 针对性整治, 隐患发生率有较大幅度降低 , 生产安全 状况得到明显改善。产生煤矿安全隐患的关联 因素 较多 , 其中煤矿人员 的专业素质、 培训考试信息 、 年 龄结构层次等数据也是潜在 的重要关联点 , 所 以在 下一步的研究中, 计划将以上数据抽取、 转换后装载 到数据仓库中, 建立包含“ 人” 的因素在 内的挖掘分 析模型 , 进行更深层次、 更广维度 的关联分析挖掘 , 发现“ 人” 的因素对煤矿隐患产生 的影响情况 , 提供 更为全面的辅助决策 。 参考文献 E l i 张大 伟. 基 于 O L AM 的煤 矿企 业 安全 隐患 趋 势分 析 [ J ] . 煤炭工程 , 2 0 1 5 , 4 7 5 1 3 9 1 4 2 . E 2 ] 王梦雪. 数据挖掘综述 I- J ] . 软件导刊, 2 0 1 3 , 1 2 1 0 1 3 5 - 1 3 7. E 3 ] 芦海燕. 数 据挖掘 中关联规则 算法 的研究 [ J ] . 电脑 知 识与技术 , 2 0 1 1 , 7 2 6 6 3 2 4 6 3 2 5 . E 4 ] 黄伟力 , 李 亮. 基于 Ap r i o r i 的煤 矿安全 预警 系统设 计 I- J ] . 计算机测量与控制 , 2 0 1 3 , 2 1 1 0 2 7 8 6 2 7 8 8 . [ 5 ] 章志刚 , 吉根林. 一种基 于 F P G r o wt h的频 繁项 目集 并行挖掘 算法 [ J ] . 计 算 机工 程 与应 用 , 2 0 1 4 , 5 0 2 1 0 3 1 O 6. E 6 ] 曲广龙 , 杨 洪耕 . 基于梯形云模型 的电能质量数据关 联 性挖 掘 方 法 [ J ] .电 力 系 统 自动 化 , 2 0 1 5 , 3 9 7 1 4 5 1 5 0. [ 7 ] 李璨. 基于. NE T的分层架构及抽象工厂模式在 we b 开发 中的应用[ J ] . 软件导刊 , 2 0 1 5 , 1 4 4 1 0 5 ~ 1 0 8 . E 8 ] 秦冠男. 基于 AS P . NE T MVC框架的 I T管理系统的 设计[ D] . 上海 上海交通大学 , 2 0 1 3 .