融合煤矿多维时序数据的瓦斯异常检测算法.pdf
计算机集成制造系统 Vol . 26 No. 6 ComputerI ntegra ted Ma nuf a cturi ngSystems J une2020 第26卷第6期 2 0 2 0年6月 D“I 10. 13196/j. ci ms. 2020. 06. 021 融合煤矿多维时序数据的瓦斯异常检测算法 丁 汀颜登程2,张以文周 珊3 1安徽大学计算机科学与技术学院,安徽 合肥230601; 2安徽大学物质科学与信息技术研究院,安徽 合肥230601; 3深圳易伙科技有限责任公司,广东 深圳518000 摘要瓦斯是引起煤矿安全隐患的重大因素,高效准确地检测瓦斯异常在煤矿安全生产过程中扮演着重要 角色。传统的瓦斯异常检测方法通常仅基于来自瓦斯传感器的单一监测数据,而矿井下的恶劣环境可能造成瓦斯 传感器失效,监测数据可信度较低,从而导致误报、漏报等问题。为解决上述问题,基于多种传感器监测数据,提出 一种融合煤矿多维时序数据的瓦斯异常检测算法。该方法首先对煤矿中多维时序数据进行滑动窗口采样;然后建 立局部敏感哈希孤立森林;最后根据待检测样本在森林中每棵树上的路径长度计算异常得分及异常率,当滑动窗 口中的异常率超出指定阈值时,则自动更新森林通过在真实的淮南朱集煤矿数据集上进行的大量实验,表明了 所提方法在提高检测精度上的有效性 关键词瓦斯浓度;异常检测;滑动窗口;局部敏感哈希;孤立森林 中图分类号TP399 文献标识码A Gas anomaly detection algorithm merged with coal multi-dimensional time series data DING Ti ng , OAN Deng c heng2 , ZHANGYWn】,ZHOUSh” 1. Sch ool of Computer Sci ence a nd Tech nol ogy, Anh ui Uni versi ty, Hef ei 230601, Ch i na; 2I nsti tutesof Ph ysi ca l Sci encea ndI nf orma ti onTe ch nol ogyAnh ui Uni ve rsi tyHef ei 230601Ch i na;; 3. Sh enzh en Yi h uo Sci ence 第二个阶段将待检测数据输入模型,若网络 接收则为正常点,反之为异常点[14]„ 针对上述问题,本文提出一种融合了多维煤矿 时序数据与局部敏感哈希孤立森林的瓦斯浓度异常 检测算法,该方法将滑动窗口与局部敏感哈希孤立 森林相结合,不仅能够降低高维环境下的时间开销, 还能解决因瓦斯探头失效、不按规定放置而引起的 误报、漏报等问题,可有效提高瓦斯异常检测精度 2背景知识 2. 1局部敏感哈希 局部敏感哈希Loca l i ty Sensi ti ve Ha sh i ng, LSH15*是一种从海量的高维数据集合中找到与某 个数据最相似的一个或者多个数据的高效方法其 基本思想是在高维数据空间中的两个相近数据被 映射到低维数据空间中后,将有很大的概率保持相 近 输出一棵局部敏感哈希孤立树; Begi n 1 i f\S\0th e n 2 re turn NULL; 3 e se i f \S\1 ORIHth e n 4 re turn node {Si ze* \ S \ Ha sh _I ndex7I, Ch i l dren*}; 5 ese 6 {Ki Si ,,Kv Sv }71sh _spl i tS, f f F; 7 Wh i e v1 AND I9H do 8 I 7I 1 ; 9 {K1S1 , ,KvSv-7sh_sp i tS,fI ; 10 i f I Hth e n 11 re turnnode{Si ze7\S\,Ha sh_I ndex7I-; 12 I ni ti a l i se ch i l d node i ndex i ng T* ; 13 f ori,1 9i9vdo 14 Ci7LSHi Tre eS,F,H,I 1; 15 T7TU{K1C1}; 16 re turnnode{Si ze7\S\,Ha sh_I ndex7I,Ch i l dren7C- End 3.3异常评估异常评估 在训练阶段完成了 LSHi Forest的建立后,需 要在每个滑动窗口评估一个数据集中的实例的异常 得分及异常率,如算法3所示。并与异常率阈值作 比较,若高于阈值,则需要更新局部敏感孤立森林 对于一个数据实例X,本文通过子程序pa th_ l ength评估其路径长度L 与LSH tree T,的关 系,该部分将在算法4中详细说明为了使来自每 个LSH tre e的路径长度有可比性,本文基于参考路 径长度“9对L 进行归一化不同于i Forest 对所有的树都使用单一的参考值,在本文方法中,因 为树的大小不同,所以不同的树使用不同的参考值 i Forest中使用的参考路径长度是二叉搜索树中不 成功搜索的平均路径长度然而,这不适用于本文 情况,因为本文方法中分支因子[通常大于2 PARTI CI A前缀树索引9个数据实例的成功搜索 期望为丄l n9 gi驴,当i 8 pl n p, , 2 8 pl n2 pz , i i-1 i-1 8 p,l n1 p,在与高度估计相同的假设下, i-1 即pz-丄,本文的参考值 l n9 l n [ 1 l n[ “9- 1 0 4 由于[的信息未知,需要从训练完成的LSH 9 [ 1 V 9 V [ 0. 3 1656计算机集成制造系统第26卷 trees中评估它。具体来说,从平均分支因子来评 估[ 与i Forest相同,本文进一步用指数函数2x ,x E0将归一化路径长度非线性地缩放到区间0,1*。 但是i Fo r est的非线性缩放位于整合方法的路径归 一化之后,不会影响最终异常分数的顺序本文方 法在组合之前进行非线性缩放,使其有助于改善整 体的多样性。使用非线性标度的算术平均值作为最 终的异常得分,即ASx 1 8 2時。实际上,来 t 1-1 自i Fo r est的最终异常分数可以被视为非线性缩放 1 h. x / h. _ 值的几何平均值,即2丁8命-槡槡[2命是 与“9参考路径长度。尽管Ch a rui 7]在异常评分 组合方法中提出一个名为AOMa vera ge of ma x i - mum的非线性缩放方法是一个均衡的选择,性能 非常好本文方法是AOM的变体,没有对基础检 测器进行分组 算法3预测异常分数 输入 测试数据X;LSH函数簇F;LSH f orest {;,|199;路径调节因子尹粒度级别L;异常率 g;异常率阈值u; 输出 Anoma l y scores {ASx|xX}。 Begi n End 1i f 7L th en . T node. Ha sh i ndex \ 8 / , 、 4 re turn I ur ------------1---------------- 十 3 node. Si z e ; 5 el se 6 KfHa sh_I nde x x , f Ha sh_I ndexF ; 7 i f / K; C; node. Ch i l dren AND KK th en 8 re turn pa th _l e ngth x,F, C , h , L, Iur 十 1; 9 el se r c ,, 1 八 / node. Ha sh l nde x 1 \ 8 10 re turn Iu 十1 -----------i十】------。 End 本文方法与i Forest有如下不同在路径长度 计算中,遍历可以在内部和外部节点处停止,如算 法4的第4行和第10行所示,而i Forest只能在外 部节点处停止。这意味着LSHi Forest具有更强的 检测能力,因为不相近的数据实例,即潜在的异常 往往具有更短的路径长度。另一个区别是来自字 和 PATRI CI A 前 中 的 x 的 被 合成单个路径长度,使本文方法更加灵活。具体 地,hx hc ,其中h和hu分别是压缩和未 压缩的路径长度,是在[0,1*之间变化的调节因 子,该参数控制着LSH函数族定义的空间距离信 息的粒度。当q1时,hxh”,意味着使用最精 细的隔离粒度,且检测器具有最佳的全局异常性 能。然而,对于局部异常,应当是减小这种粒度, 因为稀疏区域中点之间的距离可以大于异常和密 集正常区域之间的距离。因此,较小的少可用于局 部异常检测。但这仍然不足以解决无法检测局部 异常的问题,一种有前景的解决方案是将数据转 换到另一个空间上,并在变换空间中应用基于隔 离的异常检测。 3.4时间复杂度分析时间复杂度分析 关于样本大小,LSHi Forest的计算复杂度类似 于i Forest,具体来说,训练阶段的平均情况时间复 杂度为O91og”9,评估阶段的平均情况时间复 杂度是Ol og” 9。由于大多数LSH函数具有 O1时间复杂度,因此本文方法可以非常快。 第6期丁汀等融合煤矿多维时序数据的瓦斯异常检测算法 1657 4实验分析 4. 1数据集 为验证基于LSHf orest的煤矿瓦斯异常检测模 型的可行性,以及本文算法GADM的有效性, 使用真实数据集进行测试,该数据集是由淮南煤矿 集团朱集东矿提供的矿山监测数据,时间区间为 2017年3月10日〜2017年9月9日,所有传感器 每间隔10 s收集一次数据。监测值包括同一工作 面下的瓦斯浓度、风速、一氧化碳浓度、二氧化碳浓 度、氧气浓度、温度、日产量、煤尘浓度 实验环境为编程语言为Pyth on,实验机器配 置为16 G内存,Core i 7-49703处理器‘Wi ndow s操 作系统 4. 2评估指标 为评估本文方法的检测性能,采用AUCa rea under curve “2*作为评测指标,AUC是一个二分类 模型评价指标,是 ROCrecei ver opera ti ng ch a ra c te r sti c曲线下面区域的面积,以量化ROC曲线性 能。ROC曲线基于样本的真实类别和预测概率,其 纵轴为真正率TPR,,横轴为假正率FPR TP TPR TP RFN, , ⑸ FPR FP TN RFP 6 AUC的值越大,说明分类模型的性能越好,对 于最理想的分类模型,其AUC值等于1;对于随机 分类模型,其AUC值为0.5。 。 4.3性能对比 为更好地评估本文方法GADM的性能, 选择以下几种较经典的方法在AUC指标上进行对 比实验 1 基于移动窗口方案的方法[7] BFMW 0 0 一 种基于统计的异常检测方法,通过滑动窗口,改进了 k检验方法,超出区间的为异常 2 基于孤立森林的时序异常检测方法i F- orestASD。。基于孤立森林与滑动窗口的异常检测 算法,通过递归地随机分割数据集,直到所有样本点 都是孤立的,通过路径长短判断待检测点是否为异 常点。 。 表1为本文方法及对比方法的重要参数。 。 表表1算法重要参数算法重要参数 方法参数 BFMW 8ForestASD GADM kp标准的阈值组合,z 3kf 2 采样大小0256;孤立树高tree h e i gh t8; 孤立树个数-100 孤立树个数-100;采样大小0100; 滑动窗口大小T7 200 表2是采用0.1〜3的异常样本比例在不 同方法的检测效 本文 法 的3 部敏感哈希函数ALSH、L1SH、L2SH,与其他 异常检测方法相比,在各种异常发生率的场景下均 具有更大的AUC,,即更佳的检测精度,特别是 L1SH、L2SH与其他方法相比,在多数情况下都有 更出色的检测效果,这表明本文方法具有更优的检 测效果。。i ForestASD和LSH i Fore st框架下的 ALSH丄1SH、L2SH在真实的煤矿瓦斯数据集下 有相 的 , , 的 , , 这是因为此类方法与数据分布无关在现实情况 中,如果出现瓦斯传感器损坏,瓦斯监测系统会维持 某个恒定值,导致漏报,此刻的AUC值为0,而本文 方法能够综合利用与瓦斯具有关联关系的数据,如 一氧化碳浓度、风量,与传统办法相比,漏报率显著 降低。因为综合使用了多维数据,可以发现本文算 法在高维数据情形下表现很好,这是因为LSH最 初的提出是为了解决高维数据下的最近邻搜索问 题。总体而言,本文算法在高维数据空间、不同异常 比例条件下,都具有优异的异常检测效果,特别是 L2SH,同时拥有高检测精度和鲁棒性 表表2检测性能对比检测性能对比 指标方法0. 10. 20 . 3123 BFMW0. 950 4 .959 0 . 9 0 1 2 .8939 .89790 . 9 0 2 1 iForestASD0. 983 0 .9798.94 4.9482 .9864.99 5 AUCALSH .992 0. 949 1 .9853 0.966 9 .9781.98 1 L1SH0.997 70. 985 1 .98 4 0.993 6 .99550. 991 4 L2SH0. 997 20. 988 1 0.9893 0.994 20. 993 6 .99 4 4. 4 LSH tree个数对检测精度的影响 本节均采用1的异常比例来评估LSH tree 的个数-对本文算法检测精度的影响。-决定了 LSHi Forest中森林的大小,-越大,森林越大,设置 异常样本比例为1 ,T3 600,t值分别为50,100, , 150,200,250,300。。如图2所示,本文算法下的3种 1658计算机集成制造系统第26卷 函数下AUC的值随着t值的增加而增加,但是当t 超过某个阈值时,AUC的值随之下降。这说明t取 适当的值有利于提高检测精度。因为当t取值过小 时,LSH tre e的个数较小,数据的实际利用价值低, 从而降低了检测精度;而当t-100时,每个数据的 路径长度已经覆盖较好,检测效果最佳,且L2SH 4.5采样大小采样大小“对检测精度的影响对检测精度的影响 为评估采样大小9对本文算法检测精度的影 响,参数9决定建立每棵LSH tre e所需样本的大 小,本文设置异常样本比例为1,t-100,T- 3 600并将采样大小从100变化到350,步长设为50。 从图3可以看出,3种方法在开始时,随着采样大小 的增加,AUC的值也随之增加,当采样大小超过某 个数值时,AUC的值会下降。这说明,适当大小的 采样有利于提高检测精度。采样是为更好地将正常 数据和异常数据分离开来,采样数据越多,检测效果 越好,对于本文方法而言,如果采样过大,建立LSH tree后仍然有大量的信息没有被使用,导致算法的 可靠性降低,还会存在大量噪音数据,从而影响 LSH tre e的构建。图3显示,对于不同方法,在9 选取相应的取值时,AUC能达到其最大值,检测效 佳。 4.6滑动窗口大小滑动窗口大小T对检测精度的影响对检测精度的影响 为评估滑动窗口大小;对本文算法检测精度 的影响,设置异常样本比例为1,t-100,并将滑 大小 1000 化 3500 置 500 图 4 可 看 3 方 法 在 AUC 的 会随 滑 大小的增 增 大小超 过某个数值时,AUC的值接近稳定,保持不变。这 说明,增大滑动窗口的大小有利于提高检测精度。 因为滑动窗口内的数值越多,可采样的信息越充分, 当超过临界值后,过多的信息没有被使用,无法再提 5结束语 本文提出一种融合煤矿多维时序数据的煤矿瓦 斯异常检测算法。该方法在每个窗口对包括瓦斯浓 度在内的多维数据采样后,利用LSH建立LSHi Forest, 随后针对每个待检测样本,遍历森林中的每 一棵树,通过其平均路径长度来计算异常得分。本 文在真实的淮南朱集东煤矿数据集上进行了大量实 第6期丁汀等融合煤矿多维时序数据的瓦斯异常检测算法 1659 验,结果表明,本文方法的瓦斯浓度异常检测精度与 以往方法相比有显著提高,不仅解决了瓦斯浓度异 常检测问题,还解决了因瓦斯探头失效而造成的异 常漏报或误报问题 本文提出的方法虽然具有较低的时间复杂度,但 依然存在一些需要改进的地方,在实际工程应用中, 越快检测出异常,意味着煤矿安全调度人员就有更多 的反应时间采取相应的应急措施,后期研究可以考虑 进一步优化算法,降低时间开销 参考文献参考文献 1* CHANDOLA V,BANERJ EE A,KUMAR V. Anoma l y de- tecti on A survey [J*. ACM Computi ng Surveys,2009,41 5. [2* MARKOU M,SI NGH S. Novel ty detecti on A revi ew一Pa rt 1 sta ti sti ca l a pproa ch e s*. Si gna l Processi ng, 2003,8312 2481-2497 * BREUNI G M M, KRI EGEL H P,NG R T,et a l LOFI den- ti f yi ng densi ty-ba sed l oca l outl i e rs*. ACM Si gmod Record, 2000 29293-104 [4* HE Zengyou, XU Xi a of ei, DENG Sh engch un. Di scoveri ng cl uster-ba se d l oca l outl i ersHJ* Pa tte rn Recogni ti on Le tte rs, 2003,249/10 641-1650. * LI U F T,TI NG K M,ZHOU Z H. I sol a ti on-ba sed a noma l y dete cti on [EB/OL*. 2019-07-10*. h ttps //cs. nju. edu. cn/ zh ouzh/z h ouz h f i l e s/publ i ca ti on/tk dd11 pdf [6* BAUDER R AKHOSHGOFTAAR T M A proba bi l i sti c progra mmi ng a pproa ch f or outl i er detecti on i n h ea l th ca re cl a i ms[C*//Proce e di ngsof th e 15th I EEEI nte rna ti ona l Con- f e re nce on Ma ch i ne Lea rni ng a nd Appl i ca ti ons I CMLA Wa sh i ngtonD C USAI EEE 2016347-354 [7* CESCHI NI FGATTA GVENTURI NI Ne ta l Opti mi z a - ti onof sta ti sti ca l me th odol ogi e sf ora noma l y de te cti oni nga s turbi ne dyna mi cti me se ri e s[J* J ourna l of Engi ne e ri ngf orGa s Turbi ne sa ndPow e r20181403032401-032410 DOI10 1115/1 4037963 [8* POKRAJ AC DRELJ I N NPEJ CI C Ne ta l I ncrementa l conne cti vi ty-ba se doutl i e rf a ctora l gori th m[C*//Proceedi ngsof th e 2008I nte rna ti ona l Conf e re nce onVi si onsof Compute rSci - enceBCSI nte rna ti ona l Aca demi c Conf erenceSw i ndonUK BCSLea rni ng g Devel opmentLtd 2008 211-224 [9* ZHANG KHUTTER MJ I N H Ane w l oca l di sta nce -ba se d outl i e rde te cti ona pproa ch f orscate re dre a l -w orl dda ta[C*// Proce e di ngsof Pa ci f i c-Asi a Conf e re nce on Know l edge Di scov- e rya ndDa ta Mi ni ng Berl i nGerma nySpri nger-Verl a g 2009 813-822 [10* SCHOLKOPF B,WI LLI AMSON R C,SMOLA AJ,et a l Supportve ctorme th odf ornove l tyde te cti on[EB/OL* [2019 07-10* htp//pa pers ni ps cc/pa per/1723-support-vector- 作者简介作者简介 meth od-f or-novel ty-dete cti on pdf [11* RAJ ASEGARARSLECKI ECPALANI SWAMI Me ta l Qua rte rsph e re ba se ddi stri bute da noma l yde te cti oni n w i re- l e ssse nsorne tw ork s[C*//Proce e di ngsof 2007I EEEI nte rna - ti ona l Conf e re nce on Communi ca ti ons Wa sh i ngtonD C USAI EEE 20073864-3869 [12* KAURP Outl i e rde te cti onusi ngk me a nsa ndf uz z ymi nma x ne ura l ne tw ork i nne tw ork da ta[C*//Proce e di ngsof th e 8th I nterna ti ona l Conf erence on Computa ti ona l I nteli gence a nd Communi ca ti onNetw ork sCI CN Wa sh i ngtonD C USA I EEE 2016693-696 [13* WU Wei l iCHENG Xi uzh enDI NG Mi ne ta l Loca l i zed outl yi nga ndbounda ryda ta de te cti oni nse nsorne tw ork s[J* I EEE Tra nsa cti ons on Know l edge a nd Da ta Engi ne eri ng 2007 1981145-1157 [14* YAN Wei zh ongYU Li ji e Ona ccura te a ndre l i a bl e a noma l y de te cti onf or ga sturbi ne combustors A de e pl e a rni ng a p- proa ch[EB/OL* [2019-07-10* htps//a rx i v org/f tp/a rx - i v/pa pers/1908/1908 09238 pdf [15* GI ONI S AI NDYK PMOTWANI R Si mi l a ri tyse a rch i n h i gh di mensi ons vi a h a sh i ng [EB/OL* [2019-07-10 * h t- tp//w w w vl db org/conf/1999/P49 pdf [16* WANGJ i ngdongSHEN Hengta oSONGJ i ngk ua ne ta l Ha sh i ng f or si mi l a ri ty se a rchA survey[EB/OL* [2019-07 10* htps//a rx i v org/pdf/1408 2927 pdf [17* BAWA M,CONDI E T,GANESAN P. LSH f ore stsel f -tun- i ngi nde x e sf orsi mi l a ri tyse a rch[C*//Proce e di ngsof th e 14th I nte rna ti ona l Conf e re nce on Worl d Wi deWeb New YorkN Y USAACM 2005651-660 [18* LI U FTTI NG K MZHOUZ H Onde te cti ngcl uste re da - noma l i e susi ngSCi Fore st C*//Proce e di ngsof J oi ntEurope a n Conf erenceon Ma ch i ne Le a rni nga ndKnow l e dge Di scove ryi n Da ta ba ses Berl i nGerma nySpri nger-Verl a g 2010 274-290 [19* AGGARWAL C CSATHES Th e ore ti ca l f ounda ti onsa nd a l gori th msf oroutl i e re nse mbl e s[J* ACMSI GKDDEx pl ora - ti onsNe w sl ete r2015 171 24-47 [20* ZHANG XuyunDOU Wa nch unHE Qi a nge ta l LSHi - Fore stA gene ri c f ra mew ork f or f a st tree i sol a ti on ba se d en- se mbl e a noma l ya na l ysi s[C*//Proce e di ngsof th e 33rdI EEE I nte rna ti ona l Conf e re nce onDa ta Engi ne e ri ngI CDE Wa sh - i ngtonD C USAI EEE 2017983-994 [21* KI RSCHENHOFER PPRODI NGER HSZPANKOWSKI W Onth e va ri a nce of th e e x te rna l pa th l e ngth i na symme t- ri cdi gi ta l tri e[J* Di screteAppl i ed Ma th e ma ti cs1989 251/ 2129-143 [22* KOMORI OEGUCHI S Aboosti ngme th odf orma x i mi z i ng th e pa rti a l a re a unde rth e ROCcurve[J* BMC Bi oi nf orma t- i cs2010 111314 [23* DI NG Zh i guoFEI Mi nrui Ana noma l yde te cti ona pproa ch ba se d on i sol a ti on f orest a l gori th m f or strea mi ng da ta usi ng sl i di ng w i ndow [J*. I FAC Proceedi ngs Vol umes,2013,46 2012-17 丁 汀1995 ,男,安徽安庆人,硕士研究生,研究方向异常检测,E-ma i l t_di ngq q . com; 颜登程1987 ,男,安徽合肥人,讲师,博士,研究方向大数据、复杂网络等,通信作者,E-ma i l ya ndengch enggma i l com; 张以文1976 ,男,安徽马鞍山人,教授,博士,研究方向服务计算、大数据、群体智能等,E-ma i l zh a ngyi w ena h u. edu. cn 周 珊1988 ,女,湖北武汉人,工程师,研究方向信息管理系统,E-ma i l zsyi h uosof t. com。