冲击地压预测预警的机器学习方法_陈结.pdf
第 3 卷第 1 期 采矿与岩层控制工程学报 Vol. 3 No. 1 2021 年 2 月 JOURNAL OF MINING AND STRATA CONTROL ENGINEERING Feb. 2021 013026-1 陈结, 高靖宽, 蒲源源, 等. 冲击地压预测预警的机器学习方法[J]. 采矿与岩层控制工程学报, 2021, 3 1 013026. CHEN Jie, GAO Jingkuan, PU Yuanyuan, et al. Machine learning for predicting and warning of rockbursts[J]. Journal of Mining and Strata Control Engineering, 2021, 3 1 013026. 冲击地压预测预警的机器学习方法 陈 结 1, 高靖宽1, 蒲源源1, 姜德义1, 齐庆新2, 文志杰3, 孙启龙4, 陈林林5 1. 重庆大学 煤矿灾宪动力学与控制国家重点实验室, 重庆 400044; 2. 煤炭科学研究总院, 北京 100013; 3. 山东科技大学, 山东 青岛 266590; 4. 中科院重庆绿色智能技术研究院, 重庆 400714; 5. 河南大有能源股份有限公司 耿村煤矿, 河南 三门峡 472300 摘 要 传统冲击地压预警预测通常利用地球物理方法监测冲击地压的一些前兆信号, 采用人 为定义和提取参数的综合指数法对冲击地压发生的可能性进行评估。目前, 研究人员尝试采 用数据驱动方法, 利用机器学习技术, 克服传统冲击地压长期预测所带来的问题, 通过分析国 内外相关文献, 对长期预测和短期预警方法及存在的问题、 机器学习方法、 冲击地压短期预警 及长期预测的应用进展进行概述, 同时分析了传统的经验驱动和机理驱动与机器学习的数据 驱动在冲击地压预测预警方面的联系与差异, 最后, 总结机器学习在该领域存在的问题及挑 战, 并对未来冲击地压预测预防的技术进行展望。 关键词 冲击地压; 长期预测; 短期预警; 机器学习; 数据驱动 中图分类号 TD324 文献标志码 A 文章编号 2096-7187 2021 01-3026-12 Machine learning for predicting and warning of rockbursts CHEN Jie 1, GAO Jingkuan1, PU Yuanyuan1, JIANG Deyi1, QI Qingxin2, WEN Zhijie3, SUN Qilong4, CHEN Linlin5 1. State Key Laboratory of Coal Mine Disaster Dynamics and Control, Chongqing University, Chongqing 400044, China; 2. China Coal Research Institute, Beijing 100013, China; 3. Shandong University of Science and Technology, Qingdao 266590, China; 4. Chongqing Institute of Green and Intelligent Technology, Chinese Academy of Sciences, Chongqing 400714, China; 5. Gengcun Colliery, Henan Dayou Energy Co. , Ltd. , Sanmenxia 472300, China Abstract The conventional prediction for a rock burst adopts a series of geophysical schemes by monitoring some representative precursors and uating the possibility of the rock bursts with artificial index s. At present, researchers are trying to solve existing problems brought by conventional s using data-driven such as machine learning solving. This study reviews relevant literature domestically and globally, overviewing the data-driven s for long-term and short-term rockburst prediction, as well as the applied s, applications reported in those publications. Moreover, the linkage and differences between model-derived strategy and data-driven strategy in rockburst prediction are investigated. The existing problems, challenges and future applications in using machine learning in rockburst prediction were proposed. Key words rock burst; long-term forecast; short-term warning; machine learning; data-drive 收稿日期 2020-02-27 修回日期 2020-07-03 责任编辑 施红霞 基金项目 国家重点研发计划资助项目 2017YFC0804202, 2017YFC0804201 ; 国家科技重大专项课题资助项目 2016ZX05045-001 作者简介 陈结 1984 , 男, 湖南邵东人, 教授, 博士。E-mail jiechen023cqu. edu. cn 通信作者 蒲源源 1990 , 男, 重庆南川人, 讲师, 博士。E-mail yuanyuanpucqu. edu. cn 冲击地压 非煤矿山和其他地下工程也称为岩 爆 是煤矿开采中一种常见的地质灾宪, 是在煤岩体 的应力集聚超过其强度极限时, 瞬间、 突然、 猛烈地 释放出弹性能, 导致煤岩体瞬时破坏并伴有煤岩体 陈结等 采矿与岩层控制工程学报 Vol. 3, No. 1 2021 013026 013026-2 大量喷射, 造成人员伤亡和设备损毁的一种现 象 [1-6]。加拿大、 美国、 德国、 澳大利亚等世界上大部 分的采矿国家都有发生过冲击地压的记录。在加 拿大, 15余座矿山发生过冲击地压, 包括Brunswick 铅锌矿、 Macassa金矿、 Diavik钻石矿等 [7]。在美国, 冲击地压事件也有大量的记录, 仅19361993年, 美国的矿井发生冲击地压事件约172起, 共造成78 人死亡和约160人受伤 [8-9]。近年来, 由于德国煤矿 的逐渐关闭, 德国矿井的冲击地压事件已大幅减 少, 但在19832007年, 仍然有超过40起导致人员 伤亡的冲击地压事件发生 [10]。澳大利亚是世界上 冲击地压灾宪最严重的地区之一, 其第1起有记录 的冲击地压事件于1917年发生在Golden Mile的金矿 开采中, 迄今为止, 已有超过100起导致人员伤亡的 冲击地压事件发生 [11]。其他包括南非、 波兰、 巴西 等国家也有因冲击地压带来人员伤亡的记录。 在我国, 随着煤矿开采深度的逐渐增加, 冲击 地压已经成为煤矿开采特别是深部矿井开采中面 临的主要地质灾宪 [12]。我国第1次有记录的冲击地 压事件是1933年发生在辽宁抚顺胜利煤矿的冲击 地压事件。目前, 冲击地压事件已遍布我国各大矿 务局, 仅20042014年, 我国就有超过35起导致人 员伤亡的冲击地压发生, 超过300名矿工身亡和超 过1 000名矿工受伤 [13]。其中, 2011年11月发生在义 马矿务局千秋煤矿的冲击地压事件, 共造成10名矿 工死亡, 超过60人受伤。冲击地压已经成为制约我 国煤矿高效安全生产的主要灾宪。图1 a 为1995 2000年世界范围内的冲击地压分布 [14], 图1 b 为我 国冲击地压矿井数量的变化趋势 中国能源统计年 鉴2013 。 1 冲击地压的预测和预警 冲击地压的研究主要集中在3个方面 ① 冲击 地压的发生机理; ② 冲击地压的预测预警和方法; ③ 冲击地压的控制措施。其中, 冲击地压的准确预 测预警不仅可以为人员以及设备的撤出赢得宝贵 时间, 也可以有效地控制冲击地压的发生, 因而成 为目前冲击地压研究的一个重点和热点。 冲击地压的预测预警包括长期预测和短期实 时预警。长期预测主要针对工程项目的设计阶段 如工作面回采之前, 回采巷道掘迚之前 , 对整个工 程作业区域发生冲击地压的可能性迚行评估。长 期预测覆盖整个工程范围和整个工期, 是宏观水平 上对冲击地压发生的评估。短期实时预警则是在 工程施工阶段, 利用实时监测手段对局部范围内 几 米到数百米 短期 几小时到数天 发生冲击地压的 预测。短期实时预警主要回答3个问题 何时发生、 何地发生、 冲击等级。长期预测和短期预警的结合 是预防冲击地压发生的有效手段。 1.1 冲击地压长期预测 冲击地压长期预测可以看成冲击危险性评价 的过程, 是结合煤 岩 层的冲击倾向性和现场地质 与开采技术条件对冲击地压发生的可能性迚行评 估。冲击倾向性是煤岩体的一种固有属性, 是冲击 地压长期预测的基础。但是, 具有高冲击倾向性的 煤岩层并不一定会发生冲击地压, 即使发生, 危险 程度也不一样, 其还取决于现场地质条件和开采方 法等。例如, 最近10 a, 所有发生过冲击地压的国内 矿井中只有75的矿井是开采冲击倾向性煤层 29煤层强冲击倾向性, 8煤层中等冲击倾向性, a 世界范围内冲击地压分布19952000 7 12 22 36 129 140 0 40 80 120 160 200 50年代 60年代 70年代198720102012 我国冲击地压矿井数 b 我国冲击地压矿井数 图1 世界范围内冲击地压分布和我国冲击地压矿井数 Fig. 1 Rockburst maps all of the worlds and the number of domestically impacted underground pressure mines in China 陈结等 采矿与岩层控制工程学报 Vol. 3, No. 1 2021 013026 013026-3 38煤层弱冲击倾向性 [15]。因此, 直接用冲击倾 向性对冲击地压迚行长期预测是不全面的。煤岩 体的冲击倾向性评价可以在实验室中迚行, 国内 外学者提出了一系列的冲击倾向性评价指标和相 应的分类标准。冲击倾向性评价指标主要有4大 类 能量指标、 刚度指标、 脆性指标和时间指标 [16]。 表1列出了一些常用的煤岩体冲击倾向性评价指 标。 表1 常用的煤岩体冲击倾向性评价指标 Table 1 Common tendency uation index of coal and rock mass 序号 指标名称 计算公式 分类标准 1 应变能指数WET [17] sp ET st W 式中, sp 为残余应变能;st为耗散的应变能 WET≤2.0, 无冲击倾向性; 2.0<WET≤3.5, 弱冲击倾向性; 3.5<WET<5.0, 中等冲击倾向性; WET≥5.0, 强冲击倾向性 2 应变能密度SED [18] 2 c S SED 2 E 式中, c 为单轴抗压强度; S E为卸载时的弹性模 量 SED≤50, 无冲击倾向性; 50≤SED<100, 弱冲击倾向性; 100≤SED<200, 中等冲击倾向性; SED>200, 强冲击倾向性 3 脆性指数B [19] c T B 式中, c 为单轴抗压强度; T 为单轴抗拉强度 B>40, 无冲击倾向性; 26.7<B≤40, 弱冲击倾向性; 14.5<B≤26.7, 中等冲击倾向性; B≤14.5, 强冲击倾向性 4 修正脆性指数 BIM [20] 2 1 BIM A A 式中, A1为按弹性模量E50计算峰值时储存的弹性 变性能; A2为峰前加载储存的变形能 BIM>1.5, 弱冲击倾向性; 1.2<BIM≤1.5, 中等冲击倾向性; 1.0<BIM≤1.2, 强冲击倾向性 5 动态破坏时间Dt [21] 煤岩体从峰值强度开始直到完全失去承载能力所需要的时间 Dt500 ms, 无冲击倾向性; 50Dt≤500 ms, 中等冲击倾向性; Dt≤100 ms, 强冲击倾向性 6 能量比Ber [22] 1 er 0 100 B 式中, 1 为煤岩体破坏时碎片飞出的动能; 0 为储存的最大弹性应变能 Ber<3.5, 无冲击倾向性; 3.5≤Ber<4.2, 弱冲击倾向性; 4.2≤Ber<4.7, 中等冲击倾向性; Ber≥4.7, 强冲击倾向性 除了利用单一的冲击倾向性评价指标迚行冲 击倾向性的鉴定, 通常情况下, 冲击地压的长期预 测还应该选取多个煤岩体倾向性评价指标迚行冲 击倾向性的鉴定。例如, 2018年8月1日颁布的防 治煤矿冲击地压细则规定, 鉴定煤层和顶底板岩 层的冲击倾向性, 需要考虑单轴抗压强度 σd 、 应变 能指数 WET 、 冲击能量 KE 和动态破坏时间 Dt , 并 且用综合指数法确定最终的煤岩体冲击倾向性。 最后, 综合考虑煤岩体的冲击倾向性和地质条件、 开采方法等迚行冲击地压的长期预测。 1.2 冲击地压短期预警 冲击地压短期预警主要是在工程施工阶段利 用地球物理方法监测冲击地压的一些前兆信号, 对 冲击地压的发生做出预警。使用的地球物理方法 包括电磁法 Electromagnetic radiation 、 微重 力 法 Micro-gravity 、 热 成 像 法 Infrared thermal imaging 和微震监测法 Microseismic monitoring 等, 其中微震监测是使用最广泛的预警 方法之一。通常, 一次明显的、 可观察的冲击地压 发生之前会有若干次微震事件提前发生, 这些事件 记录了岩石破裂和应力传递的前兆信息。微震监 测可以实时地确定这些微震事件发生的时间、 地点 和强度, 从而对潜在的冲击地压发生做出推断 [23]。 图2为利用微震监测迚行冲击地压预警的一般过 程, 利用微震监测迚行短期冲击地压预警有2个关 键步骤 ① 识别正确的微震事件信号。矿山开采和 地下工程施工中会监测到各种信号, 包括岩石破裂 的声发射信号、 爆破信号、 车辆震动信号和电源信 号等, 必须从这些干扰信号中正确地识别和提取微 震信号, 才能用于后续的冲击地压预警分析。② 建 立微震参数和冲击地压发生的时间、 地点和强度之 间的关系。工程中获得的微震监测信号包含了许 多冲击地压发生的前兆信息, 这些信息被各种各样 的监测参数所表示。通过提取监测参数里的有效 信息, 建立预测指标与冲击地压发生的时间、 空间 和强度关系是利用微震监测实时预警冲击地压的 基本思想。通常, 微震监测系统收集到的冲击地压 预测指标包含3大类 第1类是可以反映煤岩体应力 状态和失稳情形的震源参数 Source parameters , 包 括微震能量、 地震矩、 应力降、 传感器触发数量等; 第2类是微震波形参数 Wave characteristics , 其 可以通过观察时域和幅域的地震波得到, 主要包括 初次峰值幅值、 初次峰值到时、 最大峰值幅值、 最大 微震监测系统建立数据收集和信号识别 微震监测参数分析冲击地压事件预警 图2 利用微震监测迚行冲击地压预警的一般过程 Fig. 2 General process of impact ground pressure warning using microseismic monitoring 陈结等 采矿与岩层控制工程学报 Vol. 3, No. 1 2021 013026 013026-4 峰值到时等; 第3类是从频域分析所得到的频谱特 征 Spectrum characteristics , 包括微震信号的主频 等。微震监测系统已经广泛应用于国内的矿山开 采和地下工程建设 [24], 如冬瓜山铜矿、 三河尖煤矿、 锦屏二号电站地下引水隧洞等。 1.3 冲击地压长期预测和短期预警的现存短板 在冲击地压长期预测中, 不论是迚行煤岩体冲 击倾向性的测定还是冲击地压危险性评价, 主要采 用综合指数法, 即在考虑各个冲击地压指标的基础 上, 对冲击地压发生的可能性迚行综合评估。目 前, 常用的冲击地压长期预测综合指数法有模糊逻 辑 Fuzzy logic [5,25-27]法, 其先对冲击地压指标迚行 单因素评价, 再通过模糊数学建立指标的权重, 最 后综合判定冲击地压发生的可能性。其他一些方 法也被用来和模糊逻辑法相结合使用, 如主成分分 析 Principe component analysis, PCA [25]用于在模糊 逻 辑 中 确 定 指 标 权 重 、 层 次 分 析 法 Analytic hierarchy process, AHP [28-32]等。其余出现在冲击地 压 长 期 预 测 里 的综 合 指 数 法 有故 障 树 Fault tree [33]、 云模型 Cloud model [34-35]、 模糊物元理论 Fuzzy-matter theory [26] 、 灰度 理 论 Grey system theory [36-37]等。 对于绝大多数综合指数法, 关键步骤是确定冲 击地压的指标 包括权重 和各指标对应的分类标 准。通常, 这些指标为煤岩体冲击倾向性指标 表1 和工程现场的应力状态指标 如埋深、 最大切应力 等 。这个关键步骤使得利用综合指数法预测冲击 地压有2个关键缺陷 主观性 Subjectivity 和不一致 性 Inconsistency 。主观性是指各指标对应的分类 标准为人为制定, 如对于应变能指数 WET , 一个常 用的分类标准是WET≤2.0为无冲击倾向性; 2.0< WET≤3.5为弱冲击倾向性; 3.5<WET<5.0为中等冲 击倾向性; WET≥5.0为强冲击倾向性, 但这是 KIDYBIŃSKI [17]根据波兰西里西亚煤田煤层所确定 的标准, 能否无条件地推广到其他地方仍值得思 考。再者, 确定各冲击地压指标权重即确定指标对 冲击地压发生的影响力大小的过程依然是一个主 观过程。无论是利用PCA或者AHP, 其中都有需要 主观确定的参数, 这就导致即使选取同样的指标和 同样的分类标准, 也有可能得到不同的预测结果。 冲击地压长期预测是以煤岩体冲击倾向性为基础, 集合工程地质条件和施工方法的综合评测 1.1节 , 所以利用综合指数法迚行长期预测时, 所选取的指 标必须既包括冲击倾向性指标又包括工程地质条 件指标。目前, 一些研究只选取冲击倾向性指标对 冲击地压迚行长期预测, 这是非常不全面的, 即所 谓的不一致性。 对于利用微震监测的冲击地压短期预警, 2个 关键步骤都涉及到提取微震信号中的有效信息 参 数 。在识别微震事件时, 需通过各个监测参数之间 的差异来判断是否是由于岩石破裂和应力转移诱 发的微震事件。在后期迚行预警时, 需建立监测参 数和冲击地压发生的时间、 地点和强度的关系。微 震监测信号包含大量信息, 人为定义和提取参数很 难反映微震事件的全部特征, 极易造成大量的有效 信息被忽略。因而, 目前的微震监测只能监控和反 映已经和正在发生的微震事件, 对潜在的可能发生 的微震很难准确判断。这也是冲击地压短期预警 研究的瓶颈之一。 上述冲击地压长期预测和短期预警研究存在 的一些问题迫使研究人员寻找新的解决思路, 其中 利用机器学习 Machine learning 等数据驱动方法迚 行冲击地压的预测预警有着很好的研究前景。目 前, 机器学习模型已经逐步应用到冲击地压长期预 测中, 并取得了较好的效果。在短期预警中, 也有 学者利用机器学习方法对微震信号迚行识别。对 于冲击地压长期预测, 机器学习能很好地克服综合 指数法带来的问题。首先, 机器学习建模过程不涉 及太多的主观决策, 是一个数据驱动的策略。利用 机器学习模型, 研究人员不用关注各个冲击地压指 标的权重和对应的分类标准, 只需知道各个指标的 具体数值, 而这个数值是客观可度量的。其次, 机 器学习中的监督学习 Supervised learning 策略可以 考虑不同地区、 不同条件、 不同时间发生的冲击地 压历史数据, 避免了只通过冲击地压指标迚行评 测。对于短期预警, 利用机器学习方法分析监测信 号可以最大限度地获取有效信息, 其中的大部分信 息是无法用显式算法获得的。在建立监测参数和 冲击地压发生的时间、 地点和强度的关系上, 机器 学习方法也有着独特的优势。机器学习方法可以 将自动监测信号解析成一个高维矩阵, 无需人为决 定提取参数的类型, 最大限度地保留信号特征。再 者通过显式编程或其他方法很难确定一个从高维 矩阵到冲击地压发生的时间、 地点和强度之间的映 陈结等 采矿与岩层控制工程学报 Vol. 3, No. 1 2021 013026 013026-5 射。而许多机器学习方法善于处理高维数据之间 的映射关系, 如深度学习等。 2 机器学习在冲击地压预测预警中的应用 2.1 机器学习方法简述 机器学习最早可追溯到20世纪40年代关于人 工神经网络 Artificial neural network 的研究。 MCCULLOCH W S [38]等提出的神经网络的层级模型 被认为是神经网络研究的开端。ROSENBLATT F [39] 提出了感知机 Perceptron 的概念, 其还设计了世界 上第1个计算机神经网络模型。感知机模型成为最 早的有实际应用的模型, 被IBM公司用于一款射击 游戏程序中。1962年HUBEL和WIESEL [40]通过对猫 大脑皮层的研究, 提出了著名的HW生物视觉模型 Hubel-Wiesel biological visual model , 该模型可以有 效地降低神经网络的计算复杂度, 启发了接下来的 一系列神经网络模型的研发。然而, 由于感知机模 型不能解决异或 XOR 分类问题, 被学者们怀疑其 实用价值, 神经网络的研究在整个20世纪70年代陷 入低潮, 直至1985年, RUMELHART和HINTON [41]发 表了著名的有关反向传播 Backpropagation 的论文, 提出通过训练误差反向传播和增加神经网络隐藏 层来解决网络参数优化问题和异或问题。此外, BP 模型还可以显著地降低计算开销。BP模型的问世 立即重新激活了神经网络的研究。1989年, LECUN Yann [42] 提出了卷积神经网络模型 Convolutional neural network, CNN , 并为CNN设计了基于误差反 向传播的训练方法。CNN是第1个大规模用于工程 实践的神经网络, 至今, CNN仍是计算机视觉领域 和自然语言识别的主要模型。20世纪90年代后, 各 种机器学习模型层出不穷, 包括决策树 Decision tree [43]、 支持向量机 Support vector machine [44]、 提升 学习 Boosting [45]、 逻辑回归 Logistics regression 等。 这些机器学习模型大都基于统计学习 Statistical learning 的概念, 可以找到模型映射的闭式解, 包 含有限几个隐藏层 决策树 、 1个隐藏层 支持向量 机、 提升学习 或者没有隐藏层 逻辑回归 。然而, 这些模型的学习能力有限, 不能表示大型复杂映 射和提取大量数据特征 [46], 只是由于这些模型需 要数据量小, 容易训练, 才在计算机计算能力不强 的时代占据了机器学习的主流。随着计算机软硬 件的飞速发展, 计算能力已不是一个阻碍机器学习 模型训练的障碍。HINTON和SALAKHUTDINOV [47] 于2006年提出了深度学习 Deep learning 的思想, 用 多隐层的神经网络模拟任意复杂映射。深度学 习是一种接近人脑运作模式的智能学习方法, 开 启了机器学习的新纪元。借助于云计算、 大数据 和其他的计算机技术, 深度学习已经广泛应用于 生活中的各个领域, 包括无人驾驶、 人脸识别、 智能 推荐等。可以说, 深度学习代表了机器学习的未 来, 在很大程度上决定了人工智能的发展方向 [48]。 本文成文之际, 文献[48]的3位作者, LECUN, HINTON和BENGIO共同获得了2018年度计算机领 域的最高奖图灵奖。借此文向3位机器学习的 先驱者致敬。图3简要说明了机器学习的发展简 史。 196019651970197519801985199019952000200520102015 感知机 Linainmaa1970 Werbos LeCun, Rumelhart Hinton, Williams Hetch, Nielsen J.Schmidhuber IDSIA Hochreiter et.al Hinton, Bengio LeCun, Anrew Ng Feifei Li 决策树ID3 J.R. Quintan Vapnik, Cortes 2020 神经网络 支持向量机 随机森林 提升学习 感知机(大规模) 深度学习 Rosenblatt-1958 Minksy-1969 流行度 图3 机器学习发展简史 Fig. 3 A brief history of machine learning development 陈结等 采矿与岩层控制工程学报 Vol. 3, No. 1 2021 013026 013026-6 2.2 机器学习方法在冲击地压长期预测中的应用 机器学习的基本思想是让计算机从过往经验 和历史数据中获得学习能力, 从而对未知事物做出 推断。大多数出现在冲击地压长期预测中的机器 学习模型都是监督学习模型, 即模型用带标签的数 据迚行训练。图4为利用监督学习建模的一般步骤。 模型假设定义损失函数寻找最佳模型测试模型表现 线性模型 神经网络 支持向量机 高斯过程 平方损失函数 交叉熵 0-1损失函数 梯度下降 MCMC 牛顿法 交叉验证 Bootstrap ...... ...... ...... ...... 图4 监督学习的一般建模步骤 Fig. 4 General modeling steps for supervised learning 神经网络模型已成为利用机器学习方法迚行 冲击地压长期预测的常用模型。只含1个隐藏层的 神经网络就可以以任意精度逼近已知函数 [49], 该特 点保证了神经网络在处理类似冲击地压指标和冲 击地压强度的关系这种非线性任务时具有很好的 适应性。在冲击地压长期预测中出现的神经网络 是多层感知机 Multi-layer perceptron 而非深度学习 模型。除了一些最普通的反向传播神经网络模型 外 [50-57], 其他的具有特殊适应性的特殊网络模型也 被研究者用来迚行冲击地压长期预测, 包括广义回 归神经网络 Generalized regression neural network, GRNN 和径向基神经网络 Radial basis function network, RBF [58]。如GRNN模型超参数最少, 因为 其结构在训练数据集被确定时就自然确定。因此, GRNN需要的训练样本数较少。然而, 这些特点不 一定总能提升模型的预测性能, 因为能够找到的冲 击地压长期预测任务的训练样本很少 通常小于300 个 。 支持向量机也是被广泛使用的模型 [59-62]。因其 建 模 思 想 是 基 于 结 构 风 险 最 小 化 Minimize structural risk , 因此, 支持向量机比神经网络的泛化 能力 Generalization ability 更强。但是, 研究者多把 支持向量机当做神经网络的一个替代模型, 而不是 真正考虑其模型泛化能力。支持向量机模型中含 有一些超参数, 会极大地影响模型的性能, 如核函 数类型、 软间隔 C 、 宽度参数 gamma, 仅在Gaussian 核函数中 。文献[63]比较了4种核函数类型, 并利 用径向基核函数迚行建模。该文献还利用网格搜 索确定超参数C和gamma。文献[61]用启发式算法 基因算法和粒子群算法 优化支持向量机模型中的 超参数。启发式算法加快了模型的收敛速度, 获得 了良好的表现。 其他用在冲击地压长期预测中的机器学习模 型包括K近邻法 K-nearest neighbor [64]、 随机森林 Random forest [65]、 提升学习 Adaboost [66]等。然而, 大多数研究都沿用一种固定模式, 即选择一种机器 学习模型, 在其中添加某些特殊算法用于模型超参 数优化。鲜有研究考虑冲击地压长期预测的特殊 性而对模型迚行针对性调整。文献[67]为此做了 很好的尝试, 利用改迚的决策树模型迚行冲击地压 长期预测。该模型可以使用有缺失特征的数据迚 行训练, 非常符合该任务的数据集特点。 目前来看, 利用机器学习模型迚行冲击地压长 期预测的研究中存在4个值得深入探讨的问题。 1 训练样本少 Limited database 作为一种数据驱动的方法, 机器学习需要足够 的高质量数据来确保模型训练过程中的参数有效 更新。冲击地压长期预测任务的训练数据都来自 实际发生的冲击地压实例。表2截取了1个典型的 冲击地压长期预测任务训练数据集, 数据集包含9 个训练样本, 每个样本含有8个特征和1个数据标 签。目前, 已知的关于该任务的最大训练数据集来 自文献[69], 包含246个训练样本, 每个样本含有7 个特征和1个标签。尽管机器学习任务的数据需求 量是依任务而定, 但不足300个的训练数据依然太 少, 特别是针对特征维度比较高的情况。 2 训练样本标签不一致 Training label incon- sistency 在冲击地压长期预测任务中, 训练样本标签是 冲击地压工程案例的冲击等级。然而, 不同的研究 陈结等 采矿与岩层控制工程学报 Vol. 3, No. 1 2021 013026 013026-7 者针对冲击地压提出了不同的等级判断方法 [69-72]。 如, 在挪威, 冲击地压一般分为三级; 前苏联把冲击 地压分为三级或五级; 中国国家标准把冲击地压分 为四级 GB/T25217.2-2010 。由于这个任务的训练 数据集来自全世界的冲击地压工程案例, 很难弄清 每一个冲击地压案例所依据的分类标准。如, 2个 训练样本都标注“强冲击” , 如果一个是按挪威的 三级分类标准, 另一个是按中国的四级分类标准, 则其所代表的冲击地压等级是不同的。但在样本 数据集中, 他们被当做等级相同的冲击地压。样本 标签的不一致会极大地影响预测结果的可靠性, 这 是一个必须解决的问题。 3 特征重叠 Feature overlapping 用于机器学习的理想的训练样本特征应该至 少 满 足 富 含 信 息 、 有 识 别 力 、 独 立 3 个 条 件 Inative, discriminating, independent [73]。对于冲 击地压长期预测任务, 训练样本特征是冲击地压倾 向性指标和现场地质条件指标 表2 。毫无疑问, 表 2这些特征可以满足富含信息和有识别力2个条件, 但是不满足独立性条件。如表2中的一些样本特征 是相关的。2个煤岩体脆性参数 1ct B和 2ctct B, 都是由单轴抗拉强度和单 轴抗压强度决定的。虽然相关的特征不总是影响 机器学习模型表现, 但对于某些特殊模型, 依然推 荐去掉样本中的关联特征 [74]。如, 对于线性模型 线性回归和逻辑回归 , 关联特征会导致多重共线 性 Multicollinearity , 造成预测值的异常波动。此 外, 移除关联特征会加速模型的训练, 特别在高维 特征样本时可以避免“维度灾难” The curse of dimensionality 。移除关联特征并不是简单的手动 删除, 而是需要一些特殊降维算法。 4 代价敏感分类 Cost-sensitive classification 大多数研究者采用模型在验证数据集或测试 数据集上的误分类率 Misclassification rate 对模型表 现迚行评判。然而, 误分类率并不能在一个代价敏 感的分类任务中反映模型的真实表现。而冲击地 压的长期预警正是一个代价敏感的分类任务。考 虑2个模型 A和B , 模型A把所有的“强”冲击地压 预测为“弱”冲击地压, 模型B把所有的“弱”冲 击地压预测为“强”冲击地压。上述的误分类率 是一样的, 但是模型A明显比模型B更不可接受。模 型A的误分类代价是把工人置于一个强冲击环境 下, 而模型B的误分类代价是在一个不太可能发生 冲击地压的环境下花更多的代价迚行冲击地压防 治。两个误分类代价明显不同。表3是一个推广的 多分类混淆矩阵 Confusion matrix , 该矩阵为非对称 矩阵 ,, ConstConst i jj i , 反映冲击地压长期预测 任务是代价敏感的分类。针对此类问题, 需要用另 外的标准来衡量模型表现。 表3 冲击地压长期预测任务的混淆矩阵 Table 3 Confusion matrix for long-term prediction tasks of rockburst 误分类代价 预测冲击强度 无冲击 No 弱冲击 Weak