基于随机森林模型的岩爆等级预测研究.pdf
基于随机森林模型的岩爆等级预测研究 ① 杨悦增1, 邓红卫2, 虞松涛2 (1.招金矿业股份有限公司 夏甸金矿,山东 招远 265400; 2.中南大学 资源与安全工程学院,湖南 长沙 410083) 摘 要 以岩石单轴抗压强度、单轴抗拉强度、硐室最大切向应力、岩石压拉比、应力系数、弹性变形指数和完整性系数为岩爆评价 指标,建立了 4 种评价方案;在引入随机森林算法的基础上,建立了岩爆等级预测的随机森林模型,并通过 R 语言编写代码对该模 型进行了计算,得出评价指标的重要性和预测结果;将 4 种评价方案用随机森林法、线性回归法和支持向量机法分别进行预测并将 结果进行对比分析。 结果表明随机森林法的岩爆预测准确率较高(达到 97%),适用于解决数据不完全的小样本问题;岩石完整性 系数重要度最大,岩石单轴抗压强重要度最小。 关键词 岩爆; 随机森林; 岩爆等级预测; R 语言; 评价指标; 指标重要度 中图分类号 TU457文献标识码 Adoi10.3969/ j.issn.0253-6099.2017.04.006 文章编号 0253-6099(2017)04-0023-05 Prediction of Rockburst Classification Based on Random Forest YANG Yue-zeng1, DENG Hong-wei2, YU Song-tao2 (1.Xiadian Gold Mine, Zhaojin Mining Industry Company Limited, Zhaoyuan 265400, Shandong, China; 2.School of Resources and Safety Engineering, Central South University, Changsha 410083, Hunan, China) Abstract Four evaluation programs were established with uniaxial compressive strength and uniaxial tensile strength of rocks, the maximum tangential stress, ratio of compressive strength to tensile strength of rock, stress coefficient, elastic strain index and integrity coefficient as evaluation indicators. A random forest model for prediction of rockburst classification was established using random forest calculation and was calculated with code by using R programming language, leading to the importance of evaluation indicators and prediction result. Then, four evaluation programs were predicated, respectively, with random forest, linear regression method and support vector machine, and the obtained results were compared and analyzed. It is found that the predication with random forest providing a high accuracy (up to 97%) can be used for those small samples with uncompleted data. And among all evaluation indicators, rock integrity coefficient shows to be the greatest important while uniaxial compressive strength being the least. Key words rockburst; random forest; rockburst classification forecast; R programming language; evaluation indicator; indicator importance 随着矿业、隧道等地下工程的发展,岩爆对地下工 程的设计、安全施工和生产的制约日益凸显。 因此,如 何有效防控岩爆是地下工程亟待解决的关键问题。 岩 爆等级预测是岩爆防控的重要基础之一,是众多岩土 工作者的研究热点。 国内外学者对岩爆预测开展了大量研究工作。 模 糊评判法[1]、人工神经网络法[2]、灰色关联度分析 法[3]、支持向量机法[4]、距离判别法[5]、粒子群优化投 影寻踪法[6]等方法被运用于岩爆等级预测,并取得了 一定的研究成果,它们各具优点,同时也具有各自的不 足。 模糊评判法[7]过度注重极值作用,导致其他信息 缺失;人工神经网络法和支持向量机法[4]在小样本的 情况下对其模型的泛化能力要求过高,且评价精度不 高;灰色关联度分析法易于受到原始数据信息的干扰, 预测精度无法保证;粒子群优化投影寻踪法在判别指 标增多时模型最优化问题尚未解决;距离判别法受原 始数据的影响较大。 本文选取不同的岩爆预测指标,建立 4 种岩爆预 测评价方案,基于随机森林算法建立岩爆预测的随机 森林模型,利用国内外 30 个岩爆样本对模型进行训练 和预测,并与支持向量机法和线性回归法在 4 种评价 方案下的预测结果相比较,结果表明本模型具有较高 ①收稿日期 2017-02-12 作者简介 杨悦增(1967-),男,山东招远人,高级工程师,硕士,主要研究方向为矿山运营管理及深井开采技术。 通讯作者 邓红卫(1969-),男,湖南益阳人,副教授,博士,主要从事金属矿安全高效开采、矿山岩石力学方向的研究工作。 第 37 卷第 4 期 2017 年 08 月 矿矿 冶冶 工工 程程 MINING AND METALLURGICAL ENGINEERING Vol.37 №4 August 2017 万方数据 的准确性,适合解决数据不完整的问题。 1 随机森林算法概述 随机森林算法[8]是由 Breiman 和 Cutler 于 2001 年提出的基于统计学的集成学习算法。 其基本思想是 通过 bootstrap[9](自助法)的重复采样技术,对训练集 通过多次随机可重复采样得到多个 bootstrap 数据集。 对每个 bootstrap 数据集构造一棵分类决策树,随机森 林的每棵树都会完整生长而不会剪枝,并且在生成决 策树的时候,在使用变量和数据上进行随机化和差异 化。 组合多棵决策树进行预测,最终的预测结果由单 棵决策树的输出结果投票决定[10]。 随机森林法作为 一种新的集成学习算法,特别适用于分析先验知识不 清晰、存在大量未知特征数据的多元非线性等问题,以 并行处理、运算效率高、训练速度快、对异常值和噪声 容忍度好、预测准确率高、可对变量重要性进行排序和 不容易出现过拟合等优点在岩土工程[11]、水电系统[12]、 金融证券[13]、生态学[14]等方面取得了广泛的应用。 2 岩爆等级预测模型的构建 2.1 模型构建流程 随机森林分类是由很多决策树分类模型{h(X,Θm), m=1,,n}组成的分类模型的集合,参数集{Θm}是 独立同分布的随机向量,在给定自变量 X 下,每个决 策树分类模型都有一票投票权来选择最优的分类结 果。 岩爆等级预测的随机森林模型构建流程见图 1。 决策树 分类结果1 岩爆样本1 决策树1 决策树1决策树2 决策树2 决策树m 岩爆样本2 特征样本 最优分裂 特征样本 最优分裂 有放回的重复抽样 决策结果投票m票 最优分类 岩爆样本集输入 岩爆样本m 决策树 分类结果2 决策树 分类结果m 图 1 岩爆等级判别的随机森林模型构建流程 模型构建步骤[12,15]如下 1) 从给定的 n 个岩爆样本中随机有放回的抽出 m 个样本,每棵分类树的全部训练数据形成一个训练 样本集。 2) 每个训练样本集单独生长成为一棵不剪枝叶 的分类树。 在树的每个节点处从 K 个特征中随机挑 选 k 个特征(k≤K),在每个节点上从 k 个特征中选取 最优特征进行分支生长。 这棵分类树充分生长,使每 个节点的不纯度达到最小,不进行剪枝操作。 3) 根据步骤 2),按生成的多个树分类器对岩爆 测试样本进行预测。 对 m 个岩爆样本分别建立 m 个 岩爆决策树模型,对测试样本的分类进行决策,总共得 到 m 个分类结果,岩爆测试样本的预测结果按每个树 分类器的投票多少而决定。 2.2 模型的实现 岩爆等级预测的随机森林模型的实现需借助相关 的数据处理工具。 R[12]是一种自由软件编程语言与操 作环境,是一种数学计算的环境,是一套完整的数据处 理、计算和制图软件系统,具备高效的数据处理和存储 功能。 本文利用 R 语言,通过调用随机森林算法程序 包,编写数据处理计算的 R 语言代码,进而实现岩爆预 测随机森林模型计算。 其具体计算流程如图 2 所示。 R语言环境下 安装随机森林程序包 读入岩爆样本数据集 设置相应的随机参数 及编程 运行程序 得出结果并分析 图 2 随机森林模型计算流程 需要注意的是,为了便于数据的调用和后续计算, 数据集应按照 R 的格式要求保存成 csv 格式,再进行 导入。 随机森林主要参数有岩爆预测中输入变量的数 量(mtry)及选择森林中树的数量(ntree),这 2 个参数决 定计算的效率和结果的准确性,出于对样本的数量和 计算结果的准确性考虑,本文将 mtry和 ntree分别设置为 3 和 500。 R 本身不具备对随机森林模型的处理功能,要实 现岩爆预测随机森林模型的计算,需要对相关过程进 行 R 语言编程。 在开源的 R 语言环境下,本文编写了 软件包调用、数据导入、数据计算以及结果输出的代 码,具体如下 > install.packages("randomForest") > library(randomForest) 42矿 冶 工 程第 37 卷 万方数据 >data<-read.csv("d/ data.cuv",header=TURE) >RF<-randomForest(data[,c("σc"," σt","σθ", "σc/ σt"," σθ/ σc"," Wet"," Kv")],data[,"rank" ], importance=TRUE,ntree=500) > varImpPlot(RF) 通过在 R 中运行上述代码,可实现岩爆预测随机 森林模型的运算和运算结果的输出。 3 模型应用及结果分析 3.1 评价指标的选取 岩爆的发生及其影响因素之间是复杂的非线性关 系,因此,合理选择岩爆等级预测评价指标是岩爆防控 的重点和难点。 目前,对岩爆等级预测评价指标的选 取尚未形成统一、清晰的共识。 一般来说,岩爆发生的影响因素可以归纳为岩性 因素和非岩性因素[16]。 为了反映岩爆影响的岩性和 非岩性因素,本文评价指标涵盖岩石单轴抗压强度 σc、单轴抗拉强度 σt、硐室最大切向应力 σθ、岩石的压 拉比 σc/ σt、岩石的应力系数 σθ/ σc、岩石的弹性变形 指数 Wet 和岩石的完整性系数 Kv等 7 个参数。 不同的岩爆等级预测研究中采用不同的评价指 标[1,5,7,16-19],这些指标在不同程度上反映了岩性因素 和非岩性因素对岩爆发生的影响。 为了比较全面地考 虑各个岩爆预测评价指标的影响,本文在考虑了岩性 因素和非岩性因素对岩爆影响的基础上,基于 7 个评 价指标,建立了 4 组岩爆预测评价方案。 3.2 样本数据获取 为了验证岩爆预测随机森林模型的有效性和可行 性,同时优选岩爆预测评价方案,本文以文献[16]和 [20]的实例为样本进行分析。 样本参数见表 1,其中 岩爆等级 1、2、3 和 4 分别代表无岩爆、弱岩爆、中等岩 爆和强烈岩爆。 表 1 岩爆实例样本参数 编号 σc / MPa σθ/ σcσc/ σtWetKv 岩爆 等级 1157.60.5813.26.30.794 2148.40.4517.55.10.683 3132.10.3920.94.60.653 4107.50.2041.01.70.501 5167.20.6613.26.80.824 6165.00.3817.54.50.562 778.70.4129.73.30.641 8178.00.1131.23.70.711 9150.00.2327.83.90.591 10170.00.5315.06.50.703 11181.00.4221.74.50.673 12180.00.3921.75.00.733 13115.00.1023.04.70.521 14140.00.4426.95.50.783 续表 1 编号 σc / MPa σθ/ σcσc/ σtWetKv 岩爆 等级 15120.00.8118.53.80.683 16220.10.4129.47.30.642 1780.30.5922.95.00.632 1882.40.5417.56.60.612 19130.00.3819.75.00.693 20236.00.3828.45.00.582 2188.70.3424.06.60.934 22220.00.4129.87.30.854 23171.50.1127.27.00.601 24149.00.2325.37.60.632 2553.00.7213.61.60.801 2690.00.1318.83.60.791 27263.00.3524.68.00.932 28235.00.2724.79.00.874 29136.50.3219.05.60.934 30105.00.1021.44.70.751 注其中 21~30 组的 σθ/ σc与 σc/ σt由文献[20]中的数据换算而来。 3.3 预测结果分析 在随机森林模型中导入 30 个样本并对其进行随 机划分,把训练样本和预测样本的比例分别设定为 70%和 30%后进行运算;并同时采用线性回归和支持 向量机模型进行对比运算(其中支持向量机模型采用 RBF 为核函数,误差惩罚参数 C 为 1,高斯核参数 sigma 为 0.152)。 将 4 组岩爆预测评价方案在随机森 林(RF)、线性回归(LR)和支持向量机(SVM)的预测 结果进行比对分析,结果如表 2 所示。 表 2 岩爆等级预测结果 方案 编号 评价 指标 岩爆等级预测错误率/ % RFSVMLR 1σc,σt,σθ,σc/ σt,σθ/ σc,Wet,Kv3137 2σc,σt,σθ,Wet132027 3σt,σc/ σt,σθ/ σc,Wet202723 4σc,σc/ σt,σθ/ σc,Wet,Kv7177 不同预测方法错误率对比见图 3。 评价方案 30 20 10 01 234 预测错误率/ ■ ■ ■ ■ ■ 随机森林 支持向量机 线性回归 图 3 各岩爆预测方法错误率对比 52第 4 期杨悦增等 基于随机森林模型的岩爆等级预测研究 万方数据 从表 2 和图 3 可知,3 种判别方法的平均预测误 差率分别为 10.75%、19.25%和 16.00%,其中随机森林 法的岩爆等级预测能力最佳,线性回归法次之,支持向 量机法最差,且在同一评价方案中随机森林法预测的 错误率总是最低,这表明随机森林法在岩爆等级预测 中有较高的准确性,优于另外 2 种预测方法。 本文采 取的是小样本,且岩爆预测评价指标也是根据相关文 献按经验选取的,但随机森林预测模型仍能保持较低 的错误率,说明随机森林法通过对样本信息不断地训 练有很好的自适应功能,适合于解决岩爆预测指标等 先验知识不清、数据不完全的小样本应用问题。 不同评价方案错误率对比见图 4。 从图 4 可知, 方案1 和方案4 的错误率明显低于方案2 和方案3,即 方案 1 和方案 4 是更为合理的岩爆等级预测评价方 案。 与方案 4 相比,由于方案 1 包含的评价指标更完 备,在不同的岩爆预测模型下的预测错误率更低,因 此,方案 1 是岩爆等级预测评价的优选方案。 岩爆预测方法 30 20 10 0 随机森林支持向量机线性回归 预测错误率/ ■ ■ ■ ■ 方案1 方案2 方案3 方案4 图 4 各评价方案错误率对比 岩爆等级预测受到多个指标的影响,不同指标对 岩爆影响不同。 通过分析各影响指标对岩爆等级的重 要性规律可为岩爆的防控工作提供重要指导。 岩爆等 级预测的随机森林模型可输出自变量重要性排序图, 如图 5 所示。 平均精度下降指数是基于袋外误差方 法,用于衡量因子重要性大小的指标;基尼指数基于不 纯度的方法,通过基尼(Gini)指数计算每个因子对分 类树每个节点上观测值异质性的影响,从而比较因子 之间的重要性。 2 种方法的值越大表示该因子的重要 性越大。 从图 5 可知,在本文选择的样本中,岩石完整 性系数 Kv、弹性变形指数 Wet、单轴抗拉强度 σt、压拉 比 σc/ σt、硐室最大切向应力 σθ和岩石的应力系数 σθ/ σc是影响岩爆的重要因素。 Kv重要度最大,σc重 要度最小,其他因素重要度接近,表明在本文的所有评 价指标中,岩石完整性系数对岩爆预测的准确率影响 最大,而单轴抗压强度的影响最小。 基尼指数 Kv Wet 0.01.00.51.52.0 σt σθ σc σc /σt σθ /σc 平均精度下降指数 Kv Wet 0510 σt σθ σc σc /σt σθ /σc 图 5 各影响因子重要度排序 综上所述,随机森林模型的岩爆等级预测准确率 高,适用于解决岩爆预测指标等先验知识不清和数据 不完全的小样本应用问题;用不同岩爆预测评价方案 进行预测时,方案 1 明显优于方案 2、方案 3 和方案 4; 在本文的 7 个评价指标中,岩石完整性系数是影响岩 爆等级预测准确性的最重要因素,单轴抗压强度对预 测准确性的影响最小。 4 结 论 1) 通过引入随机森林理论,建立了岩爆等级预测 的随机森林模型。 实例验证表明,随机森林法的岩爆 预测准确率较高(达 97%),对于解决岩爆预测指标等 先验知识不清和数据不完全的小样本应用问题有较强 的适用性。 2) 选择 7 个常用的岩爆评价指标,建立了 4 种岩 爆等级预测评价方案。 将 4 种评价方案用随机森林 法、线性回归法和支持向量机法分别进行预测并对结 果进行对比分析,结果表明方案 1 的岩爆等级预测错 误率更低,是优选的岩爆评价方案,为今后的岩爆评价 方案的选取提供了参考。 3) 对影响岩爆因子的重要性规律进行分析,得出 了岩爆影响因子重要性排序。 岩石完整性系数重要度 最大,单轴抗压强重要度最小,弹性变形指数、单轴抗 拉强度、压拉比、硐室最大切向应力和应力系数的重要 度接近。 62矿 冶 工 程第 37 卷 万方数据 参考文献 [1] 王元汉,李卧东,李启光,等. 岩爆预测的模糊数学综合评判方法 [J]. 岩石力学与工程学报, 1998,17(5)493-501. [2] 何 正,李晓红,卢义玉. BP 神经网络模型在深埋隧道岩爆预测 中的应用[J]. 地下空间与工程学报, 2008,4(3)494-498. [3] 胡 炜,杨兴国,周宏伟,等. 基于灰色关联分析的岩爆预测方法 研究[J]. 人民长江, 2011,42(9)38-43. [4] 冯夏庭,赵洪波. 岩爆预测的支持向量机[J]. 东北大学学报, 2002,23(1)57-60. [5] 宫凤强,李夕兵. 岩爆发生和烈度分级预测的距离判别方法及应 用[J]. 岩石力学与工程学报, 2007,26(5)1012-1017. [6] 徐 飞,徐卫亚. 岩爆预测的粒子群优化投影寻踪模型[J]. 岩土 工程学报, 2010,32(5)719-725. [7] 葛启发,冯夏庭. 基于 AdaBoost 组合学习方法的岩爆分类预测研 究[J]. 岩土力学, 2008,29(4)943-948. [8] Breiman L. Random Forests[J]. Mach Learn, 2001,45(1)5-32. [9] Breiman L, Friedman J H, Olshen R A, et al. Classification and Regression Trees[M]. New YorkChapman and Hal, 1984. [10] 董师师,黄哲学. 随机森林理论浅析[J]. 集成技术, 2013,2(1) 1-7. [11] 李 亭,田 原,邬 伦,等. 基于随机森林方法的滑坡灾害危险 性区划[J]. 地理与地理信息科学, 2014,30(6)25-30. [12] 明均仁,肖 凯. 基于 R 语言的面向需水预测的随机森林方法 [J]. 统计与决策, 2012(9)81-83. [13] 方匡南,朱建平,谢邦昌. 基于随机森林方法的基金收益率方向 预测与交易策略研究[J]. 经济经纬, 2010(2)61-65. [14] 张 雷,王琳琳,张旭东,等. 随机森林算法基本思想及其在生态 学中的应用 以云南松分布模拟为例[J]. 生态学报, 2014 (3)650-659. [15] 温廷新,张 波,邵良杉. 煤与瓦斯突出预测的随机森林模型 [J]. 计算机工程与应用, 2014,50(10)233-237. [16] 周科平,雷 涛,胡建华. 深部金属矿山 RS-TOPSIS 岩爆预测模 型及其应用[J]. 岩石力学与工程学报, 2013,32(2)3706- 3711. [17] 郝 杰,侍克斌,王显丽,等. 基于模糊 C-均值算法粗糙集理论 的云模型在岩爆等级评价中的应用[J]. 岩土力学, 2016,37 (3)857-866. [18] Dong Longjun, Li Xibing, Peng Kang. Prediction of rockburst classi- fication using Random Forest[J]. Transactions of Noferrous Metals Society of China, 2013,23(2)472-477. [19] 贾义鹏,吕 庆,尚岳全. 基于粒子群算法和广义回归神经网络 的岩爆预测[J]. 岩石力学与工程学报, 2013,32(2)343-348. [20] Feng Xiating, Wang Lina. Rockburst prediction based on neural net- works[J]. Transactions of N F Soc, 1994,4(1)7-14. 引用本文 杨悦增,邓红卫,虞松涛. 基于随机森林模型的岩爆等级预 测研究[J]. 矿冶工程, 2017,37(4)23-27. �������������������������������������������������������������������������������������������������� (上接第 22 页) 表 3 交叉验证结果统计 类型 平均 误差 标准化 平均误差 误差 标准差 球状模型1.3910 -4 4.5110 -4 0.39 高斯模型-4.1510 -3 -1.2810- 2 0.41 指数模型2.2210 -4 8.0010 -4 0.39 5 结 论 1) 针对矿山钻孔样品空间分布不规则特点,在指 定方向的实验变异函数计算中,利用滞后距距离容差、 角度容差以及水平和竖直带宽形成定向搜索棱柱,用 以搜索离散样品中满足滞后距条件的成对样品。 给出 对于离散样品的实验变异函数计算步骤及算法实现。 2) 绘制实验变异函数图,在其基础上进行理论变 异函数的人工拟合,对样品通过克里格估值进行交叉 验证,选择最优理论模型。 3) 通过某矿山铜元素品位数据,计算实验变异函 数并采用 3 种理论模型进行拟合,对交叉验证结果进 行统计分析,确定球状模型为最优理论模型。 参考文献 [1] 揣媛媛,范继璋,肖克炎,等. 西岔金矿普通克里格法可视化储量 计算应用研究[J]. 石油天然气学报(江汉石油学院学报), 2006 (5)63-65. [2] 贾福聚,秦德先,黎应书,等. 变异函数在都龙锡多金属矿床的应 用[J]. 地质与勘探, 2008(2)77-81. [3] 罗周全,王中民,刘晓明,等. 基于地质统计学与 Surpac 的某铅锌 矿床储量计算[J]. 矿业研究与开发, 2010(2)4-6. [4] 王炯辉,李 毅,黄冬梅,等. 基于普通克里格法的泥河铁矿床资 源储量估算研究[J]. 地质与勘探, 2013(6)1108-1113. [5] 荆永滨,孙光中. 矿体块段模型品位估值快速搜索算法研究[J]. 矿冶工程, 2016(4)8-10. [6] 刘晓明,吕太含冰,陈建宏,等. 基于地质统计学的资源储量估算 参数优选研究[J]. 矿冶工程, 2015(2)23-28. [7] 侯景儒. 地质统计学在我国的应用及其发展[J]. 地质与勘探, 1991,27(4)36-38. [8] 徐武平,邱 峰,徐爱萍. 空间数据插值的自动化方法研究[J]. 武汉大学学报(信息科学版), 2016(4)498-502. [9] Deutsch C V, Journel A G. Gslib Geostatistical Software Library and User′s Guide[M]. New York, NY Oxford University Press, 1998. [10] 熊俊楠,马洪滨. 变异函数的自动拟合研究[J]. 测绘信息与工 程, 2008,33(1)27-29. [11] 徐爱萍,舒 红,译. 空间数据分析与 R 语言实践[M]. 北京清 华大学出版社, 2013. 引用本文 荆永滨,王公忠,毕 林. 矿山离散钻孔样品变异函数模型 计算与拟合[J]. 矿冶工程, 2017,37(4)19-22. 72第 4 期杨悦增等 基于随机森林模型的岩爆等级预测研究 万方数据