基于粗糙集和BP神经网络的滑坡易发性评价_唐睿旋.pdf
第 45 卷 第 6 期 煤田地质与勘探 Vol. 45 No.6 2017 年 12 月 COAL GEOLOGY 2. Guiyang University, Guiyang 550005, China Abstract Landslide susceptibility uation is critical for landslide medium and long-term prevention and terri- torial planning. In order to improve the precision and accuracy of uation result, the study was carried out in Longfeng Town of Enshi City. Firstly, the Geographic Ination System GIS was suggested to use as the basic tool for spatial data management, 13 initial uation factors were selected including lithology, slope angle, dis- tance to geological structures etc. Then the rough set theory based on genetic algorithm was used to reduce the re- dundant ination of 13 initial factors in the decision table and determine the kernel including 8 representative factors, namely, lithology, altitude, curvature, distance to roads, distance to river, slope angle, aspect, stream power index. After that, the kernel factors were used to train a BP neural network model, and landslide susceptibility index LSI and landslide susceptibility classification map were achieved. The highest susceptibility zone is about 12.82 of the total area, including 78.11 landslide-prone area. The ROC curve test result shows that the predic- tion accuracy of the RS-BPNN model is about 90.9, proving that the RS-BPNN model has advantages of excel- lent prediction perance and efficiency and has higher practical value. Keywords landslide susceptibility uation; factor selection; rough set theory; genetic algorithm; back-propagation neural network 在中国西南山区,滑坡一直是影响最广泛的地 质灾害。这些滑坡灾害多诱发于强降雨及人类工程 活动,每年由滑坡造成的财产损失及人员伤亡均远 超于其他地质灾害。 由于人类工程活动的显著增加, 场地稳定性研究任务艰巨。因此,基于已发滑坡点 的工程地质环境因素分析,评价和预测将来可能发 生滑坡的区域,即滑坡易发性评价[1]逐渐成为滑坡 防治和国土规划的关键环节。 一般来说,滑坡易发性评价的方法可以是定性 或定量,直接或间接的。全范围的滑坡调查制图法 ChaoXing 130 煤田地质与勘探 第 45 卷 就是一种直接的定性评价方法,而工程类比法则是 间接定性评价法,除此之外,大部分评价方法都属 于间接定量评价[2]。从某种程度上说,间接定量评 价比直接定性评价更加客观。随着地理信息系统 GIS技术的普及, 极大地促进了滑坡易发性评价方法 的发展。现阶段,将 GIS 技术与其他定量评价方法相 结合是解决滑坡易发性评价问题的一般原则[3-15]。 滑坡的形成发育过程十分复杂,造成滑坡的环 境地质因素众多,各因素与滑坡发育情况的关系是 未知且非线性的,目前国内外在评价因子的挑选问 题上始终不可能有统一的标准[16]。 以往的研究表明, 国内外学者对于评价指标的选取具有一定的主观 性,这在一定程度上影响了评价结果的精度。因此, 针对特定的研究区域,采用科学、合理的方法挑选 适合的评价因子,是滑坡易发性评价的关键问题之 一。由波兰研究者 Pawlak 提出的粗糙集理论,由于 不需要对对象的特征属性提出数学预设,也不需要 人为给定关系度量,可直接针对不完整、不精确的 数据进行分析处理,并从数据本身挖掘内在联系, 从而获得简明的知识表达形式[17-18]。因此,该理论 在滑坡易发性评价因子筛选的问题上,具有较大的 应用价值和发展潜力[19-21]。 此外,针对评价因子与滑坡易发性间复杂的非 线性关系,找到合适的定量评价方法也是至关重要 的。众所周知,人工神经网络就是典型的非线性方 法。神经网络模型具有强大的学习能力,能够从训 练数据中挖掘非线性行为规则,并应用于同类数据 的预测和评价。D P Kanungo 等[6]的研究表明,对于 评价因子权值的判定,人工神经网络模型相较于其 他评价方法而言,具有更加突出的表现;H A Nefes- lioglu 等[22]分别采用逻辑回归法和神经网络模型评 价了滑坡的易发性,研究表明神经网络模型的评价 结果更加客观,评价精度更高;B Pradhan 等[11]则对 比了逻辑回归法、频率比法和神经网络 3 种方法在 滑坡易发性评价中的应用效果,结果再一次说明, 神经网络的评价结果优于另外 2 种方法。 由此可见, 神经网络模型在滑坡易发性评价问题上具有较高的 精度和广泛的适用性。 为进一步提高滑坡易发性评价结果的准确性, 笔者以恩施市龙凤镇为研究区域完成了如下工作 ①利用 ArcGIS 软件从数字高程模型、区域地质图、 水文地质图等基础资料中采集滑坡的初始评价因 子;②运用 SPSS 软件对评价因子中的连续变量进 行数据离散化;③基于粗糙集理论Rough Set The- ory 和遗传算法Genetic Algorithm,以 Matlab 数 学软件为平台,将遗传约简算法应用于粗糙集的属 性约简,完成滑坡易发性评价因子筛选;④根据筛 选结果,利用 BP 神经网络模型评价该区的滑坡易 发性;⑤为验证评价因子筛选环节的优化效果,采 用 ROC 曲线,结合区域已发滑坡点进行对比分析。 1 研究方法 1.1 粗糙集理论 粗糙集理论Rough Set, RS是一种能够有效分 析处理不确定、 不一致、 不完整信息的数学工具[20], 是一种软计算soft computing方法,同样隶属于软 计算的数学工具还包括神经网络、遗传算法、概率 推理、混沌理论等[23]。软计算数学工具的特点是, 利用允许范围内的不完整、 不精确和部分真实信息, 获取与现实系统相协调的更便捷、鲁棒性更强、成 本更低的,与现实系统相协调的解决方案。 在粗糙集理论中,一个知识表达系统可由四元 序组表示[17, 24],即 , , ,SU A V f 1 式中 12 ,,, m Ux xx 为论域,是指定对象的 有限非空集合; 12 ,,, n Aa aa 为有限非空的 属性集合,且ACD ,C 为条件属性,D 为决策 属性;V为相应属性 a 的值域;f 为信息函数, , f UAVf x aV,。 对 任 意 属 性 集BA, 定 义 不 可 分 辨 关 系 ind B为存在对象, ij x xU,对bB ,若存在 ij b xb x,则, ij x x对于属性集 B 不可分辨。对属 性 i aA,若存在 i ind Aind Aa,则 i a冗余; 反之则 i a独立或必要。当任意aA都在 A 中必要 时,则称 A 具有独立性,此时若BA,则 B 也独 立;若 ind Bind A,则称 B 为 A 的一个约简。 将 A 的约简记作 red M,A 中所有不可省略的属 性集合,即 A 的核,记作core M,存在关系 core Mred M 。此外,定义条件属性 C 对决 策属性 D 的支持度或 D 对 C 的依赖度为 CC kDposDU 2 其中 C pos D是 D 关于 C 的正域,U为 U 的基数或 势。将 RS 用于滑坡评价因子筛选时,关键问题在 于属性约简, 即保持知识库分类能力不变的条件下, 删除不重要或不相关的冗余,因此“核”的作用尤为 重要,可作为约简计算的基础,也是知识表达系统 的必要属性。 1.2 遗传算法 由于 RS 的属性约简问题属于 NP-hard 问题, 即 生成问题的一个解比验证一个给定解所花的时间更 ChaoXing 第 6 期 唐睿旋等 基于粗糙集和 BP 神经网络的滑坡易发性评价 131 多,随着决策表的增大,知识约简的复杂性基本呈 指数增长。因此需要采用恰当的搜索方法来解决这 一问题。 遗传算法Genetic Algorithm, GA是基于生 物遗传、进化模拟的自适应全局优化搜索算法[25], 它具有全局优化、隐含并行性等优点,适用于粗糙 集属性约简问题的求解。遗传算法的相关原理及定 义在很多文献中都有论述[26],在此不作罗列,仅阐 述遗传约简算法的相关函数及大体过程。 简单来说,该过程的输入为一个二维决策表 , , ,SU A V f ,其中ACD,C 为条件属性, D 为决策属性,表中的每一行表示论域 U 中的一个 对象,每一列表示集合 A 中的一个属性;输出则是 决策表 S 的最小约简 R。 在遗传算法中,采用长度 mm 为条件属性 C 的个 数的二进制字符串编码每个个体,即 12 ,,, m c cc, 当个体满足第 i 个属性,则基因1 i c,否则为基因 为 0。定义 mr为染色体 r 中基因为 1 的属性个数, 对于求解最小属性约简问题,一方面希望属性约简 程度最大化,即 mr尽量小,另一方面希望该约简的 决策属性对条件属性的依赖度足够高[27],因此构造 适应度函数 Fr rC F rmmmD 3 遗传约简算法的具体实现步骤为①随机生成 n 个个体组成初始种群 original T,个体均由长度 为 m 的二进制编码表示,T 表示遗传代数,0T; ②由式2求出决策属性 D 对条件属性 C 的依赖度 C D ,根据式3求出每个个体的适应度,找到 0 original T中适应度最大的个体;③对 0 original T 使用轮盘赌策略进行选择遗传算子,以交叉概率 cross p进行单点交叉, 以变异概率 mutation p进行变异, 以 此 产 生 新 的 种 群1Gen T ; ④ 再 一 次 计 算 1Gen T 中每个个体的依赖度及适应度,找出 1Gen T 中适应度最大的最优个体, 将最优个体复 制到下一代种群,以此往复;⑤算法终止条件设定 为 满足最大迭代次数_MaxGen, 或者适应度不再 提高,即 D red CC D 。最终输出的最佳染色体 所对应的条件属性即为集合 A 的最小约简。 1.3 BP 神经网络 BP Back-propagation 神经网络是一种基于误 差反向传播学习的多层前馈神经网络[28]。目前在工 程问题的处理中应用最广泛的是 3 层 BP 神经网络, 即仅含有一个中间层,现将其原理简单陈述如下。 BP 模型中的 3 层包括输入层 12 ,,,Xx x ,, iI xx,隐含层 12 ,,,,, jJ Yy yyy,输 出层 12 ,,,,, kK zz zzz。假定预期输出层为 12 ,,,,, kK oo ooo,隐含层内的第 j 个神经 元 j y,以及输出层内第 k 个神经元 k z分别满足 11 1 I jjijij i yf Mfw xa 1,2,, jJ 4 22 1 J kkjkjk j zfNfw yb 1,2,,kK 5 式中 ij w、 j a分别为输入隐含层间的权值和阈值; jk w 、 k b则分别为隐含输出层间的权值和阈值;1f、 2 f为激活函数。 BP 模型的主旨是 拟定适宜的激活 函数,通过调整权值和阈值,实现预期输出层与实 际输出层间的误差MSE最小化。 2 1 1 MSE K kk k oz K 6 本文以筛选出的评价因子作为输入层,假定发 生滑坡的单元输出值为1,非滑坡单元输出值为0, 构建BP神经网络模型,求取研究区内所有单元的 滑坡易发性指数LSI。 2 研究区及数据 2.1 研究区概况 研究区龙凤镇位于湖北省恩施市,地理坐标为 东经1091910936,北纬30203032,总面 积约285.6 km2。图1为研究区地理位置示意图。龙 凤镇地处鄂西南褶皱山地,中心集镇部分坐落于恩 施红色断陷盆地,为中低山和侵蚀丘陵地貌,山脉 图 1 研究区位置示意图 Fig.1 Location of the study area ChaoXing 132 煤田地质与勘探 第45卷 走向受区域构造线控制。气候属亚热带湿润季风气 候,雨量充沛、气候温和。 龙凤镇范围内的区域性构造多为断裂和褶皱, 规模较大的断裂有建始大断裂、龙凤坝断裂、大 坝断裂;主要的褶皱有屯堡茶山背斜、龙凤坝 背斜、古场坝向斜。由于降雨量大、地质条件复杂, 以及人类工程活动日益增长,区域内的地质灾害频 繁发生。 2.2 滑坡发育及分布特征 众所周知,滑坡分布图是分析已发滑坡点和致 灾因子相关关系的重要凭证。为了获得研究区的滑 坡分布情况,自2014年11月到2015年2月,完成 了该区重点地质灾害野外调查,共计40个滑坡点。 本研究利用ArcGIS软件,从1 25 000地形图上采 集数据,生成数字高程模型DEM,并以30 m30 m 为单位划分栅格,作为滑坡易发性的评价单元,共 有评价单元299 975个, 其中滑坡点涵盖3 298个栅 格单元图2。 a. 滑坡物质组成 研究区滑坡主要类型为堆积 层滑坡和顺层基岩滑坡,分别占滑坡总数的80和 20。灾害点主要发育于志留系罗惹坪组S1lr、纱帽 组S2s、 龙马溪组S1l、 白垩系跑马岗组K2p地层中, 主要岩性为志留系强风化中风化泥页岩、泥灰岩, 白垩系砂岩夹粉砂岩,第四系崩坡积物、残坡积物。 图 2 滑坡分布示意图及部分滑坡点照片 Fig.2 Landslide distribution and photos of some landslides b. 滑坡形态规模 据统计, 研究区内的滑坡规 模不等,其中堆积层滑坡体积相对较小,范围值为 0.263104 m3,厚度在1025 m。岩质滑坡体积较 大,范围值为0.077 560104 m3。滑坡的平面形态 主要为圈椅形、舌形和半圆形;剖面形态主要为直 线型、凹型、凸型和阶梯型。 c. 滑坡分布特征 研究区内岩质滑坡分布于 龙马村、青堡村、龙潭村;堆积层滑坡的分布则比 ChaoXing 第6期 唐睿旋等 基于粗糙集和BP神经网络的滑坡易发性评价 133 较分散,其中小型滑坡点多集中于公路开挖、居民 建房等人类活动强烈的村落,部分中型滑坡前也有 铁路、公路穿过。 地层岩性方面, 由于白垩系地层主要在三河村、 龙潭村东南区域产出,故该区域地质灾害集中,但 滑坡规模相对较小。志留系地层主要分布在龙凤镇 所辖区域内的西部,中部佐家坝村、龙马村、柑子 坪村、猫子山村大部分区域,和南部龙潭村、龙凤 村局部区域,特大型、大型、中型滑坡皆分布于龙 凤镇中部志留系分布区域。 地形地貌方面,在灾害集中的区域,主要地貌 类型为构造剥蚀低山地貌和构造剥蚀中低山峡谷地 貌。在同一地层岩性中,构造剥蚀中低山峡谷地貌 区较构造剥蚀低山地貌地质灾害规模更大,此外, 有28.8的灾害点分布于冲沟、河谷切割带。 地质构造方面,直接受断裂影响的滑坡包括金 甲山1号、2号滑坡,受大坝断裂控制。此外,区 域内大部分中小型灾害点均分布于龙凤坝断裂附 近,龙凤坝背斜南东翼。 综上所述,区内滑坡的分布情况受地层岩性、 地形地貌、地质构造、人类工程活动的影响,其中 地层岩性、地形地貌对滑坡的分布具有控制作用, 人类工程活动则是研究区滑坡发生的重要诱因。 2.3 初始评价因子提取 滑坡的形成发育过程十分复杂,影响滑坡的因 素众多,总体上看,滑坡是一个开放的非线性系统。 由于研究区域、研究目的、研究尺度的差异,所挑 选的滑坡影响因子也有所不同。 在区域上,每个单体滑坡的形成都是由于各自 的平衡状态被打破,它们之间没有直接的联系,因 此,在进行区域性的滑坡易发性评价时,评价因子 的选择有时比较困难,很多情况下需要依据经验判 断出初始的评价因子,再进行进一步的筛选。 众多研究表明, 滑坡的发育内受赋存地质环境因素 控制,外受大气降雨、库水变动、地震、人类工程活动 等扰动因素影响。因此,研究区的滑坡影响因子可以分 为2类地质环境基础因子、外界诱发因子。其中,地 质环境基础因子主要考虑4个方面地质结构因素、地 形地貌因素、水文地质因素、气候环境因素。 研究区内可获得的地质结构类因素包括工程岩 组、坡向、地质构造;地形地貌因素包括斜坡坡度、 高程、地形曲率、地表粗糙度;水文地质因素包括 水系分布、径流强度指数、流域面积;气候环境因 素为地形湿度指数。 外界诱发因子包括大气降雨、地震和人类工程 活动。由于研究区范围较小,认为区内降雨量的差 异较小,并且区域受地震的影响程度较弱,因此未 将地震、降雨量作为初始评价因子,然而降雨作用 是诱发滑坡发生的重要因素之一,且降雨对滑坡的 影响程度还受地形地貌、 土壤持水力等因素的作用, 因此本研究采用径流强度指数和地形湿度指数作为 评价因子,分别表征地形地貌、土壤持水能力这两 个关键因素在降雨作用于滑坡过程中的影响。 此外, 还考虑了包括土地利用情况、道路分布情况在内的 人类工程活动对滑坡易发性的影响。 此外,地下水的作用也是滑坡形成的关键,所 造成的不利影响包括增加斜坡体自重,降低岩土 体有效应力,浸泡软化斜坡岩土体等,但由于区域 范围内的地下水资料获取比较困难,文章未将其作 为初始评价因子。 综上所述, 结合研究区滑坡分布发育特征分析, 并考虑现有数据源数字高程模型、区域地质图、 水文地质图、滑坡分布图、土地利用现状图,共选 取13个初始评价因子工程岩组C1、高程C2、地 形曲率C3、地表粗糙度C4、流域面积C5、地质构 造C6、道路C7、水系C8、坡度C9、土地利用情况 C10、坡向C11、径流强度指数C12、地形湿度指数 C13,部分评价因子如图3所示。 在所选的初始评价因子中,工程岩组、坡向和 土地利用情况为分类变量,其他均为连续变量,由 于粗糙集理论在处理连续数据时具有局限性,需要 进行数据离散化。首先利用ArcGIS的nature break 分类功能,进行区间划分,再利用SPSS的可视化 离散功能,结合所取得的数据分割点,完成连续变 量的离散化,见表1。 为减少计算量且保证样本具有代表性,本文选 择研究区部分栅格单位作为论域,包括268个滑坡 栅格和232个非滑坡栅格,共计500个对象。根据 粗糙集理论, 表1中的13个初始评价因子构成对象 条件属性,是否为滑坡区域为对象决策属性1表示 滑坡区域,0表示非滑坡区域,采用表1中各属性 分段区间的特征值进行量化,以此构建研究区滑坡 易发性初始决策表,形式如表2所示。 其中,U为 论 域 ,A为 属 性 集 合 ,ACD, 条 件 属 性 1213 ,,,CC CC,决策属性D表示是否为已发滑 坡点。 3 结果与分析 基于粗糙集理论及遗传约简算法,在Matlab数 字软件平台上,对初始评价因子决策表进行约简, ChaoXing 134 煤田地质与勘探 第45卷 在确保决策结果不变的前提下,最大限度地删除冗 余属性,获得核Core,以及最小属性约简表,从而 实现滑坡易发性评价因子筛选。 选取遗传变异概率pm0.02,交叉概率pc0.6, 最大迭代次数Max_Gen100,训练种群规模M 500, 实现约简。 多次计算后, 挑选依赖度0.9 c D≥ 的28组结果作为筛选依据, 将各指标在最优个体中 出现的次数进行统计,如表3所示。 图 3 部分初始评价因子 Fig.3 Parts of initial uation factors ChaoXing 第6期 唐睿旋等 基于粗糙集和BP神经网络的滑坡易发性评价 135 表 1 滑坡易发性初始评价因子分级表 Table 1 Categorized data of initial uation factors 因子 分级区间 特征值 因子 分级区间 特征值 因子 分级区间 特征值 坚硬岩组 0 1 100 0 Flat 0 半坚硬岩组 1 [1 100,2 500 1 N 1 软硬相间岩组 2 [2 500,4 200 2 NE 2 C1 软弱岩组 3 C6/m ≥4 200 3 E 3 600 0 390 0 SE 4 [600,900 1 [390,880 1 S 5 [900,1 200 2 [880,1 570 2 SW 6 C2 /m ≥1 200 3 C7 /m ≥1 570 3 W 7 0 0 16 3 C10 林地 2 Landslide 未发生 1 表 2 滑坡易发性初始决策表格部分 Table 2 Categorized data of initial decision factors 条件属性 C 决策属性 D A U C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 D 1 3 1 2 2 2 3 0 0 1 0 3 3 3 1 2 3 1 1 1 1 2 0 0 2 1 3 3 0 1 3 0 2 1 0 0 1 2 2 0 1 5 0 2 0 4 1 3 0 3 2 2 3 3 3 2 0 1 2 0 5 2 0 1 1 3 0 1 1 3 0 2 2 1 1 549 0 1 1 1 0 0 1 3 0 2 1 1 2 0 550 2 3 2 2 2 2 2 0 0 2 7 1 1 0 表 3 初始评价因子约简情况统计表 Table 3 Statistical table of reduction of initial uation factors 序号 初始评价因子 出现次数 百分比/ 最终评价因子 C1 工程岩组 25 12.2 Y C2 高程 19 9.3 Y C3 地形曲率 18 8.8 Y C4 地表粗糙度 7 3.4 N C5 流域面积 9 4.4 N C6 地质构造 10 4.9 N C7 道路 20 9.8 Y C8 水系 23 11.2 Y C9 坡度 21 10.2 Y C10 土地利用情况 9 4.4 N C11 坡向 17 8.3 Y C12 径流强度指数 21 10.2 Y C13 地形湿度指数 6 2.9 N 注Y 表示作为最终评价因子;N 表示不作为最终评价因子。 从约简统计表可以看出,条件属性C1,C2,C3, C7,C8,C9,C11,C12出现的次数最多,所占百分 比最大,因此约简其余5个条件属性 C4,C5, C6,C10,C12。最终确定8个条件属性工程岩组C1、 高程C2、地形曲率C3、道路C7、水系C8、坡度C9、 坡向C11、 径流强度指数C12为滑坡易发性评价的最 终评价因子。 在条件属性较多的情况下,由粗糙集所生成的 决策规则一般比较复杂, 且与多个因子属性相关联, 然而滑坡的发生与诱发因子间的关系并不直观,不 适宜利用粗糙集生成的决策规则直接进行评价。因 此,本文在随后的分析中,采用BP神经网络方法 对研究区进行滑坡易发性评价。 随机选择3 000个样本包括1 500个滑坡栅格 和1 500个非滑坡栅格建立3层BPNN模型,其中 2 400个样本用于模型训练, 剩余600个样本用于模 ChaoXing 136 煤田地质与勘探 第45卷 型验证。将由粗糙集方法选择出的8个核因子集实 现归一化处理后, 提取到训练样本集中作为输入层, 各样本对应的滑坡状态其中1表示样本为滑坡栅 格,0表示样本为非滑坡栅格作为输出层,其余的 模型参数如表4所示。模型所采用的隐含层节点数 目为15,是经过对比5、10、12、15、17后取最佳, 所采用的训练方法为Levenberg-marquardt优化算 法,经证实,LM算法具有良好的泛化能力,并能 提供好的预测结果[29]。 通过随机分配初始权值取值范围0.10.3将 模型计算重复10次。表5中列出了每次训练所获 得的8个核因子的权重, 其中权值的协方差值COV 范围为0.002 90.021 1,无明显差异,证实结果合 理可靠。 表 4 BP 神经网络模型参数取值情况 Table 4 Parameter settings in BPNN model Hidden Output 样本数 f1 f2 训练方法 迭代次数 学习率 误差目标 8 15 1 3 000 Logsig Purelin LM 1 000 0.01 0.01 注Logsig 为对数双曲函数,Purelin 为线性函数,LM 为 Levenberg-marquardt 优化算法 表 5 评价因子权值统计 Table 5 Weight of uation factors 因子 1 2 3 4 5 6 7 8 9 10 COV 平均值 C1 1.742 1.741 1.742 1.745 1.741 1.746 1.749 1.748 1.731 1.739 0.002 9 1.74 C9 1.500 1.469 1.467 1.501 1.468 1.463 1.467 1.474 1.479 1.475 0.009 2 1.48 C8 1.271 1.272 1.259 1.286 1.296 1.277 1.305 1.271 1.275 1.276 0.010 5 1.28 C7 1.115 1.120 1.118 1.118 1.120 1.118 1.118 1.120 1.129 1.109 0.004 5 1.12 C12 0.860 0.856 0.856 0.862 0.862 0.861 0.851 0.850 0.851 0.848 0.006 1 0.86 C2 0.692 0.688 0.684 0.688 0.701 0.689 0.687 0.687 0.675 0.688 0.009 7 0.69 C3 0.336 0.335 0.334 0.340 0.337 0.326 0.338 0.338 0.339 0.346 0.015 0 0.34 C11 0.193 0.191 0.189 0.187 0.190 0.198 0.191 0.190 0.198 0.198 0.021 1 0.19 随后,对比训练好的BP神经网络模型,将精 度最高RMSE值最小的模型应用于整个研究区 299 975个栅格,进行滑坡易发性预测。经BP模型 所得的滑坡易发性指数LSI取值范围为0到1,以 database格式转换为GIS栅格属性,并采用ArcGIS 的自然断点分类法将滑坡易发性划分为5个等级图 4分别为不易发区、低易发区、中易发区、中高 易发区、高易发区,各区所占面积、包含滑坡栅格 数等统计分析情况如表6所示。 图 4 研究区滑坡易发性等级分区图 Fig.4 Grade zonation of landslide susceptibility in the study area 表 6 基于 RS-BPNN 模型的滑坡易发性分区面积统计 Table 6 Statistical analysis of RS-BPNN LSI classification model LSI 等级 占研究区 面积/ 包含滑坡 栅格数 滑坡占各分 区面积/ 占总滑坡 面积/ 不易发区 15.16 0 0.00 0.00 低易发区 24.96 6 0.01 0.18 中易发区 19.64 36 0.06 1.09 中高易发区27.41 680 0.82 20.62 高易发区 12.82 2 576 5.02 78.11 对于预测模型,结果验证是极其必要的,缺少 验证环节的模型很难具有实用价值。 许多文献证实, ROC曲线receiver operating characteristic curve及 曲线下面积AUCarea under the curve可以作为验证 预测模型的良好指标[9,12,14,30-31]。因此,笔者采用此 方法结合区域已发滑坡点,完成预测模型的准确性 测试。 关于ROC曲线的理论基础和计算方法可参考 文献[32],在此不作阐述。 随机选取7 298个栅格, 包括3 298个滑坡栅格 和4 000个非滑坡栅格,采用SPSS软件绘制ROC 曲线并计算曲线下面积AUC0.909,预测精度可达 90.9,如图5所示。验证结果表明,采用基于遗传 约简算法的粗糙集理论筛选出的8个评价因子对滑 坡易发性具有较大的贡献,以这8个核因子为评价 ChaoXing 第6期 唐睿旋等 基于粗糙集和BP神经网络的滑坡易发性评价 137 指标的BP神经网络预测模型具有较高的精度。 图 5 RS-BPNN 模型 ROC 曲线测试图 Fig.5 The ROC curve of RS-BPNN model 4 结 论 a. 将粗糙集理论与遗传算法相结合应用于滑 坡易发性评价因子筛选,挖掘数据中隐含的内在规 律,克服了传统因子筛选方法的主观性,为滑坡易 发性评价因子的客观筛选提供了新的思路和方法。 b. 以恩施市龙凤镇滑坡易发性评价为例,基于 现场调查及基础资料收集,建立了用于因子筛选的 样本决策表,采用基于遗传约简算法的粗糙集理论 对其进行属性约简, 从13个初始评价因子中识别出 引起研究区滑坡灾害的8个核心影响因子,即工 程岩组、高程、地形曲率、道路、水系、坡度、坡 向、径流强度指数。 c. 提出了RS-BPNN模型,基于粗糙集理论消 除初始评价因子中的冗余属性,获得对滑坡发生起 关键作用的核因子,随后采用训练过的BP神经网 络模型,进行研究区滑坡易发性指数求解,并获得 滑坡易发性等级分区图。其中高易发区面积占总面 积的12.82,该区包含的滑坡面积占总滑坡面积的 78.11,通过ROC曲线测试,精度为90.9,证明 RS-BPNN模型测试能力良好, 进一步提高了滑坡易 发性评价的精度和准确性。 d. 粗糙集在研究问题的属性时,数量没有限制, 且随着数据量的增加能更加准确地提取规则,完成属 性约简。由于研究区资料收集不够全面,仅考虑了13 个评价因子,随着对滑坡形成机制认识的深入以及区 域资料的丰富,可以考虑更多的影响因素,例如斜坡 结构、归一化植被指数、植被覆盖度、岩土体渗透系 数、岩体风化程度等,以便全面客观地对区域滑坡易 发性进行预测,使预测结果更加符合实际。 参考文献 [1] VAN WESTEN C J. The modelling of landslide hazards using GIS[J]. Surveys in Geophysics,2000,212/3241–255. [2] GUZZETTI F, CARRARA A, CARDINALI M, et al. Landslide hazard uationA review of current techniques and their ap- plication in a multi-scale study,Central Italy[J]. Geomorphol- ogy,1999,311181–216. [3] AKGUN A. A comparison of landslide susceptibility maps pro- duced by logistic regression,multi-criteria decision,and like- lihood ratio sA case study at İzmir,Turkey[J]. Land- slides,2012,9193–106. [4] CATANI F,CASAGLI N,ERMINI L,et al. Landslide hazard and risk mapping at catchment scale in the Arno River basin[J]. Landslides,2005,24329–342. [5] GEMITZI A, FALALAKIS G, ESKIOGLOU P, et al. uating landslide susceptibility using environmental factors , fuzzy membership functions and GIS[J]. Global NEST Journal,2011, 13128–40. [6] KANUNGO D P,ARORA M K,SARK