支持向量机在矿区遥感监测图像分类中的应用研究.pdf
致 谢 致 谢 本论文是在王焱教授的悉心指导下完成的,没有王老师的指导、鼓励及资金上 的大力支持,论文是不可能得以顺利完成的。师从三载,收获颇丰,感触亦深。王 老师优秀的做人品质,严谨的治学态度,开拓创新的精神,高屋建瓴把握全局的能 力,忘我的工作精神给学生树立起潜移默化的典范作用,这也是导师传授给学生最 宝贵的财富。在此,谨向我的导师致以深深的敬意。 感谢两年多来学院领导和老师的深切关怀,感谢本实验室颜语、王占超、孙雁 鸣、王磊明等同学的支持和帮助,感谢同宿舍姐妹陈巍、刘晟楠、吕春玲在生活和 学习中的关怀和帮助。感谢所有关心、帮助本论文工作的老师和同学。 特别感谢辛勤养育和教导我的父母和家人,多年来,他们给了我极大的关怀和 鼓励,使我在人生的道路上不断成长,他们的关注和期盼是我不断前进的强大动力。 最后,感谢所有审阅本论文的专家和老师们 摘 要 摘 要 我国在煤矿开采过程中的监测行为大多是现场监测,力量薄弱,而且信息采集 范围有限、时效性差,大量违法开采行为不能够及时发现,对矿区环境造成不可逆 转的破坏。遥感技术以其宏观性、实时性、周期性及综合性等特点,为快速、准确、 客观的露天煤矿区环境监测提供了可能。随着航天遥感信息技术的快速发展和全球 对地观测体系的建立,遥感数据的提供能力越来越强,但由于遥感信息的综合性, 遥感成像机理的复杂性,信息处理技术却落后于信息获取技术的发展。本文对现有 遥感图像分类方法及支持向量机原理进行了综合分析,将基于支持向量机的遥感图 像分类识别方法用于露天煤矿区的遥感监测问题中。 以鹤岗市的一幅 TM 遥感图像为例,选用两种支持向量机多分类方法进行分类 比较。支持向量机分类器建模过程中,核函数的选择至今没有理论上的指导,本文 用实验的方法,手动创建了一个二维的五分类样本数据集合,分别使用常用的四种 核函数进行了分类比较,结果显示,使用高斯径向基核函数时分类器的分类效果最 为理想;使用交叉验证的网格搜索法选取了合适的参数,使分类器具有较高的分类 精度。结果表明,由于误差累积,支持向量机多分类器的分类精度要低于两类分类 器的精度;在解决类别数少的分类问题时,两种 SVM 多分类器的分类精度令人满 意,分别达到 83.67和 86.75,相比之下 1-v-1SVM 具有更高的分类精度。 关键词遥感监测;支持向量机;图像分类 Abstract Abstract China in coal mining in the process of monitoring the behavior of mostly on-site monitoring, weak, and the limited scope of ination collection, timeliness is poor, a large number of illegal exploitation of behavior can not be timely detection of irreversible damage to environment caused by mining. Remote sensing technologys broad, real-time, periodic and comprehensive sexual and other characteristics, for fast, accurate, and objective opencast mine area offers the possibility of environmental monitoring. With the space remote sensing ination technology, rapid development and Global Earth Observation System of remote sensing data, to provide capacity-growing, but because of the comprehensive nature of remote sensing ination, the complexity of the mechanism of remote sensing imaging, ination processing technology has lagged behind in ination access to technology development. In this paper, the existing remote sensing image classification and support vector machine principle of a comprehensive analysis will be based on support vector machines for remote sensing image classification and recognition for opencast mine area environmental monitoring problems. To Hegang City, a TM remote sensing image, for example, use two kinds of support vector machine multi-classification to classify comparison. Support vector machine classifier modeling process, the choice of kernel function has no theoretical guidance, this experimental approach, manually create a two-dimensional sample data sets of five categories, namely, the use of four kinds of commonly used kernel functions were classification comparison, the results show that the use of Gaussian radial basis kernel function of the classification results when the classifier is most desirable; the use of cross-validation grid search algorithm selected the appropriate parameters, so that classifiers have higher classification accuracy. The results show that, due to error accumulation, support vector machine multi-classifier of the classification accuracy is lower than the accuracy of two classifiers; in the settlement of fewer categories of the classification problem, two kinds of SVM multi-classifier of the classification accuracy is satisfactory, respectively, reached 83.67 and 86.75, compared to 1-v-1SVM has a higher classification accuracy. Key Wordsremote sensing monitoring;support vector machine;image classification 目 录 目 录 摘 要 Abstract 1 绪论 ............................................................................................................ 1 1.1 露天煤矿区遥感监测的目的与意义 ..................................................1 1.2 遥感监测关键技术分析 .....................................................................2 1.3 遥感图像计算机分类研究现状 ..........................................................3 1.4 支持向量机的研究现状 .....................................................................4 1.4.1 SVM 算法方面的研究 .................................................................. 4 1.4.2 SVM 应用方面的研究 .................................................................. 6 1.5 本文的主要工作与章节安排..............................................................6 2 遥感图像分类技术 ...................................................................................... 8 2.1 引言 ...................................................................................................8 2.2 遥感图像介绍 ....................................................................................8 2.3 遥感图像分类的一般原理 ...............................................................10 2.4 遥感图像分类方法综述 ...................................................................12 2.4.1 传统的分类方法 ......................................................................... 12 2.4.2 新分类方法研究 ......................................................................... 16 2.4.3 分类方法评析与展望.................................................................. 20 2.5 小结 .................................................................................................22 3 支持向量机基本理论 ................................................................................ 23 3.1 引言 .................................................................................................23 3.2 统计学习理论 ..................................................................................23 3.2.1 VC 维 ......................................................................................... 24 3.2.2 推广性的界................................................................................. 25 3.2.3 结构风险最小化 ......................................................................... 25 3.3 支持向量机介绍 ..............................................................................27 3.3.1 最优分类面的构造 ..................................................................... 27 3.3.2 支持向量机................................................................................. 28 3.3.3 核函数 ........................................................................................ 30 3.3.4 支持向量机的特点 ..................................................................... 31 3.4 两类支持向量机分类器的实现 ........................................................31 3.5 支持向量机多分类算法 ...................................................................33 3.6 小结 .................................................................................................36 4 基于 SVM 的煤矿区遥感监测图像分类.................................................... 37 4.1 引言 .................................................................................................37 4.2 实验数据介绍 ..................................................................................37 4.3 支持向量机分类器模型构建............................................................38 4.3.1 算法的实现................................................................................. 38 4.3.2 核函数的选择............................................................................. 39 4.3.3 参数的选择................................................................................. 43 4.3.4 SVM 的训练算法选择 ................................................................ 47 4.4 遥感图像分类实验...........................................................................49 4.4.1 实验方法及流程 ......................................................................... 49 4.4.2 实验结果分析............................................................................. 50 4.5 小结 .................................................................................................52 结 论 ........................................................................................................ 54 参 考 文 献................................................................................................... 56 作 者 简 历................................................................................................... 62 学位论文数据集.............................................................................................. 6 3 - 1 - 1 绪论 1 绪论 1.1 露天煤矿区遥感监测的目的与意义 我国近 90的煤炭资源分布在大陆性干旱、半干旱气候带,这些地区环境承载 能力低,生态环境十分脆弱。我国五大露天煤矿中有四个在内蒙古草原地区,煤矿 开采过程中的大面积土地破坏、地下水疏干及空气污染等问题,都加剧了生态环境 的恶化,严重威胁矿区的生态系统。露天煤矿由于生产率高和生产成本低等特点, 成为世界各国增加煤炭产量的首选途径。我国从建国初期的抚顺西露天煤矿和阜新 海州露天煤矿到现在的安太堡、霍林河、准格尔、伊敏等大型煤矿都为我国的经济 发展做出了巨大贡献,同时也给矿区环境带来了巨大影响,与地下开采相比,露天 开采表现得更为严重。矿区生态环境的破坏不仅影响人们的生活质量,而且严重制 约着当地的经济发展。因此,在露天矿开采施工过程中进行环境监测,及时发现问 题,解决问题,可以将对矿区生态环境的破坏降到最低。避免走“先污染、后治理” 和“末端治理”的老路,做到“污染预防,全程控制”。 露天煤矿区开采过程中的生态环境监测,是对矿区生态环境进行评价以及生态 恢复和生态建设的基础和前提,已成为露天矿区的重要工作之一。对露天矿区生态 环境进行长期、客观、稳定的监测,是衡量矿区生态工作,及时发现问题的关键, 为生态环境保护提供决策依据,具有非常重要的现实意义。 遥感技术为煤矿区环境监测研究提供了多平台,多光谱,大范围,多时相的信 息。遥感是利用不同的物体具有不同的电磁波特性的原理来探测地表物体,并提取 这些物体的信息而完成对远距离物体的识别,具有视域广、信息更新快的特点。作 为一门对地观测综合性技术,遥感的出现和发展既是人们认识和探索自然界的客观 需要,还具有其它技术手段无法与之比拟的特点。遥感的技术的特点可以归纳为以 下三个方面(1)探测范围广、采集数据快;(2)可以动态反映地面事物变化; (3)获取信息时受限制条件少,获得数据信息量大。 我国矿政机关的监测现状大多是现场监测,由于力量薄弱,大量违法开采以及 严重破坏生态环境的行为不能够及时发现,往往是在出现严重问题时才发觉,进行 补救,造成很多不可逆转的损失。本文研究的目的是利用遥感技术这一高效、准确 - 2 - 的监测方法来解决这一问题, 利用遥感技术可以及时、大面积的反应研究区域情况, 解决以往矿山开采调查中的采集范围有限、采集信息地方保护、时效性差等问题。 1.2 遥感监测关键技术分析 遥感技术以其宏观性、实时性、周期性及综合性等特点,为快速、准确、客观 的露天煤矿区环境监测提供了可能。随着航天遥感信息技术的快速发展和全球对地 观测体系的建立,多种遥感数据的提供能力越来越强,由于遥感信息的综合性,遥 感成像机理的复杂性,信息处理技术却落后于信息获取技术的发展。直接从遥感图 像中提取地物信息,是当前遥感技术中面临的一个迫切而又复杂的问题,更是遥感 作为一种监测手段最为关键的技术。 常用的遥感信息提取的方法有两大类一是目视解译;二是计算机信息提取。 目视解译是指利用图像的影像特征(色调或色彩,即波谱特征)和空间特征(形状、 大小、阴影、纹理、图形、位置和布局),与多种非遥感信息资料(如地形图、各 种专题图)组合,运用其相关规律,进行由此及彼、由表及里、去伪存真的综合分 析和逻辑推理的思维过程。早期的目视解译多是纯人工在相片上解译,后来发展为 人机交互方式,并应用一系列图像处理方法进行影像的增强,提高影像的视觉效果 后在计算机屏幕上解译。计算机信息提取是利用计算机对遥感数字图像进行信息的 自动提取,由于地物在同一波段、同一地物在不同波段都具有不同的波谱特征,通 过对某种地物在各波段的波谱曲线进行分析,也可结合光谱特征、纹理特征、形状 特征、空间关系特征等综合因素根据其特点进行相应的增强处理后,可以在遥感影 像上识别并提取同类目标物。首先,对遥感图像预判读,选择训练样本并对其进行 统计分析,用适当的分类器对遥感数据分类,对分类结果进行后处理,最后进行精 度评价。 由于目视解译需要人工进行,解译精度受工作人员的先验知识影响,不同人员 的解译效果不同,而且遥感图像信息量大,若是实时监测图像的数量将会非常大, 人工解译的速度很难满足工作量的需求。一直以来,人们不断地寻求新的计算机自 动分类方法,但至今,自动化、高精度、智能化的遥感图像信息解译仍未能实现, 自动解译的精度往往低于目视解译的精度。因此,结合实际,对遥感图像的计算机 - 3 - 自动分类技术开展研究,不仅有利于遥感监测研究的深入,解决监测中面临的一些 关键问题,提高监测精度,而且对促进遥感监测技术的应用,提高土地资源科学管 理水平,具有重要意义。 1.3 遥感图像计算机分类研究现状 遥感图像的计算机分类方法有两种统计模式方法和句法模式方法。常用的是 传统的统计识别模式,如最大似然法、最小距离判别法等。遥感图像的统计分类又 分为两种监督分类和非监督分类。监督分类是在已知遥感图像上样本区内的地物 类别的基础上,利用这些样本的类别特征作为依据,判断非样本数据的类别;非监 督分类是遥感图像地物的属性未知,仅依靠不同的光谱数据组合在统计上的差别来 进行分类,然后再对已经分出的各类地物的属性进行确认的过程。 遥感图像分类是遥感应用系统中的最关键技术之一,快速、高精度的遥感图像 分类算法是实现各种实际应用的前提。因此,遥感图像的分类一直被从事于遥感信 息处理的广大科技人员所重视。 许多研究者都在不断尝试、 改进乃至探索新的方法, 不断提高遥感图像自动分类算法的精度和速度。近年来的研究大多将传统方法与新 方法加以结合,即在非监督分类和监督分类的基础上,运用新方法来改进,减少错 分和漏分情况,不同程度地提高了分类精度。 刘礼等[1]综合分析了分层分类和监督分类各自的特点和优势,将两者结合起来 建立了复合分类模型,并在 SPOT 影像上进行试验,证明了此方法与单一使用监督 分类法相比分类精度更高。王莉雯等[2]采用决策树分类、监督分类和非监督分类相 结合的综合分类方法,对分辨率为 1km 的青海省 MODIS 数据进行分类,将青海省 土地覆盖类型划分为 14 个类别。周兴东等[3]通过对徐州地区各类地物的光谱特征 的综合研究,以及对不同波段的组合分析,归纳出各种地物类型信息获取的方法与 途径,提出采用综合阈值法进行图像分类处理。经研究表明,该方法能够很好地区 分城镇用地和裸地等不容易区分的地类,有效降低混合象元带来的影响,提高土地 利用分类的可靠性和准确性。陈定贵等 [4]选取洪河保护区作为研究区,应用多期 Land sat T M 影像,采取基于专家经验的监督分类方法进行群落尺度的分类。马振 刚等[5]以洋河流域为研究区,分别进行了非监督分类和监督分类,使用改进了的综 - 4 - 合阈值法、植被指数法、DEM 数据辅助分析法对水域、植被、城镇与工矿用地进行 提取。结果表明,改进后的提取结果较监督分类的结果有很大的改善。黄昕等[6]提 出了一种多尺度间特征融合的分类方法,利用不同尺度的空间邻域特征弥补传统方 法的不足,提高高分辨率遥感影像解译的精度。崔林丽等[7]采用面向对象的分析思 想,经过图像分割和分割对象的矢量化等一系列的预处理后,提取目标形状信息, 然后综合利用光谱特征和形状特征,应用模糊分类器对两种典型的人造目标进行分 类提取实验。分析表明,形状信息的提取大大地丰富了目标识别的特征库,尤其是 目标与背景物光谱特征相近而形状特征差异明显时,利用光谱与形状特征整合的提 取方法能够大大提高目标的识别精度。肖鹏峰等[8]提出了基于频域最小距离遥感图 像纹理分类算法。将模板图像和适当窗口大小的待判别图像分别进行傅立叶变换, 计算二者的频域距离,若距离最小则判别窗口中心像元为该类别的地物。运用该方 法对 SPOT 图像进行纹理分类试验,结果表明窗口大小为 3*3 时分类效果最好,说 明了基于频域最小距离可以有效地对遥感图像依据纹理特征进行分类,而且窗口较 小时分类效果较好。任琼等[9]将支持向量机用于对生态公益林的监测,结合空间特 征等信息,对 IKONOS 高空间分辨率影像进行分类,并与传统分类方法进行比较, 基于支持向量机的遥感分类方法能够有效解决分类效果破碎、精度不高等问题。 1.4 支持向量机的研究现状 凭借其坚实的理论基础和在一些领域的应用中表现出来的良好的泛化性能,近 年来 SVM 方法受到越来越多的关注,研究者们提出了许多算法自身的改进和实际 应用的例子。 1.4 .1 SVM 算法方面的研究 标准支持向量机算法最终可以归结为求解一个凸二次规划问题。如果训练样本 数目很大,大到一定程度时,求解二次规划问题时就将面临严重的“维数灾难”问 题。针对这一问题,人们提出了多种支持向量机训练算法。从近些年对 SVM 的研 究及其发展来看,大致可以分为三个方面一是控制学习问题的规模;二是提高算 法的学习速度;三是上述两类方法之外的其它一些改进。 - 5 - (1)控制学习问题的规模 在不影响学习效果的前提下,将学习问题的规模控制在算法本身可以接受的范 围内,以提高支持向量机的学习效率。其中一种思路是将原问题分解成为若干子问 题,采用某种迭代策略,通过求解子问题,最终使结果收敛到原问题的最优解。在 处理大规模训练集问题时,Osuna[10]等研究者提出了一种支持向量机分解训练算法, 该算法[11,12]是将标准 SVM 的 QP 问题分解成若干个小规模的子 QP 问题,这样每个 子问题就容易求解。这类方法还包括序列最小优化[13](Sequential Minimization Optimal,SMO)算法、活动工作集算法[14]、Chunking 算法[15]等。 (2)提高算法的学习速度 二次规划优化问题的求解方法决定着 SVM 算法的学习速度。二次规划的常用 方法有 Lagrange 法、Lemke 法、罚函数法、障碍函数法等。为了有效地提高 SVM 的学习效率,人们不断地寻求更优的二次规划求解方法。S.N. Ahmed[16]等研究者提 出了增量学习算法,使得 SVM 可以进行较大规模问题的学习。另外,Suykens [17] 提出的最小二乘支持向量机Least Squares Support Vector Machine,LS-SVM训练算 法将 SVM 的二次规划问题转化为线性方程组问题,利用线性方程组的求解来完成 分类器的学习,这在一定程度上提高了 SVM 的学习效率。 (3)其它改进算法 在以上两种基本算法的基础上,针对具体问题,研究者们还提出了一些其它算 法。 如利用 SVM 的几何含义, keerthi 等人提出了快速迭代最近点[18]算法。 D.Roobaert 利用分类超平面的旋转和移动,提出了快速循环寻找最优超平面的 DirectSVM[19]算 法。Chen[20]提出了多重镜相分类器,Zhang[21]提出了基于类中心向量的学习算法。 另外一些研究者还提出了光滑支持向量机(Smooth SVM,SSVM)算法[2224],简化 支持向量机(ReducedSVM,RSVM)算法[25]和小波支持向量机(Wavelet SVM, WSVM)算法[26]等。 近年来,多分类支持向量机算法[27]研究的也较多,如有向无环图 DAGSVM[28] (Directed Acyclic Graph SVM)算法,支持向量机决策树[29](Decision Tree , DTM算法,二叉树(Binary Tree Architecture,BTA)多类分类支持向量机[30]算法, 模糊多类 SVM 算法[31]等。 - 6 - 1.4 .2 SVM 应用方面的研究 由于 SVM 对经验的依赖较小,能够获得全局最优解,具有良好的泛化性能等 优点, 受到众多的研究者的关注, SVM 逐渐成为了数据挖掘领域的研究热点。 目前, SVM 算法在模式识别、回归估计、概率密度估计等方面都有着广泛的应用。具体的 应用问题包括人脸图像识别[32]、手写字识别[33]、语音识别[34]、文本分类[35]、遥 感图像分析[36,37]、信号处理[38]、医疗诊断[39,40]、网页分类[41]、故障诊断[42]等。 国内对 SVM 的研究相对来说滞后于国外,但近几年发展较快。国内研究人员 对 SVM 理论进行了深入研究,并在此基础上,对各种算法加以改进,进一步提高 了 SVM 在实际应用中的性能,扩展了 SVM 的应用领域。对 SVM 在各个领域的应 用做了很多的尝试和实验,开展了许多有效的研究工作,取得了良好的成果[43-53], 对推动支持向量机的研究和发展具有重要意义。 1.5 本文的主要工作与章节安排 露天煤矿在开采过程中直接破坏地表土层和植被,对生态环境造成扰动,明显 地改变地物的形态,这些地表上的迹象反映在卫星遥感图像上就表现出特定的影像 特征,因此可以对露天煤矿区的环境运用遥感技术进行监测。遥感应用系统中最关 键的技术就是遥感图像分类,快速、高精度的遥感图像分类算法是实现各种实际应 用的前提。本文从露天煤矿区环境监测的目的出发,主要研究了遥感图像计算机自 动分类处理的方法,对遥感图像的计算机自动分类技术开展研究,不仅有利于遥感 监测研究的深入,解决监测中面临的关键问题,提高监测精度,而且对促进遥感监 测技术的应用具有重要意义。 本文的主要工作如下 (1)对传统的遥感图像分类方法以及近年来发展起来的新分类方法进行了阐 述, 分析比较了各自的优缺点, 选用支持向量机分类方法作为遥感图像的分类方法; (2)介绍了支持向量机的基本理论,对支持向量机的多分类算法就行了深入 研究,讨论了各种多分类算法的基本思想,并对其优缺点进行了评价; - 7 - (3)支持向量机模型建立过程中,核函数的选择没有理论上的指导,大多是 根据经验进行选择,本文用实验的方法对常用的四种核函数线性核函数、多项式 核函数、径向基核函数和 Sigmoid 核函数进行了分类效果的检验; (4)对露天煤矿区环境遥感监测的图像应用支持向量机方法进行分类,分类 过程中,探讨了参数选择的方法,并选用交叉验证的网格搜索法进行了支持向量机 分类器参数的优化,得到了一组合适的参数; (5)1-v-rSVM 和 1-v-1SVM 是支持向量机多分类方法中最基本的两种,本文 选用这两种分类方法对鹤岗市的一幅 TM 遥感图像进行分类比较,对结果进行了评 价。 本文的章节安排 第一章绪论内容,阐述课题的提出背景,研究目的和意义;说明遥感监测的主 要关键技术是遥感图像的分类,并介绍遥感图像计算机分类技术的研究现状以及本 文的核心技术支持向量机在理论和应用方面的研究现状;说明本文的主要工作和章 节安排。 第二章主要对遥感图像及其分类原理作了简要的介绍,主要阐述遥感图像的分 类方法,对传统分类方法和新分类方法作了总结和评析,并进行分析比较,指出当前 遥感影像分类的研究热点及发展趋势。 第三章主要介绍统计学习理论和支持向量机算法,并分析了支持向量机的最优 分类面思想、 常用的内积核函数及 SVM 的特点; 如何将用于解决二分类问题的 SVM 扩展到解决多分类问题,实现支持向量机的多分类,并总结了各自的优缺点。 第四章进行遥感图像分类实验,用实验的方法选择适合的核函数,用交叉验证 网格搜索法优化支持向量机分类器参数,选择训练算法,进行分类实验,对实验结 果作出分析与评价。 结论总结全文的主要研究工作,并指出研究中的不足以及进一步的研究工作。 - 8 - 2 遥感图像分类技术 2 遥感图像分类技术 2.1 引言 遥感技术自 20 世纪 60 年代兴起以来发展非常迅速。由于其具有探测范围大、 获取资料快、受地面限制少和获取信息量大等优点,能够为各种地学应用提供最新 的数据来源,被越来越广泛的应用到资源普查、灾害监测、环境监测、工程建设及 规划等诸多方面。 随着航天技术的发展, 遥感技术更能够实时检测全球的动态信息, 为研究全球的人口、资源、环境的变化,提供了最有效的资料。同时,随着遥感平 台和遥感信息获取技术的发展,遥感为地球科学研究提供了大量的、越来越丰富的 信息,成为了地理信息采集最重要的手段。 遥感图像分类是遥感应用系统中的最关键技术之一,快速、高精度的遥感图像 分类算法是实现各种实际应用的前提。因此,遥感图像的分类一直被从事于遥感信 息处理的广大科技人员所重视。 许多研究者都在不断尝试、 改进乃至探索新的方法, 不断提高遥感图像自动分类算法的精度和速度。近年来的研究大多将传统方法与新 方法加以结合,即在非监督分类和监督分类的基