高维数据有效特征的提取方法及其在测绘信息模式识别中的应用.pdf
高维数据有效特征的提取方法 及其在测绘信息模式识别中的应用 史玉峰, 靳奉祥“ ( “山东理工大学, 山东淄博 3 2 , 3 C 9 D E ; 1 6 3 2 C 4 1 2 2 3 6 3 2 , *) 、 独立分量分析 (F 3 G ; 5 ; 3 C G ; 3 ,F 8 *) 、 投影寻踪 ( 4 C B 2 K ; O 9 7 P - 0,M 9 P , M 9 E ; Q ; 1 “’’, 万方数据 “ “ (“)() 这些特征值不仅使得 . 5 ; 6 0, 简称7 7) 就是其中的一种很新和很有价值的高新技术 [ 维子空间 上的投影, 使用者可以通过观察图像找出有意义的, 即能揭示数据结构或特征的投影。二是按照实际问 题的需要, 事先确定一种衡量投影是否有意义的指 标 (7 . - 8 9 0 6 - 4 4 A 9 *, 称为投影指标) , 然后把数据投 影到低维 (主要是一维) 子空间上, 在计算机上自动 找出能使该指标达到极大 (或极小) 的投影。传统的 多元统计分析方法是建立在总体服从某种分布, 比 如正态分布这个假设的基础上, 采用的是所谓证实 性数据分析方法 (B - 4 C 6 . D / 0 - . 12 / 0 /3 4 / , 1 5 6 5, 简称 B 2 3) , 即 “假定“模拟“检验” 的方法。但实际问题 中有许多数据并不满足正态分布, 需要用稳健的或 非参数的方法去解决。不过, 当数据维数很高时, 这 些方法都将面临一些困难。随着维数的增加, 计算 量迅速增大。对于高维数据, 存在着高维空间中点 稀疏的 “维数灾难 (B ; . 5 9- C2 6 D 9 4 5 6 - 4 / , 6 0 1) ” [] , 非 参数方法也很难使用, 低维时稳健性能好的统计方 法用到高维时稳健性变差。因此, 传统的B 2 3方法 对于高维非正态、 非线性数据分析很难收到好的效 果。其原因在于它过于形式化、 数学化, 难以适应千 变万化的客观世界, 无法找到数据的内在规律, 远不 能满足高维非正态分布数据分析的需要。为了克服 上述困难, 需要对客观数据不作假定或只作极少假 定, 而采用 “直观审视数据E通过计算机模拟数据结 构E检验” 这样一种探索性数据分析方法。而7 7就 是实现这种新思维的一条行之有效的途径。7 7之 所以得到迅速发展, 是因为它有显著优点, 能够有效 地揭示高维数据的结构和特征。有许多情况, 数据 不符合正态分布或对数据没有多少先验信息, 需要 从数据本身找出其结构或特征。处理这类问题的非 参数方法主要依赖大样本理论, 而许多方法 (如核方 法、 近邻法等) 是建立在空间中每一个点附近样本点 的基础上, 但高维数据在空间中非常稀疏, 与维数相 比, 样本量总是少得可怜, 即存在 “维数灾难” 。因 此, 不仅大样本理论不能用, 就是核方法一类的非参 数工具本身也难以使用。7 7方法则成功地克服了 这个困难, 因为它的统计分析是在数据的低维投影 空间上进行的。7 7通过寻找有意义的低维投影子 空间, 甩掉一些不重要的变量, 从而不受它们的干 扰、 迷惑。 7 7方法中, 投影指标的选择是核心问题。设 {*,*’, ⋯,*} 是个,维向量,-是.F, (. ,) 的满秩矩阵。所谓投影指标, 是指定义在某个 .维分布函数集合“.上的实值函数/。投影寻踪 就是要找一个投影算子-, 使它的指标值达到最 大。以寻找最好的一维投影为例, 对{ *,*’, ⋯,* } , 通过研究这些数据的一维投影来分析数据 的结构和特征。设0是,维单位向量, 数据在0方 向上的投影就是个实数 0 *,0 *, ⋯,0 *, 。 投影指标就是这0个实数的函数, 记作/(0 ) 。 假定指标值越大越好, 则投影寻踪就是要求一个单 位向量1, 满足式 (, ⋯,1 * D / * “0“ / (0 *, ⋯,0 *) D / * “0“ / (0 ) (是0向量的长度。如果原数据确 有某种结构或特征, 指标又选得恰当, 那么在所找到 的这个方向上1一定含有数据的结构或特征, 实现 了有效特征的提取。关于投影指标的选择及其性 质, 有兴趣的读者可参看文献 [] 。 独立分量分析 ( B 3) 理论, 是由法国学者G 9 / 4 E 4 1H 9 . / ; , 0和B I . 6 5 0 6 / 4G ; 0 0 9 4于 J K 年提出的 [K] , 其最初的应用是来解决 “盲源分离” 问题, 近几年, B 3理论得到快速发展。它的目的是为非高斯分布 数据找到一种线性变换, 这些成分与成分之间是统 计独立的或者尽可能的独立。 B 3的原理为给定 个随机变量* ,*’, ⋯,*, 假设为,个未知的独 立成分2 ,2’, ⋯,2, 的线性组合。将个随机变 量写成向量形式{ *,*’, ⋯,*} , 相应的独立 成分写成3{ 2,2’, ⋯,2,} , 那么线性关系用式 () 给出。 4 3 () 这里4是未知的F,混合型满秩矩阵。 B 3 的目的是从混合观测向量中, 估计出独立源成分 2 “, 也即估计出混合型矩阵4。假设不同的物理过 第期史玉峰等 高维数据有效特征的提取方法及其在测绘信息模式识别中的应用 万方数据 程将产生统计独立信号, 统计独立信号是零均值、 单 位方差的, 而且必须假设“。显然, 如果可以得到 的逆矩阵 “, 就可很容易地求出, 即式 () 。 “ () 独立分量分析理论实质上是一个优化问题, 其 目的是通过以获得, 并使源信号间的独立性最 强。在统计理论中, 个变量相互独立的含义是指 它们的联合概率分布密度等于它们各自概率分布密 度的乘积, 即式 ( 7 * . *和 7 A 又提 出了快速独立分量分析算法 [“ ] , 通过反复迭代求出 “负熵最大时的, 从而解出源信号。由于收 敛快, 稳健性好, 在工程中得到广泛应用。 显然, 和B 6 9相比, C 6 9不仅实现了观测信息 的去相关 (二阶统计独立) , 而且要求各高阶统计量 独立。C 6 9的目标是寻找一个线性但不一定正交的 坐标系来表示多维数据, 而B 6 9构造的是正交坐标 系。C 6 9更多地考虑了观测信息间的高阶统计特 性, 在某种程度上, 等价于B B方法, 或者是B B方法 的推广, 而B 6 9是B B的一种特例。 基于类别可分性意义的特征提取方法 尽管用B 6 9方法得到的特征可以对模式进行 很好的描述, 也代表了模式的最大信息, 但这些特征 有时对于类别的分离来说还不是最好的。B 6 9获 取的特征描述了类中一些主要成分, 但这些成分可 能与模式识别无关或不能很好的对模式进行分类。 线性判别分析是基于距离准则的一种特征提取方 法。基本原理是, 设是将一向量投影到线性判别 子空间中的投影矩阵, 向量D是来自样本 类中的一组特征向量, 每类的均值为 *, *“,, ⋯, 。则类内散布矩阵定义为式 (-) [“ ] 。 ,“ *, ““ “ * -, “ (. -/*) (. -/*) 0 (-) 式中, “*为类*中的样本个数。若令所有样本的均 值向量为1, 则类间散布矩阵为式 (“ 5) 。 2“ * “ ( *1) ( *1) 0 (“ 5) 在判别分析中, 通过使类间距离最大同时类内 距离最小来确定投影矩阵, 即使8 . /{ 2} /8 . / { } 的比值最大。当投影矩阵 的列向量为 “ 2的最大本征值所对应的本征向量时, 这个比 值最大, 中的列向量所张成的子空间为线性判别 特征子空间, 是最具判别力特征子空间。 基于熵概念的特征提取是类别可分性意义下的 另一种特征提取方法。在信息论中, 从熵的定义可 知, 熵表示不确定性, 熵越大不确定性越大, 因此可 以应用熵来描述各类的可分性。从特征提取的角度 看, 应选择使熵最小的那些特征用于分类识别。 对于类问题, 设类后验概率为3 (“ * ’)] 。基于技术, 文献 [ ] 讨论了在图像分离技术中的应用, 采用 方法对含有运动目标的序列图像进行了独立分 量分离试验, 得到非常清晰的运动目标轨迹。 特征提取是模式识别的关键问题之一, 也是处 理高维观测数据的有效手段。无论是8 、 , ’ 还 是8 8和, 虽然都可以依据一定的准则进行特 征提取, 且所提取的特征也是有效特征, 但它们没有 估计特征提取前后的信息特性, 或者说没有从信息 理论角度, 定量地分析所提取的特征含有的信息与 原始数据信息量的关系, 经过特征提取后, 系统损失 多少信息等。特征提取的所有方法都可以统一到 A B - - C -信息理论模型中, 如图“所示。原始数据 集 (信源) 按照特征提取准则 (信道) , 得到特征子集 (信宿) 。这样, 可以利用信息论来分析特征提取方 法的有效性, 估计特征子集的信息量, 即从信息的获 取、 传输和转换的角度对特征提取方法进行全面和 实质的分析, 从而为测绘信息模式识别提供一个更 有力的工具。 图信息传输与特征提取的对比 D * / “ C 6 E 0 * 4 C -C F * - F C 0 6 G * C - G 0 - 4 6 * 4 4 * C - - F 1 G 3 0 1 1 H G 0 I G * C - 参考文献 [“]孙即祥J现代模式识别 [K] J长沙国防科技大学出版社, ; ;,; () J []5 C B - 4 C -5 C B - 4 C -,’ 1 -L L * I B 1 0 - J E E M * 1 K 3 M G * 0 * G 1 A G G * 4 G * I M - M N 4 * 4( G BO ) [K] JP E E 1 0 A M 1Q * 1 0,R58 0 1 - . G * I 1 . S M M - - M 4 C F A G G * 4 G * I 4,“ ; 9 ,“ () “ ; , 9 ]X * - - Y * 4X, E CS N \ 0 * - 1 -,O 0 Y Y *[ T J JA 3 E 1 0 * 4 1 I M 4 4 * F * I G * C -* -B * / B * 6 1 - 4 * C - M 4 E I 1/ 1 C 6 1 G 0 * I M,4 G G * 4 G * I M, - 4 N 6 E G C G * I M ) ; ; S 0 “ * “ , 1 (; 0 1 0 2 3 *4 / 5 6 7 / 8 9 3 ’ ; 1 3 3 A A Q B 0 1 0 2 3 *4 / 5 6 7 / 8 9 3 ’ ; / ; T ; 1 3 S ; Q ; “ 7 , , “ / 0 1B ’ “ 4 * 1 0 4 ,B / * (C / 9 0 *D “ 7 , ; 有色金属第A R卷 万方数据