数据挖掘研究现状及发展趋势.pdf
第 2期 2 0 1 1 年 2月 工 矿 自 动 化 I nd us t r y a nd M i ne Au t omat i o n NO . 2 Fe b . 2 O 1 1 文章编 号 1 6 7 1 2 5 1 X 2 0 1 1 0 2 0 0 2 9 ~0 4 DOI CNKI 3 2 1 6 2 7 / TP. 2 0 1 1 0 1 2 4 . 1 0 3 2 . 0 0 1 数 据挖掘 研究现状及发展 趋势 王 惠 中 , 彭安 群 1 . 兰州 理工 大学 电气工 程与 信息 工程学 院 , 2 . 甘肃省 工业 过程 先进 控制 重点 实验 室 , 甘 肃 兰州 7 3 0 0 5 0 摘 要 从 数据挖 掘 的定 义 出发 , 介 绍 了数据挖 掘 的神 经 网络 法 、 决策树 法 、 遗 传算 法 、 粗糙 集 法 、 模糊 集 法 和关联 规 则法等概 念及 其各 自的优 缺 点 ; 详 细 总结 了 国内外数据 挖掘 的研 究现 状及研 究热 点 , 指 出了数 据挖 掘 的发展 趋 势 。 关 键词 数 据挖 掘 ;挖掘 算 法 ; 神 经 网络 ; 决 策树 ; 粗糙 集 ; 模 糊 集 ; 研 究现 状 ;发展 趋 势 中图分类 号 ; T D6 7 2 文献 标识 码 B 网络 出版 时 间 2 0 1 1 --0 1 2 4 1 0 3 2 网络 出版 地址 h t t p / / www. c n k i . n e t / k c ms / d e t a i l / 3 2 . 1 6 2 7 . TP. 2 0 1 1 0 1 2 4 . 1 0 3 2 . 0 0 1 . h t ml Ex i s t i n g S i t u a t i o n o f Da t a M i n i n g Re s e a r c h a n d I t s De v e l o pme n t Te n de n c y W A NG H u i z h on g ~.PENG An qu n ’ 1. Col l e ge o f El e c t r i c al a n d I nf o r ma t i o n En g i ne e r i ng o f La nz hou U n i v e r s i t y o f Te c h no l og y, La n z h ou 7 3 0 05 0.Ch i na.2. Ke y La b o r a t o r y o f Ga ns u Adv a n c e d Co nt r ol f o r I n du s t r i a l Pr oc e s s e s,I a nz ho u 7 3 00 5 0,Chi na Ab s t r a c t Fr o m t he de f i n i t i o n o f da t a m i n i n g, t he pa pe r i nt r o d uc e d c on c e pt s a nd a dv a nt a ge s a nd d i s a dv a n t a g e s o f n eu r a l ne t wo r k a l g or i t h m ,d e c i s i o n t r e e a l g or i t hm ,g e ne t i c a l g or i t h m ,r o ug h s e t me t h od, f u z z y s e t me t ho d a nd a s s oc i a t i on r u l e me t ho d o f da t a m i n i ng, s umma r i z e d d ome s t i c a nd i nt e r n a t i on a l r e s e a r c h s i t u a t i o n a nd f o c u s o f d a t a m i n i n g i n d e t a i l s, a n d p o i nt e d o u t t he de v e l op me nt t r e n d o f d a t a mi ni n g. Ke y wo r d s d a t a mi ni ng,a l g or i t hm o f d a t a mi ni ng,ne u r a l n e t wor k, d e c i s i on t r e e,r ou gh s e t ,f u z z y s e t ,r e s e a r c h s i t u a t i on,de v e l o pme nt t e nd e nc y 0 引言 随着信 息技术 的 迅猛发 展 , 许 多行 业如 商业 、 企 业、 科研机构和政府部门等都积累了海量的、 不同形 式 存储 的数 据资料 ] 。这些海 量数 据 中往往 隐含 着 各 种各 样有 用 的信 息 , 仅仅 依 靠 数 据 库 的查 询 检 索 机 制 和统计 学方法 很 难 获 得 这些 信 息 , 迫切 需 要 能 自动地 、 智能 地将 待处 理 的数 据 转 化 为有 价 值 的 信 息 , 从而 达 到 为 决 策 服 务 的 目的 。在 这 种 情 况 下 , 一 个新 的技术 数 据 挖 掘 D a t a Mi n i n g , D M 技 收稿 日期 2 0 1 01 0 1 5 基金项 目 甘肃省教 育厅科研 项 目 0 9 0 3 0 7 , 国家 自然科 学 基 金 项 目 5 0 9 6 7 0 0 1 作 者 简 介 王 惠 中 1 9 6 2 , 男 , 河 南 洛 阳 人 , 教 授 , 硕 士 研 究 生 导师 , 主要研究 方 向为 自动 化仪器 仪 表、 嵌入 式 开发 与应 用等 , 已 发表文章 3 1 篇 。E ma i l wa n g h u i z h o n 2 O 1 2 4 l 2 6 . c o m 术 应运 而生 。 数 据挖 掘是 一个 多 学 科 领域 , 它 融合 了数 据库 技 术 、 人 工智 能 、 机 器学 习 、 统 计 学 、 知识 工 程 、 信息 检 索等 最新 技术 的研 究 成 果 , 其 应 用 非 常 广泛 。只 要 是有 分析 价值 的数 据 库 , 都 可 以利用 数 据 挖 掘工 具 来挖 掘有 用 的信 息 。数据 挖掘典 型 的应用领 域包 括 市场 、 工业 生产 、 金 融 、 医学 、 科 学研 究 、 工 程 诊断 等 。本 文主要 介绍 数据 挖掘 的主要算 法及 其各 自的 优 缺点 , 并 对 国 内外 的研 究 现 状 及研 究 热 点进 行 了 详 细的 总结 , 最 后指 出其 发展趋 势及 问题所 在 。 1数据挖 掘算 法 数据 挖掘 就是 从 大 量 的 、 有 噪声 的、 不 完 全 的 、 模糊 的 、 随机 的实 际应 用 数 据 中提 取 有 效 的 、 新 颖 的 、 潜在有 用 的知识 的非 平 凡过 程 l_ 3 ] 。数 据 挖 掘 过 程如 图 1所示 。这 些 数 据 的类 型 可 以是 结 构 化 的 、 3 0 工 矿 自动 化 2 0 1 1年 2月 半结构化 的 、 甚至 是 异构 型 的 。发现 知识 的方法 可 以是数学 的 、 非数学 的 、 也 可以是归纳 的 。最终 被发 现 了的知识 可 以用 于信息管 理 、 查询优 化 、 决策 支持 及 数据 自身的维护等 。 图 1数 据 挖 掘 过 程 目前 , 数据挖 掘 的算 法主要包 括神经 网络法 、 决 策树法 、 遗传算法 、 粗糙集 法 、 模糊 集法 、 关联 规则 法 等 。 1 . 1神 经 网络 法 神 经 网 络法 是 模 拟 生 物神 经 系 统 的结 构 和功 能 , 是一种通 过训练来 学 习的非 线性预 测模型 , 可完 成 分类 、 聚类 、 特征挖掘 等多种 数据挖掘 任务 。神经 网络 的学 习方 法主要表 现在权值 的修改 上 。其优 点 是具 有抗干扰 、 非线 性学 习 、 联 想记 忆 功 能 , 对 复 杂 情况 能得到精 确的 预测 结果 ; 缺 点 是不 适合 处 理 高 维变量 , 不能观察 中问 的学 习过 程 , 具有 “ 黑 箱 ” 性 , 输 出结 果也 难 以解 释 ; 其 次 是 需 较 长 的学 习 时 间。 神经 网络法主要应 用于数 据挖据 的聚类技术 中 。 1 . 2 决策树 法 决策树 是通过一 系列规则 对数据 进行分类 的过 程 , 其表现形 式是 类 似于 树 形结 构 的流 程 图 。最 典 型的算法是 J . R . QUI NI A N 于 1 9 8 6 年 提 出 的 I D 3 算法 _ 5 , 之后 在 I D 3算 法 的基 础上 又 提 出 了极 其 流 行 的 C 4 . 5算法 ] 。采 用 决策 树法 的优 点 是 决策 制 定 的过程是可 见的 , 不 需要长 时间构造 过程 、 描述 简 单 , 易于理解 , 分类速 度 快 ; 缺点 是 很难 基 于 多个 变 量组 合发 现规 则 。决 策 树 法 擅 长 处 理 非 数 值 型 数 据 , 而 且特别适合 大规模 的数据处 理 。 1 . 3遗传算 法 遗 传算 法是 一种 采 用遗 传结 合 、 遗 传 交叉 变异 及 自然选 择等操作 来 生成 实 现规 则 的 、 基 于 进 化理 论 的机器学 习方法 。它 的基 本观点是 “ 适者生 存” 原 理 , 具有 隐含并行 性 、 易 于和 其它 模 型结 合 等性 质 。 主要 的优点 是可 以处 理许 多数 据 类 型 , 同时 可 以并 行处 理各种 数据 , 对 问题 的种 类有很 强的鲁棒性 ; 缺 点是 需要 的参 数 太 多 , 编 码 困难 , 一 般 计 算 量 比较 大 。遗传算 法常用 于优 化 神经 元 网络 , 解 决其 它 技 术难 以解决 的问题 。 1 . 4粗 糙 集 法 粗 糙集 法也 称粗 糙集 理 论 , 是一种 新 的处 理含 糊 、 不精 确 、 不完备 问题 的数 学 工具 , 可 以处 理 数据 约简 、 数据相 关性发 现 、 数据 意义的评估 等 问题 。其 优点 是算法 简单 , 不 需要 关 于 数据 的任 何 预备 的或 额外 的信 息 ; 缺点是难 以直接 处理连续 的属性 , 须 先 进行属性 的离 散化 。因此 , 连续 属 性 的离 散化 问题 是制约粗 糙集理 论实用化 的难点 _ 7 ] 。粗糙集 理论 主 要应用 于近似推 理 、 数字 逻辑分析 和化简 、 建立预测 模 型等 问题 。 1 . 5模 糊 集 法 模糊集 法利用 模糊集 合理论对 问题进行模 糊评 判 、 模糊决 策 、 模糊 模式识别 和模糊 聚类分析 。模糊 集合 理论是 用隶属度来 描述模 糊事物 的属性 ] 。系 统 的复杂性越 高 , 模糊 性就越 强 。 1 . 6 关 联 规 则 法 关 联规则 反应 了事 物之 问的相互依 赖性或关 联 性 。其 最著名 的算法是 R. AG RAWAL等人提 出的 A p r i o r i 算 法 。最 小支 持 度 和 最小 可 信度 是 为 了发 现有意 义的关联 规则给定 的 2 个 阈值 。在 这个意义 上 , 数据挖 掘 的 目的 就是 从 源数 据库 中挖掘 出满足 最小 支持 度和最小 可信度 的关联规 则 。 2数据挖 掘研究现 状 2 . 1 国 外研 究 现 状 知 识发现 一 Kn o wl e d g e Di s c o v e r y i n D a t a b a s e s , K DD 与 D M 是数 据库 领 域 中最 重 要 的 课题之 一 。KD D一词是 在 1 9 8 9年 8月于美 国底 特 律市 召开 的第 十一届 国际人工 智能会议 上正式形 成 的 。1 9 9 5 年 在 加 拿 大 蒙 特 利 尔 召 开 的 首 届 K D D D a t a Mi n i n g国际 学 术 会 议 上 , 把 数 据 挖 掘 技 术分 为科 研领域 的知识 发现 与T程领域 的数据挖 掘 一 。之后 每年 召开 一次 这 样 的会议 , 经 过 十几 年 的努 力 , 数 据挖掘 技术 的研究 已经取 得 了丰 硕 的成 果 。 目前 , 对 K D D 的研 究 主要 围绕 理论 、 技 术 和应 用这 三个方 面展开 。多种理论 与方法 的合理整 合是 大多 数研究者 采用 的有效技术 。 目前 , 国外 数 据挖 掘 的最新 发 展主 要有 对发 现 知识 的方法 的 进 一 步研 究 , 如 近 年 来 注 重对 B a y e s 贝 叶斯 方 法 以及 B o o s t i n g方 法 的研 究 和 改 进 提 高 ; KD D与数据 库 的 紧密 结合 ; 传 统 的 统计 学 回归 方法在 KD D 中 的应 用 。在 应 用 方 面 主 要 体 现 在 K DD商业 软件 工具 从解 决 问题 的孤 立过 程 转 向建 立解 决 问题 的整体 系统 , 主要用户 有保 险公 司 、 大 型 银行和销售业等。许多计算机公司和研究机构都非 常重 视数 据挖 掘 的开发 应用 , I B M 和微软都 相 继成 立 了相应 的研 究 中心一 。美 国是 全 球数 据 挖 掘 研 2 0 1 1年 第 2期 王 惠 中等 数据挖 掘研 究现 状及 发展趋 势 3 1 究最 繁荣 的地 区 , 并 占据着 研究 的核 心地 位 。 由于数 据挖 掘 软 件 市场 需 求 量 的增 大 , 包 括 国 际知名公 司在 内的很 多软 件公 司都 纷纷 加入 到 了数 据挖 掘工 具研发 的行 列 中来 , 到 目前 已开 发 了一 系 列技 术成 熟 、 应 用 价 值 较 高 的数 据 挖 掘 软件 。以下 为 目前最 主要 的数 据挖掘 软件 1 Kn o wl e d g e S t u d i o 由 An g o s s软件 公 司 开 发 的能够 灵活地 导人 外部 模 型和产 生规则 的数 据挖 掘 工具 。最 大 的优 点 响应 速度 快 , 且 模 型 、 文 档易 于理 解 , S D K 中容 易加 入新 的算 法 。 2 I B M I n t e l l i g e n t Mi n e r 该 软件 能 自动 实现 数据 选择 、 转换 、 发掘 和结 果呈 现一 整套数 据挖 掘操 作 ; 支持 分类 、 预测 、 关 联 规 则 、 聚类 等 算 法 , 并 且具 有强 大 的 AP I 函数 库 , 可 以创 建定 制 的模 型 。 3 S P S S Cl e me n t i n e S PS S是 世 界 上 最 早 的 统计 分析 软件之 一 。C l e me n t i n e是 S P S S的数 据挖 掘应用 工具 , 它 可 以把 直 观 的用 户 图形 界 面 与 多种 分析技 术 如神经 网 络 、 关 联规 则 和规 则 归 纳 技术 结 合在 一起 。该软 件 首 次 引入 了数 据 挖 掘 流概 念 , 用 户可 以在 同一个 工 作 流环 境 中清 理 数据 、 转换 数 据 和构 建模 型 。 4 C o g n o s S c e n a r i o 该 软 件 是 基 于 树 的高 度 视 图化 的数据挖 掘 工具 , 可 以 用最 短 的响 应 时 问得 出最精 确 的结果 。 此 外 , 还 有 由美 国 I n s i g h t f u l 公 司 开 发 的 I Mi n e r 、 S GI 公 司 和美 国 S t a n d I o r d大 学联 合 开发 的 Mi n s e t 、 Un i c a 公 司开发 的 Af f i n i u m Mo d e l 、 加拿 大 S i mo n F r a s e r大 学 开 发 的 DBMi n e r 、 HNC公 司 开 发 的 用 于 信 用 卡 诈 骗 分 析 的 Da t a b a s e Mi n i n g Wo r k s t a t i o n、 Ne o Vi s t a开发 的 De c i s i o n S e r i e s等 。 2 . 2 国 内研 究现 状 与国外 相 比 ,国 内对数 据挖 掘 的研 究起 步稍 晚 且 不成 熟 , 目前 正处 于发 展 阶段 。最新 发展 分类 技 术 研究 中 , 试 图建立 其集 合理 论体 系 , 实 现海 量数 据 处 理 ; 将 粗糙集 和模 糊 集 理 论 二 者 融合 用 于知 识 发 现 ; 构造 模糊 系统辨 识方 法 与模糊 系统 知识 模型 ; 构 造 智能 专家 系统 ; 研 究 中文 文 本 挖 掘 的理 论 模 型 与 实 现技术 ; 利用 概念 进行 文本 挖掘 。 我 国也有 不少新 兴 的数 据挖掘 软件 1 MS Mi n e r 由 中科 院 计算 技 术 研 究所 智 能 信息 处理 重点实 验室 开发 的多 策略 通用数 据挖 掘平 台_ l 。该平 台对 数 据 和 挖 掘 策 略 的组 织 有 很 好 的 灵 活性 。 2 D Mi n e r 由上海 复 旦 德 门软 件 公 司 开发 的 具有 自主知识产 权 的数据 挖掘 系统 。该 系统 提供 了 丰 富的数 据可视 化 控 件来 展 示 分 析结 果 , 实 现 了数 据查 询结果 可视 化 、 数 据层 次结构 可视 化 、 多维数据 结构 可视 化 、 复 杂数据 可视 化 。 3 S c o p e Mi n e r 由东 北 大 学开 发 的 面 向先进 制造 业 的综 合数 据挖 掘系 统 。 4 i D Mi n e r 由海 尔青 大公 司研 发 的具有 自主 知识 产权 的数据 挖掘 平 台 。该平 台 大胆采 用 了国际 通用 业界 标准 , 对该 软 件 今 后 的发 展 有 很大 的促进 作用 , 同 时也为 国 内 同类 软 件 的开 发 提 供 了一条 新 的思 路 。 除此 之外 , 还 有 复 旦德 门公 司 开发 的 C I AS和 AR Mi n e r 、 东 北 大 学 软 件 中 心 开发 的基 于 s As的 Op e n Mi n e r以 及 南 京 大 学 开 发 的 一 个 原 型 系 统 Kn i g h t等 。 目前 , 国内数据挖 掘 软件产业 还不 成熟 , 从事此 方 面研 究 的人员 主 要 集 中在 高 校 , 只 有 少部 分 分 布 在研究 所或 公 司 , 且 大 多数 研 究 项 目都 是 由政府 资 助 , 主要 的研 究方 向集 中在 数据挖 掘 的学习算 法 、 理 论方 面 以及 实际 应用 。研究 的产 品 尚未 得 到国际市 场 的认 可 , 在 国际上 的使用 更是为 数甚少 。 3数 据挖 掘的研 究热 点及 发展趋 势 就 目前来 看 , 数 据 挖 掘 的几 个研 究 热 点主 要包 括 网站 的数 据挖 掘 we b S i t e D a t a Mi n i n g 、 生物信 息或基 因 Bi o i n f o r ma t i c s / Ge n o mi c s 的 数据 挖掘 及 其 文本 的数据 挖掘 Te x t u a l Mi n i n g 口 。 网站 的数 据挖 掘就 是从 网站 的各类数 据 中得到 有 价值 的信 息 , 与一般 的数据 挖掘 差别不 大 , 但 是其 数 据格 式很 大一部 分 来 自于 点击 率 , 与 传 统 的数 据 库 格式 有 区别 。 生 物信 息或基 因的数据挖 掘对 人类 生存发 展有 着 非常 重要 的意义 , 基 因 的组 合千 变万化 , 能否 找 出 病人 的基 因 和正常 人 的 基 因 的不 同之处 , 进 而 对 其 加 以改变 , 这就 需 要 数 据挖 掘 技 术 的支 持 。但 其 数 据形 式 、 挖 掘算 法模 型 比较复杂 。 文 本 的数 据 挖掘 和 一般 的数据 挖 掘 相差 很 大 , 是指 从 文本 数 据 中抽 取 有 价 值 的信 息 和 知识 的 技 术 , 在分 析方法 方面 比较 困难 , 目前还 没有 真正 的具 备分 析 功能 的文本挖 掘 软件 。 随 着越 来越 多 的业务 需 求 被不 断 开 拓 , 数 据 挖 掘 已成功应 用 于社会 生活 的方 方 面面 , 目前 在很 多 领域 如商业 、 医学 、 科学 研究 等均 有不少 成功 的应 用 案 例 。 为 了 提 高 系 统 的 决 策 支 持 能 力 , 像 E R P、 S C M 、 HR等一 些应 用 系 统 也逐 渐 与 数 据 挖 掘集 成 起来 。多种 理论 与方 法 的合 理整 合是 大多数 研究 者 3 2 工 矿 自动 化 2 0 1 1年 2月 采用 的有效 技 术_ 】 。以下 是 未来 比较 重 要 的数 据 挖掘 发展趋势 1 数据 挖 掘语 言 的标 准 化 描述 标 准的数 据 挖掘语 言将 有 助 于 数 据 挖 掘 的 系统 化 开发 。改 进 多个数据 挖掘 系统 和功 能 间的互 操 作 , 促进 其在 企 业和社会 中的使用 。 2 寻求 数据 挖 掘过 程 中的 可视 化 方法 可 视 化要求 已经成为数 据 挖掘 系 统 中必不 可少 的技 术 。 可 以在发 现知识 的过 程 中进 行很 好 的人 机交 互 。 数 据的可视 化起 到 了推动人们 主动进行 知识发现 的 作 用 。 3 与特定 数 据存 储 类 型 的适 应 问题 根 据 不 同的数据存储类 型 的特 点 , 进行 针 对性 的研 究 是 目 前 流行 以及将来 一段 时间必须 面对的 问题 。 4 网络 与 分 布式 环 境 下 的 KD D 问 题 随着 I n t e r n e t 的不断发 展 , 网络资 源 日渐 丰富 , 这就 需要 分散 的技术人员各 自独立地 处理分 离数据库 的工作 方式应 是可协作 的l 】 。因此 , 考虑 适应 分 布式 与 网 络环境 的工具 、 技 术及 系 统将 是 数据 挖 掘 中一个 最 为重要 和繁荣的子领 域 。 5 应用 的探 索 随着 数据挖 掘 的 日益 普遍 , 其 应用 范 围也 日益扩 大 , 如 生物 医学 、 电信 业 、 零 售 业 等领域 。由于数据挖掘 在处理 特定应用 问题时存 住 局 限性 , 因此 , 目前 的研 究趋势是 开发针 对于特定 应 用 的数据挖掘 系统 。 6 数 据挖 掘 与数 据 库 系统 和 we b数 据 库 系 统 的集 成 数据 库系统 和 We b数据库 已经成 为信息 处理 系统 的主 流 。数据挖 掘系统 的理想体 系结构是 与数据 库和数据仓 库系统 的紧耦合 ” ] 。 4 结 语 针 对数 据挖 掘 的主要 算法 , 分 析 了各 自的优 缺 点及 其所适用 的领 域 , 并根 据 目前 国内外 数 据挖 掘 的研 究现状 和研究热 点指 出了未来几 年数据挖 掘的 发 展趋势 。 目前数据 挖掘逐渐 从高端 的研究转 向常 用的数据分析 , 在国外像金融业 、 零售业等这样一些 对数 据分析需 求 比较 大的领域 已经成功地 采用 了数 据挖 掘技术来 辅助 决策 。尽 管 如此 , 数 据挖 掘 技术 仍然 面临着许 多问题 和 挑 战 , 如 超 大规 模数 据 集 中 的数据 挖掘效率有 待提 高 , 开发适应 于多数据 类型 、 容噪 的挖掘方法 , 网络与分 布式环境 下 的数据 挖掘 , 动态数据 和知识 的数 据挖 掘等 。 总之 , 数 据挖掘 只是一个 强大 的工具 , 它不 会在 缺乏指导 的情况下 自动地 发 现模 型 , 而且 得 到 的模 型必须在现 实生活 中验 证 , 数据 分 析者 必 须 知道你 所选 用的 挖 掘算 法 的原 理 是 什 么 以及 是 如 何 工 作 的 , 并 且要 深 刻 了解 期 望解 决 问题 的领 域 , 理 解 数 据 , 了解其 过程 , 只 有这样 才能解释 最终所得 到的结 果 , 从 而促使挖 掘模 型的不 断完善 和提 高 , 使得 数据 挖掘 真正地满 足信息 时代人们 的要求 , 服务 于社 会 。 参 考 文 献 [ 1] 胡侃 , 夏绍玮. 基于大型数据仓库的数据采 掘 研究综 述E J ] . 软件学报 , 1 9 9 8 , 9 1 5 3 6 3 . [ 2] 陈娜. 数据挖掘技术 的研究现状及发展方 向E J ] . 电脑 与 信 息 技术 , 2 0 0 6 , 2 1 4 6 4 9 . [ 3] HA N J i a w e i ,KAMB E R M. 数据 挖掘 概念 与技 术 [ M] . 范明 , 孟小峰 , 译. 北京 机械工业出版社 , 2 0 0 1 . [ 4 ] 陕粉丽. 数据挖 掘技术 的研究现状 及应 用E J ] . 现代企 业 教育 , 2 0 0 8 6 1 0 1 - 1 0 2 . [5 ] Q UI NL A N J R .I n d u c t i o n o f D e c i s i o n T r e e s E J ] . M a c hi ne Le a r ni ng, 1 9 86, 1 1 8. [6 ] Q UL I N L AN J R .C 4 .5 P r o g r a m s f o r Ma c h i n e L e a r n i n g[ M] . S a n Ma t e o , C a l i f Mo r g a n K a u f ma n n , 1 9 93 . [ 7] 李华 , 刘帅 , 李茂 , 等. 数据挖 掘理论 及应用研 究 [ J ] . 断块油气田 , 2 O 1 0 , 2 3 1 8 8 8 9 . [ 8] F AYY AD U, P I A TE S KY s HAP I R 0 G, S MY TH P . The KDD Pr oc e s s f o r Ext r a c t i ng Us e f u l Kno wl e d ge F r o m Vo l u me s o f D a t a[ J ] . C o mmu n i c a t i o n o f t h e ACM , 1 9 96, 3 9 1 1 27 3 4. [ 9] 陈文臣. We b日志挖掘技术 的研究 与应 用E D ] . 北京 中国科学院研究生院 , 2 0 0 5 . [ 1 0 ]夏艳军 , 周建军 , 向昌盛. 现代数据挖掘技术研 究进 展 [ J ] . 江西农业学报 , 2 0 0 9 , 2 1 4 8 2 8 4 . [ 1 1 ] 游湘涛 , 叶施仁 , 史 忠植. 多 策略 通用 数据 采掘 工具 MS Mi n e r [ J ] . 计 算 机 研 究 与 发 展, 2 0 0 1 , 3 8 5 81 5 8 6. [ 1 2 ] 王立伟. 数 据 挖 掘研 究 现 状综 述 E J ] . 图 书 与情 报 , 20 0 8 5 42 46 . [ 1 3 ] 施伯乐 , 朱扬 勇. 数据 库与智能数据分析 技术 技术 、 实践与应用[ M] . 上海 复旦大学 出版社 , 2 0 0 3 . [ 1 4 ] 郭萌 , 王珏. 数 据挖掘 与数 据库 知识发 现 综述 [ J ] . 模式识别 与人工智能 , 1 9 9 8 , 1 1 3 2 9 2 2 9 9 . r 1 5 ] F AYYAD U M , D J ORGOVS KI S G, WEI R N.F r o m Di g i t i z e d I ma ge s t o Onl i n e Ca t a l og s Da t a M i ni n g a S k y S u r v e y E J ] .AI Ma g a z i n e , 1 9 9 6, 1 7 2 5 卜6 6 . [ 1 6 2 U THURU S AMY R . F r o m D a t a Mi n i n g t o Kno wl e d ge Di s c o ve r y Cu r r e n t Cha l l e nge s a nd Fu t ur e D i r e c t i o n s [ e l / / F AY GA D U. Ad v a n c e s i n Kn o w l e d g e Di s c o ve r y an d Da t a M i ni n g. Th e M I T Pr e s s,1 9 9 6 56 1 56 9. [ 1 7 ] 陶翠霞. 浅谈数据挖掘及 其发展 状况 [ J ] . 科技信 息 , 2 0 08 4 7 2.