基于全球典型油气田数据库的数据挖掘预处理.pdf
2 0 1 6年 2月 第 3 5卷第 1期 大庆石油地质与开发 Pe t r o l e u m Ge o l o g y a n d Oi l f i e l d De v e l o p me n t i n Da q i n g F e b .,2 01 6 V n 1 . 3 5 N0 .1 DOI 1 0 . 3 9 6 9 / J . I S S N. 1 0 0 0 . 3 7 5 4 . 2 0 1 6 . 0 1 . 0 1 3 基于全球 典型油气 田数据库 的数据挖掘预处理 李大伟 熊华平 石广仁 牛 敏 1 .中国石油勘探开发研究 院,北京1 0 0 0 8 3 ; 2 .大庆油 田有 限责任公司勘探开发研究 院,黑龙江 大庆1 6 3 7 1 2 摘要石油工业早已进入大数据时代,数据挖掘是充分利用数据资产价值的有效途径,而数据预处理是数据挖 掘研究的热点之一。分析了数据挖掘以及数据预处理的意义及其现状,提出了在石油工业进行数据挖掘的基本 思路;以某国际石油勘探开发技术服务与咨询公司研制的全球典型油气 田数据库为例 ,以 “ 采收率”为挖掘对 象,详细解析了各种常用的数据挖掘预处理方法和具体做法 ,主要包括数据获取、属性选择、数据清理、数据 集成、数据变换、数据规约和数据消密;提出了源数据的 “ 5 c ”标准,即 C o r r e c t n e s s 正确性 、C u rr e n c y 适 时性 、C o mp l e t e n e s s 完整性 、C o n s i s t e n c y 一致性 、C o n fi d e n t i a l i t y 保密性 。研究成果可为石油行业开展 数据预处理等工作提供参考。 关键词 数据挖掘 ;预处理;油气田;数据库 ;5 C标准 中图分类号T E l 9 文献标识码A 文章编号1 0 0 0 3 7 5 4 2 0 1 6 0 1 - 0 0 6 6 0 5 PREPROCES S I NG OF THE DATA TAP PI NG BAS ED oN GLoBAL TYPI CAL OI L AND GAS FI ELD DATABASE LI Da we i -X1 ONG Hu a p i n g ,S HI Gu a n g r e n ,NI U Mi n 1 . P e t r o C h i n a R e s e a r c h I n s t i t u t e o f P e t r o l e u m E x p l o r a t i o n a n d D e v e l o p m e n t , B e ij i n g 1 0 0 0 8 3,C h i n a;2 .E x p l o r a t i o n a n d De v e l o p me n t R e s e a r c h I n s t i t u t e o fD a q i n g O i lfi e l d C o . L t d . , D a q i n g 1 6 3 7 1 2 , C h i n a Ab s t r a c t Oi l i n d u s t r y ha s e n t e r e d u p o n “ bi g da t a ” e po c h f o r ma n y y e a r s,t h e d a t a t a p p i n g o r mi n i n g i s a n e f f e c t i v e me t ho d t o f u l l y u t i l i z e t he v a l ue o f t h e d a t a a s s e t ,a n d t h e d a t a pr e p r o c e s s i n g i s o n e o f t h e s t ud y f o c u s e s o f t h e d a t a mi ni n g. Th e s i g n i fic a n c e a n d s i t u a t i o n o f t h e d a t a mi n i n g a n d p r e p r o c e s s i n g a r e a n a l y z e d,t h e b a s i c t h i n k i n g o f t he d a t a mi n i n g i n o i l i nd u s t r y wa s p r e s e n t e d.Ta k i n g Gl o ba l T y p i c a l Oi l a n d Ga s Fi e l d da t a ba s e f r o m a n i n t e r n a t i o n a l p e t r o l e u m e x p l o r a t i o n a n d d e v e l o p me n t s e r v i c e a nd c o n s u l t a n t c o mp a n y a s t he e x a mp l e,t h e de t a i l e d me t h o ds o f t h e d a t a m i n i n g p r e p r o c e s s i n g a r e d i s s e c t e d b y t a k i n g “ r e c o v e ry f a c t o r ” a s t h e m i n i n g o b j e c t . T h e s e me t h o d s i n c l u d e d a t a a c q u i s i t i o n I a t t r i b u t e s e l e c t i o n,d a t a c l e a n i n g, d a t a i n t e g r a t i o n,d a t a c o n v e r s i o n,d a t a s p e c i fi c a t i o n a n d d a t a c o n f i d e n t i a l i t y t r e a t me n t fin a l l y “5 C” c r i t e r i a for t h e s o u r c e d a t a a r e p r o p o s e dc o r r e c t n e s s ,c ur r e n c y,c o m p l e t e n e s s。c o n s i s t e n c y a n d c o n fi de n t i a l i t y .T he s e a c h i e v e me n t s c a n p r o v i de r e f e r e n c e s f o r t h e r e s e a r c he r s o n t he d a t a pr e p r o c e s s i n g a n d S O o n i n o i l i n d u s t ry. Ke y wo r d s d a t a t a p p i n g /mi ni n gp r e p r o c e s s i n g;o i l a n d g a s fie l d;d a t a b a s e;5 C Cr i t e r i a 收稿 日期 2 0 1 5 0 7 1 4 改 回日期 2 0 1 5 0 8 3 0 基金项目国家油气重大科技专项 “ 全球剩余油气资源研究及油气资产快速评价技术” 2 0 1 1 Z X 0 5 0 。 作者简介李大伟,男 ,1 9 6 9年生,高级工程师,博士 ,主要从事海外勘探开发信息化建设与应用工作。 E ma i l l e e d w p e t r o c h i n a . c o n. c n 6 8 大庆石 油地质与 开发 为便于数据挖掘 ,将 c系统 中的典 型油气 田 结构化数据导出到 E x c e l 数据表中,这不仅是由于 E x c e l 是常用的工具软件 ,而且 E x c e l 本身具有非 常强大的数据处理和可视化展示功能。为了便于描 述 ,现将 主要 属 性 中文 名 称 及类 型列 出,详 见 表 1 。 表 1 原始库主要属性 中文名称及类型 Ta b l e 1 C h i n e s e n a me s a n d t y p e s o f t h e ma j O l “ a t t r i b u t e s i n o ri g i n a l d a t a b a s e 主要属性 中文名称 类型 主要属性 中文名称 类型 油 田名称 字符型 海拔 数字型 油 田别名 字符型 储层数 数字型 主要油气类型 字符型 石油估算最终储量 数字型 发现年份 日期型 天然气估算最终储量 数字型 开发开始年份 日期型 累计产量年份 日期型 当前油 田状态年份 日期型 累计产油量 数字 型 当前油 田状态 标称型 累计产气量 数字 型 当前生产 阶段 标称型 剩余石油估算最终储量 数字 型 当前生产年份 日期型 剩余天然气估算最终储量 数 字型 当前所有生产井数 目 数字型 采收率 数字型 作为一个商业数据库 ,尽管 C系统 的数据质量 总体来说 比较 高,但仍存在诸多 问题 ,主要包括 与挖掘 目标无关或无用的属性 比较多 ,许多重要的 属性又缺乏足够 的实例 空缺值 比较多 ,有些属 性是描述性的,需要转化为数值型或标称型等。因 此在开展正式的数据挖掘之前需要针对挖掘 目标 , 完成大量具体的预处理工作。数据的预处理工作可 以手工完成或 者用 E x c e l 等常用软件完成,也可以 通过一些更加专业 的数据挖掘软件 完成 如 We k a 就具有功能非常强大的预处理功能 。 2 . 2属性选择 属f生选择就是根据专业知识 和经验 ,从已经获 取的数据源 中选取出与挖掘 目标具有客观联系的属 性 ,从而提高挖掘结果 的客观性和效率 这相当于 “ 数据归约” 中的列删 除 。在这一步骤 中 ,专业 知识和经验非常重要 。例如 ,在购买的某油气藏动 态数据库 中,每个油气藏都具有 4 2 0多个属性。如 果不对这些属性加以精心选择 ,数据挖掘工作是难 以开展 的。 此外 ,虽然有的属性与挖掘 目标具有一定的客 观联系 ,但如果通过相关分析或经验等方法能够确 定其他相关属性与挖掘 目标的关系更加密切,则可 以将该属性删除。 从表 1 可见 ,采收率是油气 田的属性之一 ,在 剩下的 5 0多个属性 中,根据专业 知识 ,可 以明确 判定哪些属性与采收率之间不存在客观 的联 系或关 系很弱可以先行删除。这些属性包括 1 与挖掘 目标 采收率没有任何关系的属 性 如油 田别名; 2 与挖掘 目标关系很弱的属性 如累计产凝 析油量 、当年石油 日产量; 3 与挖掘 目标 有关 系但缺 乏相关 的其他 属 性 例如 “ 当前所有生产井数 目”肯定与采收率有 关系,但是与采收率关系更加密切的应当是 “ 生产 井的密度” 即井数/ 油 田面积 ,但 由于缺乏 “ 油 田面积”这一属性 ,这类属性也需要去除。 4 有的属性之间就存在紧密的关系 强相关 性 例如 “ 石 油估 算最 终储 量 ” “ 累计 产油 量” “ 剩余石油估算最终储量’ ,对于这类 属性 , 只保留其中的分属性即可 。 5 有的属性虽然与挖掘 目标有关 系,但是通 过对几个相关属性进一步运算后得到的新属性与挖 掘 目标的关系会更密切 ,例如 “ 累计产量年份”减 去 “ 开发开 始年份 ”得 到的新属 性“ 开 发年数 ” 与挖掘 目标 的关系更密切。 上述需要删除的属性有 4 9个 。通过该 步工作 剩下的属性只有 6个 表 2 。根据专业 知识 和经 验,剩下 的属性可 以用于所选 目标的数据挖掘。 2 . 3数 据规 约 数据规约 或称为 “ 数据消减” 就是 在保 证数据的完整性和挖掘结果可靠性的前提下,减少 用于挖掘的数据属性和样本数 以提高挖掘的速度 和 精度。对于中、小型数据集 ,使用一般的数据预处 理就 可 以 了 , 但 对 于大 型数 据 集 特别 是 “ 大 数 第 3 5卷第 1 期 李大伟等基于全球典型油气田数据库的数据挖掘预处理 。 6 9 表 2 经过属性选 择后的属性 中文名称及 类型 Ta b l e 2 Ch i n e s e n a m e s a n d t y p e s o f t h e s e l e c t e d a t t r i b u t e s 据” 通常会需要进行数据规约 。 预处理数据的 3个主要维度通 常以平面文件 的 形式 出现 列 属性 、行 样 本 和特征 的值 , 因此数据归约也就包括 删除列 、删除行 、减少列 中的值 。 在本次数据挖掘中,由于数据量并不大 ,除了 前文的属性选择和后文的删除空值外 ,没有进行更 多的数据规约预处理工作。 2 . 4数据清理 数据清理 或 称为 “ 数据清 洗” 是 对原始 数据中的缺失数据 、重复数据、异常数据 、错误数 据等进行处理 ,解决数据文件 中的人为误差 ,提高 数据挖掘质量 ,主要包括 1 填补空缺数据 可采用附近数据的线性插 值法或平均值法进行补缺 ,或者使用一个全局常量 填充空缺值。有 的挖掘软件 如 We k a 具有 自动 处理空缺值 的功能; 2 去除重复数据 将原始数据 中的重复冗余 的数 据实例删除 ; 3 异常数据检测及处理如果某些样本值明 显不同于其他样本 ,应 当重点进行分析,确定造成 异常的原因并给以相应 的处理 。但 注意某些异常点 数据可能具有实际意义,不要随意删除; 4 纠正错 误数据 对于有 些赋值 错误 的数 据 ,应 当结合该数据所反 映的实际问题进行 分析 , 以确定更改 、删除或忽略。也可以根据该属性 的趋 势数据对当前数据进行修正。例如在石油行 业 中, 特别 常用的一个物理量是孔 隙度 ,如果该值小 于等 于 0 、大于等于 1 0 0 %,就肯定是错误 的。 对于本次挖掘预处理 ,在剩下 的 6个属 性 中, 除了 “ 油田名称”,其他几个 或多或少都存在空缺 值 ,而有的挖掘算法是不会 自动处理空缺值的 ,因 此使用 E x c e l 自带的 “ 筛选”功能,将其中除 “ 采 收率”之外的其他属性的空缺值实例均过滤去除 了。之所 以还保留 “ 采收率” 的空缺值实例 ,正是 因为通过数据挖掘可以通过所建立的预测模型预测 出这些空缺值。 2 . 5数据集成 用于数据挖掘的原始数据可能来 自不同的数据 源 ,由于这些数据的格式等方面存在不一致 如不 同的拼写规则 ,对 于同一属性 的不 同编码等 ,需 要在数据挖掘之前进行异源异构数据的集成 ,最后 在逻辑上或物理上有机地集成到一个一致 的数据存 储 如数据库 、文 件等 中。例 如作 者参与 的 A 系统是 中国石油要统一推广到各个油 田的一个大型 系统 。在此之前 ,各油 田都在使用各种不 同结构 、 不 同专业的相关数据库。如何将 已有的相关数据库 集成到 A系统 中,当时几乎成了A系统推广中面临 的最大问题。目前通常采用联邦式、基于中间件模 型和数据仓库等方法来构造集成的系统。 2 . 6数据变换 数据变换是采用线性或非线性 的方法将数据从 一 种表示形式变为另一种表现形式的过程 ,以更好 地进行不 同 的数据 挖掘。常用 的方 法有平 滑 、合 计 、泛化 、归一化等处理。 在本数据挖掘 中,涉及到分类 和回归 等。其 中 分类的挖掘对象是离散型类别值 ,而回归 的挖掘对 象是连续型数值。对于采收率值 ,源数据 中是作 为 浮点型属性 提供 的,需 要将其 变换为离 散型类别 值 ,其标准如表 3 所示 。 表 3 采收率属性离散化分类 Ta b l e 3 Cl a s s i fi c a t i o n s o f t h e d i s c r e t i z e d r e c o v e r y a t t rib u t e 原始的采收率经过离散化后 ,就生成 了一个新 的属性 ,可 以进行分类 、聚类挖掘。对“ 当前生产 阶段”屙 l生项 ,根据 C系统 中对油气 田开发生命周 期 的定义 ,也需要重新编码 。 2 . 7数据消密 保密性 C o n f i d e n t i a l i t y 是指用于挖掘的保密 数据不被泄露给非授权的用户 、实体或过程。 在数据挖掘过程 中,常常会涉及到保密级别高 的数据 ,这些数据涉及到个人 、企业甚至 国家 的机 7 O 大庆石油地质 与开发 2 0 1 6 密 ,在预处理过程 中或挖掘结果公布时需要对这些 数据作消密处理。 在石油工业 ,保密 级别 高的数 据包括 重要井 如探井 、评价井的坐标 、油气田资源量 、储量 、 产量、输油气管道位置等。对于这类数据 ,在数据 挖掘时能不用尽量不用 ,确实需要使用 的,可 以用 达到了 “ 5 C ”标准。 在本次挖掘的源数据中,对 “ 油田名称” 的保 密性要求较高,将其用 F 0 0 1 、F 0 0 2等代替 。 通过前述的各项预处理工作 ,用于采收率挖掘 的数据属性共有 7个 其 中包括 2个新产生 的属 性 ,共有实例 5 8 8个 表 4 。其 中具有采收率值 代码 、概数等方式处理 。经过 消密处理 的源数据 , 的油 田有 3 9 4个 ,可以作为学习实例 ;剩下 的 1 9 4 即达到了保密性 C o n fi d e n t i a l i t y 标准 ;如果 同时 个可以作为预测实例。这些工作为下一步开展实际 已经达到前文所述 的 “ 4 C”标准 ,则可 以称 之为 挖掘工作打下了良好的基础 。 表 4 经过预 处理后 的数据 示意 Tab l e 4 Sc he m e o f t he pr e pr o c e s s e d da t a 完成了上述各步数据挖掘预处理后 ,就可以进 行详细的数据挖掘 ,研究采收率的变化规律和控制 因素 ,如 1 聚类分析 对收集到的采收率数据进行聚 类 ,分析不同类型盆地 、不同构造背景 、不 同开发 阶段等的采收率的规律性。 2 关联分 析 分析采 收率 的主要影 响因素 如盆地类型 、开 发年数 、钻 井密度、初始石油产 量等 ,通过多元 回归分 析、人工神经网络、贝叶 斯判别 、支持向量机等得到相应的关联关 系式 ,从 而进一步用该关系式估算和预测没有采收率数值 的 其他油气 田的采收率 。 3结束语 在一次成功的数据挖掘研究 中,预处理工作不 仅繁杂而且非常重要。同时对不同类型的数据 结 构化 、半结构化 、非结构化数据 预处理内容 、流 程和方法也不尽相同。在预处理过程 中,既需要有 相关的专业领域知识 ,也需要熟练掌握常用数据处 理方法和工 具软 件 如 E x c e l 、We k a 、S P S S等 , 充分利用这些工具软件的可视化功能,将原始数据 用适当的图形方式 如直方图、散点图、概率分布 图等展示出来 ,通过交互的方式进行更加有效和 高效的预处理。此外 ,如果对挖掘结果不满意 ,可 能还需要进行二次甚至多次预处理 ,最终要使得用 于挖掘的源数据达到 “ 5 C ”标准。只有 经过全面 而合理的预处理 ,后续 的数据挖掘结果才可信 、可 用 。 参考文献 [ 1 ]石广仁 .地学数据挖掘与知识发现 [ M] .北京 石油 工业出 版社 ,2 0 1 2 . [ 2 ]石广仁 .数据挖掘在石油 勘探数据 库中的应用前 景 [ J ].中 国石 油勘探 ,2 0 0 9,1 4 1 6 O 一 6 4 . [ 3 ]熊华平,陈付平,王洪礼 .面向综合研究的石油数据管理与应 用 [ J ].大 庆石油地质与开发 , 2 0 0 8 ,2 7 5 4 3 - 4 4 . [ 4] H a n J W ,K a m b e r M. D a t a Mi n i n g C o n c e p t s a n d T e c h n i q u e s [ M]. 2 n d e d i t i o n .S a n F r a n c i s c o Mo r g a n K a u f ma n n , 2 0 0 6 . [ 5 ] L i D W,S h i G R. D a t a Min in g i n P e t r o l e u m U p s t r e a mt h e U s e o f R e g r e s s i o n a n d C l a s s i fi c a t i o n A l g o r i t h m s[ J ].S c i e n t i fi c J o u r n a l o f E a r t h S c i e n c e ,2 0 1 5, 2 5 3 3 - 4 0 . [ 6 ]戴红 ,常子冠 ,于宁 .数据挖掘 导论 [ M].北京 清华 大学 出版社 ,2 0 1 5 . [ 7 ]袁梅宇 .数据挖掘与机器学习 WE K A应用技术与实 践 [ M]. 北京 清华大学 出版社 ,2 0 1 4 编辑周 琴