面向煤矿领域的文本关系抽取关键技术研究.pdf
Computer Knowledge and Technology电脑知识与技术第16卷第22期 2020年8月第16卷第22期 2020年8月 人工智能及识别技术本栏目责任编辑 唐一东 面向煤矿领域的文本关系抽取关键技术研究 张淑霞, 龚炳江 (河北工程大学 信息与电气工程学院, 河北 邯郸 056038) 摘要 关系抽取是信息抽取的子任务, 将关系抽取应用到煤矿的规范、 章程等诸多复杂的文本信息方面, 对于煤矿行业知 识图谱的构建等研究有重要的价值。文章将目前基于规则、 基于机器学习和基于深度学习的关系抽取等主要技术的方法 和思路进行分析, 并提出了使用BiLSTM-ATT (双向长短期记忆网络-注意力机制) 模型来实现煤矿行业文本信息中实体关 系的抽取。该课题可以为从事煤矿行业的人员和其他领域的研究提供较大的实际意义。 关键词 煤矿行业; 关系抽取; 主要技术; BiLSTM-ATT模型; 文本信息 中图分类号 TP391.1文献标识码 A 文章编号 1009-3044202022-0187-03 开放科学 (资源服务) 标识码 (OSID) Research on Key Technologies of Text Relation Extraction for Coal Mine ZHANG Shu-xia, GONG Bing-jiang School of Ination and Electrical Engineering, Hebei University of Engineering, Handan 056038, China Abstract Relationship extraction is a sub-task of ination extraction. Applying relationship extraction to many complex textual ination such as coal mine specifications and regulations is of great value for the construction of knowledge maps in the coal mine industry. The article analyzes the current s and ideas of rule-based, machine-based and deep-learning-based rela⁃ tionship extraction, and proposes the use of BiLSTM-ATT bidirectional long-short-term memory network-attention mechanism model to implement coal mine industry texts. Extraction of entity relationships in ination. This topic can provide greater practi⁃ cal significance for the personnel engaged in the coal mine industry and other fields of research. Key words coal mine industry; relationship extraction; main technologies; BiLSTM-ATT model; text ination 1 背景 近年来, 随着网络信息资源的不断扩充, 信息数据呈现高 速增长, 在互联网中准确高效地获取所需要的信息成为当下研 究的热点, 因此信息抽取技术得到广泛关注。而煤矿行业本身 就存在着诸多烦琐的规章、 条例、 规范等信息, 因此本课题旨在 挖掘煤矿领域文本数据中的语义关系, 为构建知识图谱、 智能 问答等能够快速获取所需信息的研究提供坚实的基础。关系 抽取是信息抽取的主要步骤之一, 在自然语言处理中有着广泛 的应用。 关系抽取具体来讲是指从非结构化的文本数据中找出实 体之间存在的关系, 并表示为三元组 。 通过关系抽取, 可以找出实体间更多隐藏的关系, 帮助计算机 更好的理解大规模的文本数据信息。本文将对目前已有的关 系抽取技术进行分析对比, 并在此基础上针对煤矿领域的条 例、 规范等数据, 提出实现关系抽取的解决方法, 为构建煤矿行 业知识图谱和实现智能问答提供有效的帮助。 2 关系抽取的发展历程 MUC是美国一个研究委员会资助的信息理解会议, 一直致 力于信息抽取方法的研究, 关系抽取最早是MUC于1998年的 第七次会议上以关系模板的形式提出的[1]。MUC只召开过七 次, 之后在1999年, 美国的研究院又召开了ACE (自动内容抽 取) 评测会议, ACE针对新闻行业的实体关系抽取展开研究, 为 以后关系抽取的发展提供了基础的语料和关系类型, 在一定程 度上推动了关系抽取技术的进步。近年来, 开放域关系抽取方 法在语料获取方面提供了有效的解决方法, 逐渐走进研究人员 的视野, 慢慢受到越来越多的关注。目前的维基百科、 Freebase 等大规模知识库涉及的领域更广、 关系类型更多, 为研究人员 在标注语料的获取方面提供了有效的支持。在当今时代, 中文 在世界上的使用越来越广泛, 对中文实体关系抽取的研究越来 越迫切。 3 关系抽取技术的分析比较 本文将中文实体关系抽取方法按照模型的特点分为规则、 机器学习和深度学习三类分别进行分析。 3.1 基于规则的方法 基于规则的方法是通过专家对语料的深入分析, 列举出其 中存在的各种关系模板, 构建出大规模的关系模板库, 然后在 收稿日期 2020-05-20 作者简介 张淑霞 (1997) , 女, 河北衡水人, 硕士, 主要研究方向为自然语言处理; 龚炳江, 教授, 硕士。 E-mail eduf http // Tel 86-551-65690963 65690964 ISSN 1009-3044 Computer Knowledge and Technology电脑知识与技术 Vol.16, No.22,August.2020 187 Computer Knowledge and Technology电脑知识与技术第16卷第22期 2020年8月第16卷第22期 2020年8月 本栏目责任编辑 唐一东 人工智能及识别技术 数据集中寻找与模板相似的句子实例, 从而获取实体间的语义 关系。Fukumoto等人根据谓语动词来判断实体之间的关系, 实 验结果显示召回率很低, 在测试中F指数只达到了39.1[2]。 Aone利用语义关系特征, 识别出句子的中心词和修饰词之间的 关系, 在测试中达到了75.6的F指数, 效果是最好的[3]。 人工规则往往是高精度的, 可以针对特定领域进行定制, 具有较好的准确率。但是通常会出现低召回率, 信息缺乏覆盖 率, 人工成本高、 代价大, 设计过程艰难。 3.2 基于机器学习的方法 基于机器学习的方法中最依赖于标注的就是有监督的关 系抽取, 主要包括特征向量和核函数两种方法。特征向量方法 速度很快, 但因为语义关系复杂多样, 再找出更适合的有效特 征来提高性能是不太容易的。核函数的方法是将句子构造为 结构树, 使用核函数来计算树和树之间的距离, 可以综合利用 多种不同方面的特征, 但核函数计算过程复杂, 需要花费大量 时间。 最常见的半监督方法是自举方法 (Bootstrapping) , 在没有 足够的标注语料时, 只需要将每种关系标注少量种子实体对, 选择包含种子实体对的相关句子集合, 再从句子中抽取关系的 模式, 以此循环迭代, 最终得到关系数据[4]。此方法能自动挖掘 句子中的部分词法特征, 适合没有足够语料标注的关系抽取场 景, 但是对种子的质量要求高。 无监督的抽取方法不需要人工标注语料, 是通过聚类方法 寻找相似度比较接近的实体对, 将其归为一类, 再使用合适的 词语来标注这种关系[5]。相比有监督和半监督的方法有很大的 优势; 但是聚类阈值确定困难, 缺乏必要的语料库, 频率少的实 例抽取率也低, 在评价标准上难以量化和统一。 3.3 基于深度学习的关系抽取方法 有监督关系抽取方法虽然抽取效果不错, 但是十分依赖于 人工标注提供有效特征, 而标注通常会存在一些误差, 在关系 抽取过程中这些误差最后可能使得结果产生很大偏差, 达不到 想要的效果。近年来, 深度学习的神经网络模型在关系抽取中 受到许多研究者的关注, 不但节省了人工的工作, 并且取得不 错的效果, 使用神经网络模型来实现关系抽取时, 可以自动提 取特征, 不需要有复杂的设计过程。卷积网络可以通过卷积和 池化操作提取句子的重要特征, 长短期记忆网络是通过记忆句 子的上下文, 来提取句子的重要特征。 3.4 方法对比总结 表1 关系抽取方法优劣势对比 方法 基于规则 有监督 半监督 无监督 基于深度学习 领域移植性 弱 弱 较弱 较强 较强 人工需求 强 强 较强 低 较低 适合规模大小 小 小 大 大 大 基于规则的方法精确率较高, 但局限性强, 数据集发生改 变时, 原来制定的规则可能就不能再满足新的需要, 人工再制 定规则是非常困难的; 而机器学习的方法不再过度依赖专家对 语料库的详细分析, 只需要有一定的专业知识来提取重要的特 征, 减少了一定的人工工作量; 基于深度学习的方法其实是机 器学习的发展分支, 能够避免人工特征选择的步骤, 自动提取 出隐藏的实体关系特征, 减少特征误差, 效果比机器学习要好。 4 煤矿领域文本关系抽取实现方案 4.1 方法选择的原则 传统的基于规则的方法实现关系抽取任务, 需要专家针对 语料库手工编写规则, 设计规则耗时耗力, 过程艰难, 若规则设 计得不好, 会达不到预期的效果, 基于机器学习的方法, 需要提 供标注好的语料库, 然后根据定义好的关系类型提取特征, 但 特征的提取需要经过复杂的设计和验证, 也是非常艰巨的任 务。目前, 基于深度学习的方法得到广泛应用, 构造神经网络 模型来自动提取特征, 可以有效减少误差和人工的工作量。本 课题选择使用深度学习的BiLSTM-ATT模型来实现关系抽取 任务。 4.2 BiLSTM-ATT模型结构 该关系抽取模型主要分为四部分, 分别为 词向量、 BiL⁃ STM、 注意力机制和Softmax分类器。词向量层的作用是把输入 的句子用词向量来表示, 也就是将自然语言的文本转换为计算 机可以理解的向量形式, 嵌入到输入矩阵中; BiLSTM的作用是 通过神经网络抽取实体间的关系特征; 注意力机制会计算出各 个关系特征最终所占关系类型的权重; Softmax分类器会对实 体间的关系类别做出最后的判断。 图1 BiLSTM-ATT模型结构图 4.3 词向量 词向量层是把自然语言的文本转化为模型所需的数字化 向量。使用训练工具Word2vec进行训练, 并采用CBOW词袋 模型, 将一个词的上下文对应的词向量输入, 得到该词的词向 量。例如一个句子为“natural language processing is an im⁃ portant direction in the field of computer science ” , 取上下文大 小为6, 那么 “direction” 的前六个和后六个词的词向量就作为输 入,“direction” 就是需要输出的词向量, 在词袋模型中, 关键词 前后的词没有顺序, 不需要考虑这些词之间距离的大小。 4.4 双向长短期记忆网络 循环神经网络 (RNN) 对于很长的文本, 不能很好地联系上 下文, 只能记住比较近的信息, 比较远的信息记忆不到。长短 期记忆网络 (LSTM) 通过引入门机制来决定需要被记住或者需 要被丢弃的信息, 实质上是优化过的RNN, 可以有效记住长文 188 Computer Knowledge and Technology电脑知识与技术第16卷第22期 2020年8月第16卷第22期 2020年8月 人工智能及识别技术本栏目责任编辑 唐一东 本的内容。 所谓门机制, 即模型中包含三个门 忘记门、 输入门和输出 门, 通过公式来计算最终被传递的信息。公式中 输入表示为 Xt, 词向量表示为Wt, BiLSTM模型对词向量的编码表示为ht。 输入门用来决定当前传入的信息和上一级传送的信息哪 些需要被传递, 保留在细胞状态Ct中, 公式为 it σWi.[]ht - 1,xt bi(1) C ͂ t σWC.[] ht - 1,xt bC(2) 忘记门的作用是决定哪些信息需要被忘记, 公式为 ft σWf.[]ht - 1,xt bf(3) 忘记门和输入门的组合决定了被更新的信息是哪些, 公 式为 Ct ft*Ct - 1 it*C ͂ t (4) 输出门会限制最终输出的是哪些信息,公式为 ot σWo.[]ht - 1,xt bo(5) ht ot*tanhCt(6) 但是单纯的LSTM只能单向传递信息, 不能记住未来时刻 的内容, 在一个句子中, 实体间的关系不仅仅会被前面所影响, 还可能会被后面所影响, 所以在BiLSTM中使用前向和后向两 个顺序来记忆上下文, 最后将两个方向的输出向量连接起来, 可以更有效地利用上下文。 4.5 注意力机制 注意力机制的原理就像人在靠视觉感知周围的事物时, 往 往不会完完全全的每个点都认真看, 而是根据需要观察特定的 部分。在实体对的句子集合中, 不同的句子对于分类的贡献不 一样, 使用注意力机制学习实例权重, 可以从诸多复杂信息中 快速注意到对于需求来说更重要的信息, 在输出层融入注意力 机制, 能够更加有效的表征实体间的关系。输出向量以Rh表 示, 注意力层的权重矩阵由以下公式得出 M tanhRh(7) α softmaxwTM(8) γ RhαT(9) 其中RhϵRd n*T,d n表示词向量的维度,w T表示参数向量的 转置, 最终得到句子关系特征表示, 公式为 F* tanhγ(10) 4.6 Softmax分类器 在模型最后加入Softmax分类器, 将上一层的句子特征表 示作为输入, 最后经过公式计算, 选择概率最大的特征来表示 实体对的关系, 得到最终的句子特征表示。公式为 y ͂ y|S SoftmaxWsf * bS11 y ͂ Softmaxp ͂ y|S12 4.7 BiLSTM-ATT模型训练过程 首先使用word2vec训练词向量模型, 也就是将文本以计算 机可以理解的向量形式来表示, 构建初始数据集, 以词向量矩 阵作为BiLSTM层的输入, 将初始数据集分别放入forward cell 和backward cell, 把两个方向的输出向量合并, 融合上下文信 息, 提取句子中的特征, 再通过注意力机制计算出特征的权重, 最后, 使用softmax函数将特征转换为对应的关系类别的概率。 图2 BiLSTM-ATT模型训练流程图 5 结果分析 5.1 实验环境 实验采用的环境见表2。 表2 实验环境 环境名称 操作系统 CPU 编程工具 编程语言 框架版本 环境 Windows10_64位 InterRCoreTMi5-5200U CPU2.20GHz 2.20GHz Pycharm2019.3.4 Python3.6 Tensorflow1.11.0 5.2 实验数据 本次研究针对的数据是煤易联网站中的法规、 标准和规 范, 由于条件限制, 只选取了2300个句子作为数据集进行关系 抽取 , 涉及的实体关系共有5种 包含、 依据、 装配、 禁止、 影响。 关系定义见表3。 表3 关系定义 关系名称 包含 依据 装配 禁止 影响 释义 一种实体包含多种实体, 或是另一实体的分类 一种实体的内容作为另一种实体的规定或依据 一种实体需要装配其他实体或装配在另一实体上 一种实体禁止另一实体的某种行为 一种实体的操作对另一种实体产生积极的或消极的影响 5.3 实验结果 由于条件限制, 只选择了小部分数据做实验, 将数据集中 的1840个句子作为训练集, 460个句子作为测试集, 各类关系 的测试结果见表4 表4 关系抽取测试结果表 关系类别 包含 依据 装配 禁止 影响 准确率 0.6701 0.6386 0.6667 0.7835 0.5369 召回率 0.7222 0.8833 0.6419 0.8085 0.5926 F值 0.6948 0.7412 0.6540 0.7958 0.5634 (下转第192页) 189 Computer Knowledge and Technology电脑知识与技术第16卷第22期 2020年8月第16卷第22期 2020年8月 本栏目责任编辑 唐一东 人工智能及识别技术 图5 AgNi12、 Ag6Ni7和Ag12Ni团簇的电荷密度差图 3.4 磁性 传统磁性元素中的单原子纳米颗粒由于配位降低, 通常表 现出比其体积大的磁矩增强, 独立的Ni团簇也具有磁矩, 随着 团簇尺寸的减小, 磁矩向原子极限方向增大, 而且在临界尺寸 范围内, Ni原子团簇也变成非磁性团簇, 计算得到的Ag-Ni二 元团簇的磁矩也与Ni原子团簇具有核壳状结构的团簇的磁矩 一致指出类似的变化类型, AgNii2团簇确实变为非磁性团簇, AgNi12团簇是13个原子大小的Ag-Ni团簇的神奇团簇。从纯 Ni团簇的总磁矩9.95μB开始, Ag-Ni合金团簇的总磁矩几乎随 Ag含量的增加单调减小, 从图5左上角的图中可以看出, Ag⁃ Ni12团簇的总磁矩最终为零。磁矩主要来源于Ni原子的定域 d电子。此外, Ag原子与相邻Ni原子的杂化导致Ag原子产生 小的自旋极化, 这是由于Ag原子的s电子不成对。我们在比较 Ag原子和Ni原子的感应磁矩之后发现, Ag原子远远小于Ni原 子。这也就如同预测的那样, 当镍原子的数量变少总磁矩会出 现下降。 4 结束语 本文使用第一性原理对磁性金属二元Ag-Ni团簇进行了 性质计算, 二元Ag-Ni团簇的最佳结构模式为核壳状结构, 并 且镍原子处于合金团簇的核心位置。Ag-Ni团簇的混合能十 分高, 与最高的有效配位数 (ECN) 、 零磁矩、 最大的HOMO-LU⁃ MO间隙以及远离Ag12中心的镍原子的不对称定位有关。在 合金团簇的结构, 电子和混合性能上, Ag-Ni界面上的相互作 用起着举足轻重的作用, Ag12Ni团簇的零磁矩与嵌在金属Ag 基体中的Ni纳米团簇的磁性能一致。 参考文献 [1] 李冬梅, 韩敬宇, 蔺吉顺. 团簇理论的应用[J]. 内蒙古民族大 学学报自然科学版, 2013, 282 177-178. [2] 徐新发. SrTiO3空位缺陷及替位掺杂的第一性原理计算[D]. 北京 北京化工大学, 2009. [3] 徐昕. 密度泛函理论[J]. 科学观察, 20126 42-46. [4] Datta S, Raychaudhuri A K, Saha-Dasgupta T. First princi⁃ ples study of bimetallic Ni13–nAgn nano-clusters n 0– 13 Structural, mixing, electronic, and magnetic properties[J]. The Journal of Chemical Physics, 2017, 14616 164301. [5] A P Ponce-Tadeo, J L Moran-L opez , J L Ricardo-Chavez. Structural and magnetic properties of Fe7−nPtn with n 0, 1, 2,... 7, bimetallic clusters[D]. Springer Science Business Me⁃ dia Dordrecht J Nanopart Res, 2016. [6] 李震宇, 贺伟, 杨金龙. 密度泛函理论及其数值方法新进展 [J]. 化学进展, 2005, 172 192-202. [7] 黄敏, 徐畅, 程龙玖. [BxAl13-x]-x0~13二元团簇的密度泛 函理论研究[J]. 化学学报, 2016, 749 758-763. 【通联编辑 谢媛媛】 (上接第189页) 由测试结果可知,“禁止” 这类关系的准确率最高,“包含” 关系、“依据” 关系和 “装配” 关系的识别准确率较高,“影响” 这 一关系的识别效果最差, 召回率也是最低的。 6 结束语 本文首先分析了目前的关系抽取方法的优劣, 然后提出了 使用BiLSTM-ATT模型完成煤矿领域语料的关系抽取任务。 首先使用word2vec将文本句子转换为词向量的形式, 然后将词 向量输入到BiLSTM提取关系特征, 最后通过注意力机制计算 特征的权重, 使用分类器对关系类型做出概率计算。实验结果 表明, 对整体语料库的抽取效果较好, 但是由于条件限制, 语料 不够多, 对于 “影响” 关系类型识别的效果较差, 因此, 需要在语 料库的获取和优化上继续进行研究。 参考文献 [1] 阳小华,张硕望,欧阳纯萍.中文关系抽取技术研究[J].南华大 学学报自然科学版, 2018,321 66-72. [2] Fukumoto J, Masui F, Shimohata M, et al. Oki Eletricity In⁃ dustry Description of the Oki System as Used for MUC-7[C]. Proceedings of the 7th Message Understanding Conference MUC-7, 1998. [3] Aone C, Ramos-Santacruz M. REES a large-scale relation and event extraction system[C]//Proceedings of the sixth confer⁃ ence on Applied natural language processing .April 29-May 4, 2000. Seattle, Washington. Morristown, NJ, USA Association for Computational Linguistics, 2000 76-83. [4] 武文雅,陈钰枫,徐金安,等.中文实体关系抽取研究综述[J]. 计算机与现代化, 20188 21-27, 34. [5] 杜嘉,刘思含,李文浩,等.基于深度学习的煤矿领域实体关系 抽取研究[J].智能计算机与应用,2019,91114-118. [6] 陈鹏,郭剑毅,余正涛,等.融合领域知识短语树核函数的中文 领域实体关系抽取[J]. 南京大学学报自然科学,20151 181-186. [7] 郭喜跃,何婷婷,胡小华,等.基于句法语义特征的中文实体关 系抽取[J].中文信息学报, 2014,286183-189. [8] 朱珊珊,唐慧丰.基于BiLSTM_Att的军事领域实体关系抽取 研究[J].智能计算机与应用, 2019,94 96-99. 【通联编辑 谢媛媛】 192