关系抽取review(附上中文关系抽取的数据及代码)-凯发体育客户端

2023-03-20 06:12:05 生活百科 126 ℃ 0 评论

原文:more data, more relations, more context and more openness: a review and outlook for relation extraction

作者: xu han1∗ , tianyu gao2∗,

论文发表时间: 2020年9月

代码: thunlp/opennre

开源的关系抽取的代码:johnson7788/opennre 数据: johnson7788/chinese-literature-ner-re-dataset

0. 代码没有做什么改变,作者提供了cnn,pcnn,和基于bert的模型的关系抽取,结构不难,运行速度较快,测试结果在readme最下方。中文的关系抽取数据较难获得,开源的chinese-literature-ner-re-dataset存在较多的错误,不过自己实验尚可,不太能做权威的论文的实验数据。数据处理脚本在example/gen_chinese_data.py。1. 作者总结了目前的关系抽取的技术,难点和考虑的改进方向。2. 目前关系抽取需要攻克的4个大问题是:数据太少,对于长尾关系和few-shot数据不能高效学习, 不能处理复杂的上下文关系,不能识别开放的关系(只能识别我们定义的)3. 关系模型抽取的发展史: 模式抽取--> 统计关系抽取-->神经网络模型4. 指出远端监督生成数据的问题,是引入噪声,作者也提出了3种缓解噪声的方法。5. 现有数据一般都是单句中的2个实体之间的关系,全文档的多句子实体之间的关系效果不好,作者也总结了几种解决思路。6. 作者还进行了实验,如表3,表明现阶段模型抽取关系还是比较大的依赖实体的名称,而不是上下文的信息。7. 在wiki80数据集上经过测试,在使用bert-base模型,使用2个实体拼接(第一个实体的代表的mask向量和第二个实体的代表的mask向量)的向量预测关系比使用cls预测的关系效果要好,准确率分别是87%和85%。一、简介二、 背景和现有工作 ---- 2.3 神经关系抽取模型 三、"更多 "方向的re ---- 3.1 利用更多数据 ---- 3.2 进行更高效的学习 ---- 3.3 处理更复杂的上下文 ---- 3.4 orienting more open domains 四、其他挑战 ---- 4.1 从文本或名称中学习 ---- 4.2 面向特殊任务的re数据集 五、 结论

一、简介

关系事实是人类知识的重要组成部分,它们隐藏在大量的文本中。为了从文本中提取这些事实,人们多年来一直致力于关系抽取(re)的研究。从早期的模式匹配到现在的神经网络,现有的re方法已经取得了重大进展。然而随着网络文本的爆炸性增长和新关系的出现,人类的知识正在急剧增加,因此我们对re的要求"更多":一个更强大的re系统,能够稳健地利用更多的数据,高效地学习更多的关系,轻松地处理更复杂的上下文,并灵活地泛化到更开放的领域。在本文中,作者回顾了现有的re方法,分析了目前面临的关键挑战,并指出了向更强大的re发展的前景方向。

关系事实以三段式的形式组织了对世界的认识。这些结构化的事实作为人类知识的重要作用,或明或暗地隐藏在文本中。例如,"史蒂夫-乔布斯创立了苹果公司 "表明了事实(苹果公司,由,史蒂夫-乔布斯创立),我们也可以从 "汉密尔顿在美国纽约首次亮相 "推理出事实(美国,包含,纽约)。

关系抽取(re)的目的是从纯文本中提取关系事实。更具体地说,在识别出文本中的实体提及(如usa和new york)后,re的主要目标是从上下文中对这些实体提及之间的关系进行分类(如包含)。re的先驱探索在于统计方法,如模式挖掘(huffman,1995;califf和mooney,1997)、基于特征的方法(kambhatla,2004)和图模型(roth和yih,2002)。近来,随着深度学习的发展,神经模型被广泛采用于re(zeng等,2014;zhang等,2015),并取得了优越的效果。这些re方法在非结构化文本和结构化知识之间架起了桥梁,并在多个公共基准上显展示其有效性。

现实世界的re工作面临很多困难。包括(1)收集高质量的人工标注是昂贵且耗时的,(2)许多长尾关系无法提供大量的训练实例,(3)大多数事实是由多个句子组成的长上下文来表达的,此外(4)使用预定义数据集来覆盖那些具有开放式增长的关系是困难的。因此,要构建一个有效的、稳健的re系统进行实际部署,还有一些比较复杂的场景有待进一步研究。

在本文中,我们回顾了现有的re方法(第2节)以及针对更复杂的re场景的最新re探索(第3节)。那些可行的方法导致更好的re能力还需要进一步的努力,这里我们将其总结为四个方向。

(1)利用更多数据(3.1节)。有监督式re方法严重依赖昂贵的人工标注,而远端监督(mintz等,2009)引入更多的自动标注数据来缓解这一问题。但是远端方法带来了噪声样本,只是利用单句提到实体对,这大大削弱了抽取性能。设计出获得高质量和高覆盖率的数据来训练稳健的re模型仍然是一个有待探索的问题。

(2)进行更高效的学习(3.2节)。很多长尾关系只有少量的训练例子。然而,传统的re方法很难像人类一样从有限的例子中很好地概括关系模式。因此,开发高效的学习模式以更好地利用有限的或few-shot的例子是一个潜在的研究方向。

(3) 处理更复杂的上下文(3.3节)。许多关系事实都是在复杂的上下文中表达的(例如多个句子甚至文档),而大多数现有的re模型都集中在抽取句内关系上。为了涵盖这些复杂的事实,研究更复杂上下文中的re是有价值的。

(4)面向更加开放的领域(3.4节)。在现实世界中,每天都会有新的关系从不同的领域中出现,因此很难人为去覆盖所有的关系。然而,传统的re框架一般都是针对预先定义的关系设计的。因此,如何在开放域中自动检测未定义的关系仍然是一个有待解决的问题。

二、 背景和现有工作

信息抽取(information extraction,ie)旨在从非结构化文本中抽取结构性信息,是自然语言处理(nlp)的一个重要领域。关系抽取(relationship extraction,re)作为ie中的一项重要任务,尤其注重抽取实体之间的关系。一个完整的关系抽取系统由命名实体识别器,用于从文本中识别命名实体(如人、组织、地点),实体链接器用于将实体与已有的知识图谱(kg,在使用关系抽取完成知识图谱时是必要的)链接起来,关系分类器用于根据给定的上下文确定实体之间的关系, 等组成。

在这些步中,识别关系是最关键也是最困难的任务,因为它需要模型很好地理解上下文的语义。因此,re一般侧重于研究分类部分,也就是关系分类。如图1所示,一个典型的re环境是,给定一个具有两个标注实体的句子,模型需要将该句子分类为预先定义的关系。

2.3 神经关系抽取模型

神经关系抽取(nre)模型引入神经网络自动从文本中抽取语义特征。nre的研究主要集中在设计和利用各种网络架构来捕捉文本内的关系语义,如循环神经网络(socher等,2012;miwa和bansal,2016),可递归学习句子的成分表示,卷积神经网络(cnns)(liu等,2013;zeng等,2014;santos等,2015;nguyen和grisman,2015b;zeng等, 2015;huang和wang,2017)可以有效地对局部文本进行建模,循环神经网络(rnns)(zhang和wang,2015;nguyen和grishman,2015a;vu等人,2016;zhang等人,2015)可以更好地处理长序列数据,图神经网络(gnns)(zhang等人。2018;zhu et al.,2019a)构建词/实体图进行推理,以及利用注意力机制聚合全局关系信息的基于注意力的神经网络(zhou et al.,2016;wang et al.,2016;xiao and liu,2016)。

比较多年来最先进的re模型的性能(图2),我们可以看到自nre出现以来,其性能有了巨大的提高,这表明了神经方法的强大。

三、"更多 "方向的re

虽然上述nre模型在基准上取得了较好的效果,但它们仍然远远不能解决re的问题。这些模型大多利用了大量的人工标注,只是为了抽取单句中的预定义关系,因此,它们很难在复杂的情况下很好地工作。事实上,已经有各种工作在探索可行的方法,从而在现实世界的场景中获得更好的re能力。在本节中,我们将这些探索性的工作总结为四个方向,并对这些方向进行了回顾和展望。

3.1 利用更多数据

有监督的nre模型由于缺乏大规模高质量的训练数据而受到影响,因为手动标注数据既费时又费力。为了缓解这个问题,远端监督(ds)已经被用来通过将现有的kg与纯文本对齐来自动标注数据(mintz等人,2009;nguyen和moschitti,2011;min等人,2013)。如图3所示,对于kgs中的任何实体对,提到这两个实体的句子都会在kgs中以其相应的关系进行标注。通过这种启发式方案可以很容易地构建大规模的训练实例。虽然ds提供了一种利用更多数据的可行方法,但这种自动标注机制不可避免地伴随着错误标注问题。原因是,并非所有提到这两个实体的句子都能准确地用kgs表达它们的关系。例如,我们可能会错误地将 "比尔-盖茨从微软退休 "标注为关系创始人,如果(比尔-盖茨,创始人,微软)是kgs中的关系事实。

现有的缓解噪声问题的方法主要可以分为三种。

(1)一些方法采用多实例学习,将具有相同实体对的句子组合起来,然后从中选择信息实例。riedel等人(2010);hoffmann等人(2011);surdeanu等人(2012)利用图模型来推理信息句子,而zeng等人(2015)则采用简单的启发式选择策略。之后,lin等(2016);zhang等(2017);han等(2018c);li等(2020);zhu等(2019c);hu等(2019)设计了注意力机制来突出re的信息实例。

(2)加入额外的上下文信息来对ds数据进行降噪也有探索,如将kgs作为外部信息来指导实例选择(ji等,2017;han等,2018b;zhang等,2019a;qu等,2019),采用多语言语料库来实现信息的置信度和互补性(verga等,2016;lin等,2017;wang等,2018)。

(3)许多方法倾向于利用复杂的机制和训练策略来增强远端监督的nre模型。vu等人(2016);beltagy等人(2019)结合不同的架构和训练策略来构建混合框架。liu等(2017)通过在训练过程中改变低置信度的标签,加入软标签方案。此外,强化学习(feng等,2018;zeng等,2018)和对抗式训练(wu等,2017;wang等,2018;han等,2018a)也被ds采用。

研究人员已经形成共识,利用更多的数据是走向更强大的re模型的潜在途径,仍然有一些开放性的问题值得探讨。

(1)现有的ds方法主要集中在降噪自动标注实例上,按照这个研究方向进行研究无疑是有意义的。另外,目前的ds方案还是类似于(mintz et al.,2009)中的原始方案,只是覆盖了实体对在同一句子中被提及的情况。为了达到更好的覆盖率和更少的噪声,探索更好的ds方案用于自动标注数据也是很有价值的。

(2)受最近采用预训练语言模型(zhang等,2019b;wu和he,2019;baldini soares等,2019)和主动学习(zheng等,2019)进行re的工作启发,进行无监督或半监督学习,用于利用大规模的无标签数据以及使用kgs的知识,并在循环中引入人类专家也是很有前途的。

除了解决现有的方法和未来的发展方向,我们还提出了一个新的ds数据集来推动这个领域的发展,该数据集将在论文发表后发布。最常用的 ds 基准 nyt-10 (riedel et al., 2010),存在着关系量小、关系域有限、长尾关系性能极差等问题。为了缓解这些缺点,我们利用wikipedia和wikidata(vrandeˇci´c和kr¨otzsch,2014)以与riedel等人(2010)相同的方式构建wiki-distant。如表1所示,wikidistant覆盖的关系更多,拥有的实例也更多,n/a比例更合理。这两个数据集上最先进模型的对比结果如表2所示,说明wiki-distant更具挑战性,解决远端监督re还有很长的路要走。

3.2 进行更高效的学习

真实世界的关系分布是长尾的。只有常见的关系才会获得足够的训练实例,大多数关系的关系事实和对应的句子都非常有限。我们可以从图4中看到两个ds数据集上的长尾关系分布,很多关系甚至只有不到10个训练实例。这种现象需要能够更高效学习长尾关系的模型。少镜头学习(few-shot learning)专注于只有少数训练实例的抓取任务,很好地满足了这一需求。

为了推进这一领域的发展,han等人(2018d)首先建立了一个大规模的few-shot关系抽取数据集(fewrel)。该基准采取n个k-shot的设置,模型被赋予n个随机采样的新关系,以及每个关系的k个训练实例。在信息有限的情况下,需要re模型将查询实例分类为给定关系(图5)。

few-shot模型的一般思想是训练好实例的表示,或者从现有的大规模数据中学习快速适应的方法,然后迁移到新的任务中。处理few-shot学习主要有两种方式。(1)度量学习: 在现有数据上学习语义度量,并通过与训练实例的比较对查询进行分类(koch等,2015;vinyals等,2016;snell等,2017;baldini soares等,2019)。虽然大多数度量学习模型在句子级表示上进行距离测量,但ye和ling(2019);gao et al(2019)利用token级别的注意力进行更细粒度的比较。(2)元学习,又称 "学习到学习",旨在通过在元训练数据上获得的经验,掌握参数初始化和优化的方式(ravi和larochelle,2017;finn等人,2017;mishra等人,2018)。

研究者们在few-shot re方面已经取得了很大的进展。然而,仍然存在许多对其应用很重要的挑战,尚未得到讨论。gao等人(2019)提出了两个值得进一步研究的问题。

(1)few-shot域适配研究few-shot模型如何跨域迁移 。本文认为,在实际应用中,测试域通常缺乏标注,可能与训练域有很大差异。因此,评估few-shot模型的跨域迁移性至关重要。

(2) few-shot none-of-the-above 检测是关于检测不属于任何一个采样n关系的查询实例。在n-way k-shot设置中,假设所有的查询都表达了给定关系中的一种。然而,真实的情况是,大多数句子与我们感兴趣的关系无关。传统的few-shot模型不能很好地处理这个问题,因为很难形成一个很好的none-of-the-above(nota)关系的表示。因此,研究如何识别nota实例至关重要。

(3)除了上述挑战外,还必须看到,现有的评估协议可能高估了我们在fewshot re上取得的进展。与传统的re任务不同,few-shot re对每个评价环节随机抽取n个关系,在这种环境下,关系的数量通常非常小(5个或10个),很有可能抽取n个不同的关系,从而降低到一个非常容易的分类任务。

我们进行两个简单的实验来说明问题(图6)。(a)我们评估了随着n的增加而增加的few-shot模型,随着关系数的增加,性能急剧下降。考虑到现实世界的案例中包含了更多的关系,这说明现有的模型还远远没有得到应用。(b)我们不随机抽取n个关系,而是手工挑选5个语义相似的关系,并对其进行few-shot re模型评估。观察到结果急剧下降并不意外,这说明现有的few-shot模型可能过拟合了关系简单的文本线索,而不是真正理解上下文的语义。关于实验的更多细节见附录a。

3.3 处理更复杂的上下文

如图7所示,一篇文档一般会提到许多实体,表现出复杂的跨句关系。现有的大多数方法都集中在句内re,因此不足以共同识别这些表达在长段中的关系事实。事实上,大多数关系事实只能从复杂的上下文如文档而不是单句中抽取(yao等,2019),这一点不容忽视。

目前已经有一些工作提出了跨多句子抽取关系。

(1)句法(wick等,2006;gerber和chai,2010;swampillai和stevenson,2011;yoshikawa等,2011;quirk和poon,2017)依靠从各种句法结构中抽取的文本特征,如核心参考标注、依赖性解析树和话语关系,来连接文档中的句子。

(2)zeng等(2017);christopoulou等(2018)构建了句间实体图,可以利用实体间的多跳路径来推理正确的关系。

(3)peng等(2017);song等(2018);zhu等(2019b)采用图结构神经网络对关系提取的跨句子依赖性进行建模,从而带来记忆和推理能力。

为了推进这一领域的发展,已经提出了一些文档级的re数据集。quirk和poon(2017);peng等人(2017)通过ds构建数据集。li等(2016);peng等(2017)提出了特定领域的数据集。yao等(2019)构建了一个由众包工作者标注的通用文档级re数据集,适用于评估通用文档级re系统。

虽然有一些努力投入到从复杂的上下文(如文档)中提取关系的工作中,但目前针对这一挑战的re模型仍然是粗糙和直接的。以下是一些值得进一步研究的方向。

(1)从复杂的语境中提取关系是一项具有挑战性的任务,需要阅读、记忆和推理来发现多个句子中的关系事实。目前大多数的re模型在这些能力上还非常薄弱。

(2)除了文档之外,更多的语境形式也值得探讨,比如跨文档抽取关系事实,或者基于异构数据理解关系信息。

(3)受narasimhan等(2016)利用搜索引擎获取外部信息的启发,对re进行自动搜索和分析上下文,可能会帮助re模型识别覆盖面更广的关系事实,对日常场景变得实用。

在处理开放关系方面已经有一些探索。(1)开放信息提取(open ie),如图8所示,从文本中抽取关系短语和参数(实体)(banko等,2007;fader等,2011;mausam等,2012;del corro和gemulla,2013;angeli等,2015;stanovsky和dagan,2016;mausam,2016;cui等,2018)。open ie不依赖于特定的关系类型,因此可以处理各种关系事实。(2)关系发现,如图9所示,旨在从无监督的数据中发现未见的关系类型。yao等人(2011);marcheggiani和titov(2016)提出使用生成式模型,并将这些关系视为潜变量,而shinyama和sekine(2006);elsahar等人(2017);wu等人(2019)则将关系发现投向聚类任务。

虽然开放域中的关系抽取已被广泛研究,但仍有许多未解决的研究问题有待解答。

(1)在open ie中对关系短语和论据进行规范化对于下游任务至关重要(niklaus等人,2018)。如果不进行规范化,抽取的关系事实可能是冗余和模糊的。例如,open ie可能会抽取两个关系(barack obama,出生在,檀香山)和(obama,出生地,檀香山)表示一个相同的事实。因此,对提取结果进行归一化处理,将在很大程度上有利于open ie的应用。在这一领域已经有一些初步的工作(gal´arraga等人,2014;vashishth等人,2018),还需要更多的努力。

(2)(n/a)关系在关系发现中几乎没有得到解决。在以往的工作中,通常假设句子总是表达两个实体之间的关系(marcheggiani和titov,2016)。然而,在实际场景中,句子中出现的很大一部分实体对并不存在关系,忽略它们或使用简单的启发式方法来摆脱它们可能会导致糟糕的结果。因此,研究如何在关系发现中处理这些n/a实例是很有意义的。

四、其他挑战

在本节中,我们分析了re模型面临的两个关键挑战,用实验来解决这些问题,并展示了它们在re系统研究和开发中的意义。

4.1 从文本或名称中学习

在re的过程中,实体名称及其上下文都为分类提供了有用的信息。实体名称提供了类型化信息(例如,我们可以很容易地判断肯尼迪国际机场是一个机场),并有助于缩小可能的关系跨度;在训练过程中,实体嵌入也可能形成帮助关系分类(如在kg的链接预测任务中)。另一方面,关系通常可以从围绕实体对的文本语义中抽取。在某些情况下,关系只能通过对上下文的推理来隐性推理。

由于有两个信息源,研究它们各自对re性能的贡献有多大是很有意思的。因此,我们设计了三种不同的实验设置:(1)正常设置,其中名字和文本都作为输入;(2)masked实体(me)设置,实体名称用一个特殊的token代替;(3)仅实体(oe)设置,只提供两个实体的名称。

表3的结果显示,与正常设置相比,模型在me和oe设置下的性能都有很大的下降。此外,令人惊讶的是,在某些情况下,只使用实体名称比只使用实体被masked的文本要好。这说明:(1)实体名和文本都为re提供了关键信息,(2)对于一些现有的最先进的模型和基准,实体名的贡献更大。

观察结果与人类的直觉相反:我们主要从文本描述中对给定实体之间的关系进行分类,然而模型更多的是从它们的名称中学习。为了在理解语言如何表达关系事实方面取得真正的进展,这个问题应该进一步研究,并需要更多的努力。

4.2 面向特殊任务的re数据集

已经有很多数据集有利于re研究。对于有监督的re,有muc(grishman和sundheim,1996)、ace-2005(ntroduction,2005)、semeval-2010任务8(hendrickx等人,2009)、kbp37(zhang和wang,2015)和tacred(zhang等人。2017);我们还有nyt10(riedel等,2010)、fewrel(han等,2018d)和docred(yao等,2019)分别用于远端监督、few-shot和文档级re。

然而,几乎没有针对的特殊任务问题的数据集。例如,跨句子的re(例如,两个实体在两个不同的句子中被提及)是一个重要的问题,然而没有特定的数据集可以帮助研究人员研究它。虽然现有的文档级re数据集包含了这种情况的实例,但很难分析出确切的性能收益对这一具体方面。通常,研究人员(1)使用人工筛选的一般数据集的子集,或者(2)进行案例研究,以显示其模型在特定问题上的有效性,这缺乏有说服力的定量分析。因此,为了进一步研究这些在re发展中具有重要意义的问题,社会各界有必要构建公认的、精心设计的、面向特殊任务的精细数据集。

五、 结论

在本文中,我们对关系抽取模型的发展进行了全面而详细的回顾,归纳出了四个有前景的方向,导致了更强大的re系统(利用更多的数据,进行更高效的学习,处理更复杂的上下文和定位更开放的领域),并进一步研究了现有re模型面临的两个关键挑战。我们对之前的re文献进行了全面的调查,同时也用统计数据和实验来支持我们的观点。通过本文,我们希望展示现有re研究的进展和问题,鼓励大家在这个领域做出更多的努力。

同类热门推荐 关系抽取介绍 43414人看过 关系抽取算法 23727人看过 淘宝人生心愿礼盒套装抽取攻略 24171人看过 2022年7月15日干支启示录 88972人看过 1049·恋爱时差 54607人看过 本站只为传播信息,不对所发布的内容本身负责。如有凯发k8国际手机app下载的版权及其它问题,请联系站长处理。

本文tag:[数据] [代码] [关系]

网站地图