AAAI 2021线上分享 | 华为云提出多轮阅读理解框架,解决短文本的实体链接问题 - 知乎

语言: CN / TW / HK

实体链接(Entity Linking, EL)也被称为实体消歧,旨在将一段文本中指定的 mention 链接到特定知识库(KB)中的正确实体。近来,随着网络上短文本的爆炸式增长,短文本的实体链接在搜索引擎中解析查询、理解社交媒体新标题和评论等多种多样的行业应用中扮演了重要的角色。

传统的实体链接方法主要利用编码上下文和预训练候选实体嵌入来评估主题上下文兼容性以消除实体歧义。通过这种方式,消歧过程被分解为了语义匹配和实体排序问题。特别是最近的 SOTA 实体链接模型(分别由 Gillick 等以及 Logeswaran 等提出)根据每对 mention 上下文和候选实体的抽象表征对它们进行评分。这意味着这些模型在 mention 上下文和候选实体之间缺少细粒度交互。这导致它们之间的语义匹配操作只能在编码器输出层上执行,并且趋于表面。这些模型也很难捕获精确实体消歧所需的所有词法、语义和句法关系。

因此,这些获益于充足上下文的传统实体链接方法虽然在长文本上实现了重大进展,但却受限于上下文模型无法成功地处理稀疏短文本。如果出现一种能够充分利用这种受限短文本的实体链接框架,则再好不过了。在华为云这篇被 AAAI 2021 会议接收的论文《Read, Retrospect, Select: An MRC Framework to Short Text Entity Linking》中,研究者提出利用多轮阅读理解的框架来解决短文本的实体链接问题,并在多个中英文数据集上均取得了当前 SOTA 的实体链接效果。

机器之心最新一期 AAAI 线上分享邀请到了华为云语音语义创新 Lab 算法工程师 Xavier,为大家详细解读此前沿研究。

https://u.wechat.com/ME5NRqxzSkMphtHLem9RrmE (二维码自动识别)

分享主题:利用多轮阅读理解的框架解决实体链接问题 。

个人简介:Xavier,华为云语音语义创新 Lab 算法专家,其主要研究方向是自然语言处理以及多模态理解。他曾在 AAAI、NAACL、COLING、以及 ACM MM 等会议上发表过多篇论文,并多次获得自然语言处理相关竞赛奖项(CCKS'20、KDD CUP'20 和 ICDM'19)。

分享概要:实体链接技术的发展可以促进信息抽取、文档分析、智能问答、知识库扩充等不同的任务,但是由于名称的变化和实体的模糊性,实体链接任务十分具有挑战性,尤其是短文本的实体链接,句子长度短,在链接过程中,每个待消歧的实体能利用的上下文信息非常有限。针对这个任务,研究人员提出了一个多项选择阅读理解的框架,为句子中每个待消歧的实体分别生成一个问题,并将知识库中的候选实体转换成候选答案集,通过这样一个设计,实体链接转换为了一个阅读理解的问题。为了进一步捕捉句子内待消歧实体间的主题一致性来提高链接的准确率,该工作采用了多轮阅读理解的方式以序列去处理多个待消歧的实体,为句子内多个实体的消歧提供了更丰富的信息。另外,为了解决短文本中常见的不可链接问题(即知识库中没有对应的实体),该工作额外设计了一个两阶段的验证机制来判断实体是否可被链接。大量的实验显示,提出的框架在多个中英文数据集上均取得了目前最优的实体链接效果。

分享论文链接https://arxiv.org/abs/2101.02394

直播时间:北京时间 1 月 14 日 20:00-21:00

加入机动组,一起看直播

「机动组」是机器之心发起的人工智能技术社区,将持续提供技术公开课、论文分享、热门主题解读等线上线下活动,并在社群中提供每日精选论文与教程、智能技术研究周报,同时「机动组」也将不定期组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

添加机器之心小助手:syncedai5,备注「AAAI」,加入本次直播群。