赛尔原创@AAAI 2021 | 纠结于联合学习中的建模方法?快来看看图网络显式建模! - 知乎

语言: CN / TW / HK
论文名称:Co-GAT: A Co-Interactive Graph Attention Network for Dialog Act Recognition and Sentiment Classification
论文作者:覃立波、黎州扬、车万翔、倪旻恒、刘挺
原创作者:黎州扬
论文链接: https://arxiv.org/pdf/2010.00190.pdf
代码链接: https://github.com/RaleLee/Co-GAT
本文转自子:哈工大SCIR
原文链接:





https://mp.weixin.qq.com/s/7TOd5GFqUzYkJtCztdOSYgmp.weixin.qq.com

注:文末附交流群,最近赶ACL,比较忙,很多同学加了没有回过期了,可以重新加一下,备注好的一定会回复,敬请谅解。

1. 简介

1.1 研究背景与任务定义

在对话系统中,对话行为识别和情感分类是两个相关任务,能够帮助进行识别说话者的意图。其中,对话行为能够展示说话者显式的意图,而情感能展现说话者隐式的意图[1]。更具体的来说,对话行为识别和对话情感分类都可以看作是分类任务,目标是将对话中的每条语句标注上对应的DA标签和SC标签。

图1 任务示例

1.2 研究动机

直观上,有两个关键因素有助于对话行为识别和情感预测。一个是跨任务的相互交互信息mutual interaction information,另一个是对话中的上下文信息context information。

图2 信息交互示例

如图2所示,在预测User B的情感标签Negative的过程中,相互交互信息User B的对话行为标签Agreement,对话历史信息User A的情感标签Negative,对成功预测起到很大帮助。在预测过程中,User BAgreement标签表明其认同User A的上一句话,因此User B的情感标签更倾向于与UserA的上一句话的情感标签Negative相同。所以,将两种信息同时考虑是很有必要的

图3 前人工作示意

如图3所示,前人的联合建模工作中,Cerisara等人[1]专注于相互交互信息(图3左),Kim等人[2]专注于对话历史信息(图3右)。最近,Qin等人[3]提出DCR-Net模型,虽然取得了较好效果,但是该模型却是以一种pipeline的方式来获取两种信息:在Encoder端获取对话历史信息,在relation layer端获取交互信息。但是我们认为,该类流水线式的模型存在一个问题:两种信息是单独建模的。

所以接下来的问题是:我们是否可以在一个统一的框架中同时对相互交互信息和上下文信息建模,来将它们完全整合呢?

为了解决此问题,我们提出了Co-InteractiveGraphAttention Network(Co-GAT)模型来联合建模两个任务。核心模块是一个协同交互图层,在协同交互图中,我们使用了一个双重连接的交互模式,包含有跨语句连接和跨任务连接,并且能够相互迭代更新。更具体的来说,跨语句连接中,一个句子会和这段对话中其余的语句相连来获取对话中的上下文信息;跨任务连接中,一个句子会和另外一个任务中的这段对话中的所有句子连接来获取任务间的相互交互信息;同时这两种连接在一个统一的图网络中同时更新。从而给出了之前提出问题的回答:每个话语节点可以与上下文信息和相互交互信息同时更新。

图4 Co-GAT示意

2. 模型

2.1 整体框架

图5 Co-GAT整体框架

如图所示,这是模型的整体框架。由三部分组成,第一部分为分层对话者感知编码器;第二部分为核心模块——协同图交互层;第三部分为解码器部分。将在以下部分中作详细介绍。

2.2 Vanilla Graph Attention Network

对于单层图注意力网络[4],它接受一个图中所有节点的表示作为输入,输出更新后的这些节点的表示。

首先,由公式1计算出hi邻接节点hj的重要性,然后通过公式2获取attention分数,最后使用求和的方式得到节点更新后的表示。这里我们还引入了多头注意力机制。

2.3 Hierarchical Speaker-Aware Encoder

我们使用Bi-LSTM来对句子进行编码。

之后,为了更好的揭示对话者自我的逻辑,我们引入了Speaker-Aware graph。在该图中,节点是对话中的每句话;如果节点i和节点j同属于一个对话者,那么就将其连接。

2.4 Co-Interactive Graph Layer

在协同交互图中,假设一段对话中有N个句子。

  • 顶点:一共有2N个顶点,每个顶点对应一个句子表示。
    • N个顶点为情感分类任务的句子表示
    • N个顶点为对话行为识别任务的句子表示
  • 边:一共有两种连接
    • 跨语句连接。节点i连接上其同属一个任务的节点来获取上下文信息
    • 跨任务连接。节点i连接上另一个任务的所有节点来获取相互交互信息

2.5 Decoder and Joint Training

我们使用两个单独的Decoder来获取分类的结果:

我们将loss联合起来更新:

3. 实验

3.1 数据集

我们在两个公开数据集Dailydialog和Mastodon上进行了实验,我们保持了两个数据集原分割不变。

  • Dailydialog中, 训练集11,118个对话, 验证集1,000个对话,测试集1,000个对话
  • Mastodon中,训练集239个对话,测试集266个对话

3.2 主实验结果

表1 主实验结果

如表所示,baseline结果分为三块,分别为单独的Dialogue Act Recognition模型、单独的Sentiment Classification模型和联合模型。从结果可以看出:

  • 我们的实验结果在所有指标上超过了现有DAR和SC的单独建模的模型,这表明了我们联合建模中提取mutual interaction information的有效性。
  • 我们的实验结果在所有指标上超过了现有的联合建模模型,这表明了将context information和mutual interaction information同时建模的有效性。

3.3 消融实验结果

表2 消融实验结果

上表是消融实验的结果,从中可以看出:

  • without cross-tasks connection设置中,我们将cross-tasks connection去掉,来验证mutual interaction information的有效性。
  • without cross-utterances connection设置中,我们将cross-utterances connection去掉,来验证context information的有效性
  • separate modeling设置中,我们将co-interactive interaction layer去掉,使用两个单独的GAT建模两个任务,然后将两个模型的结果求和来表示交互,这表明了我们的co-interactive interaction layer能更好的同时获取两种信息。
  • co-attention mechanism设置中,我们用DCR-Net中的co-attention mechanism来替换我们的co-interactive interaction layer,表明了pipeline方法的劣势。
  • without speaker information设置中,我们去掉了hierarchical speaker-aware encoder中的speaker-aware graph,验证了合理的建模speaker的信息流可以帮助提高模型的效果。值得注意的是,在去掉该信息后,我们模型的结果依旧高于SOTA模型DCR-Net。

3.4 预训练模型探索实验

我们在Mastodon数据集上探索了预训练模型的效果。我们直接将预训练模型替换hierarchical speaker-aware encoder作为Encoder,来观察我们提出的co-interactive graph layer的效果。

图6 BERT模型探索结果

图6是对于BERT模型的探索结果,我们的模型超过了baseline DCR-Net+BERT的效果

表3 RoBERTa和XLNet探索结果

表3是对于RoBERTa和XLNet预训练模型的探索结果。其中

  • RoBERTa/XLNet+Linear是将RoBERTa/XLNet作为共享encoder,然后使用两个单独的线性层作为decoder获得预测结果。
  • Co-GAT+RoBERTa/XLNet是将RoBERTa/XLNet替换hierarchical speaker-aware encoder作为Encoder,保持我们的model剩余部分不变。

实验结果表明,Co-GAT和RoBERTa/XLNet的结合可以进一步提升模型效果,证明了我们的贡献与预训练模型是互补的。

4.结论

在这篇文章中,我们的贡献如下:

  • 我们首次尝试同时结合上下文信息和相互交互信息来进行联合对话行为识别和情感分类。
  • 我们提出了一个协同交互的图注意力网络,该网络构造了交叉任务连接和交叉话语连接,并相互进行迭代更新,从而实现了同时结合上下文信息和交互信息的建模。
  • 在两个公开数据集上进行的实验表明,我们的模型取得了实质性的改进,并实现了最佳的性能。此外,我们框架的贡献与预训练模型(BERT,Roberta,XLNet)是互补的。

参考文献

[1] Cerisara, C.; Jafaritazehjani, S.; Oluokun, A.; and Le, H. T. Multi-task dialog act and sentiment recognition on mastodon. In Proc. of COLING 2018.

[2] Kim, M.; and Kim, H. Integrated neural network model for identifying speech acts, predicators, and sentiments of dialogue utterances. Pattern Recognition Letters 2018.

[3] Libo Qin, Wanxiang Che, Yangming Li, Mingheng Ni, Ting Liu. DCR-Net: A Deep Co-Interactive Relation Network for Joint Dialog Act Recognition and Sentiment Classification. AAAI 2020.

[4] Veličković P, Cucurull G, Casanova A, et al. Graph attention networks. ICLR 2018.


本期责任编辑:丁效

本期编辑:彭湃

机器学习/深度学习算法/自然语言处理交流群

已建立机器学习算-自然语言处理微信交流群!想要进交流群进行学习的同学,可以直接加我的微信号:HIT_NLP。加的时候备注一下:知乎+学校+昵称 (不加备注不会接受同意,望谅解),想进pytorch群,备注知乎+学校+昵称+Pytorch即可。然后我们就可以拉你进群了。群里已经有非得多国内外高校同学,交流氛围非常好。

强烈推荐大家关注机器学习算法与自然语言处理账号和机器学习算法与自然语言处理微信公众号,可以快速了解到最新优质的干货资源。

推荐阅读

如何提高PyTorch“炼丹”速度?这位小哥总结了17种方法,可直接上手更改的那种

斯坦福CS224W《图机器学习》2021开课!Jure Leskovec大牛主讲,附课程PPT下载

ICLR2021放榜!录取860篇,接受率为28.7%!

计算机视觉中的Transformer

第二十届中国计算语言学大会(CCL 2021)技术评测任务征集

完全图解GPT-2:看完这篇就够了(二)

完全图解GPT-2:看完这篇就够了(一)

IJCAI 2020今日开幕,杰出论文奖、卓越研究奖、约翰·麦卡锡奖等8项大奖公布!

研究品味锻炼!

一份Python线性代数讲义

全面回顾2020年图机器学习进展,12位大神论道、寄望2021年大爆发!

第二十届中国计算语言学大会(CCL 2021) 征稿启事

NTU-Xavier Bresson 图神经网络入门视频

2020年arXiv十大热门论文来了!不止GPT-3、SimCLR、YOLOv4...

每日论文速递:自然语言处理相关(1月7日更新版)

权值衰减和L2正则化傻傻分不清楚?

斯坦福大学——人工智能本科4年课程清单

超过500个附代码的AI/机器学习/深度学习/计算机视觉/NLP项目

Awesome Transformer for Vision Resources List库

2020 Top10计算机视觉论文总结:论文,代码,解读,还有demo视频!

摘要数据整理仓库,6个数据集!

156个参考文献!Visual Transformer 调研survey

NLP生成任务痛点!58页generation评价综述

机器学习画图模板ML Visuals更新

谷歌最新28页高效 Transformer 模型综述

Papers with Code 2020 全年回顾

最新14页《图神经网络可解释性》综述论文

陶大程等人编写!最新41页深度学习理论综述

使用PyTorch时,最常见的4个错误

加拿大蒙特利尔大学助理教授刘邦招收2021/2022年博士生

【EMNLP2020】基于动态图交互网络的多意图口语语言理解框架

一文搞懂 PyTorch 内部机制

AAAI 2021论文接收列表放出!!!