NLP实战高手课学习笔记(3):NLP基本任务及研究方向
携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第27天,点击查看活动详情
说明
本系列博客将记录自己学习的课程:NLP实战高手课,链接为:time.geekbang.org/course/intr… 本篇为最开始05节的课程笔记,主要介绍了NLP基本任务及研究方向
NLP的基本任务和研究方向
这里,导师将整个NLP相关的研究和任务分为以下三大类: - 基础性研究 - 专属于NLP领域的研究 - 交叉领域的研究
基础性研究
网络架构
网络架构主要研究深度学习中各种神经网络的结构,如CNN、RNN、LSTM、Transformer等,如下图即为经典的Transformer模型。
优化理论
过去,由于算力限制,神经网络模型都很浅,因而比较好优化。但最近几年,随着算力的发展,模型的深度和参数(比如T5-3B模型有着超过30亿个参数)呈现爆炸式增长,因而如何进行优化成为了一个关键问题。
优化理论主要关注如下两个方面: - 优化算法的收敛性; - 优化算法的速度(对算力的消耗)。
对抗训练
一般而言,当数据标注非常有效时,训练效果会很好。但是,当模型在遇到噪声数据时,性能会显著下降。比如,我们的模型都是使用一些非常标准的数据进行训练,训练时模型只见过“政府”这个词汇,但在用户输入时,有时可能会输入进不规范的词语,比如:“正府”,这些词语很多是由于输入法的误选择导致,但是模型面对这样的噪声数据集时,性能将会下降。 而对抗学习 则是为了解决这一问题。
数据增强
数据增强可以通俗的理解为使用人工构造一些数据,而不是请人标注。这种自动生成的数据集实际上存在“分布漂移”的风险(见上一篇博客)。如何使用这些增强数据来提升性能也是重要的研究点。
半监督学习
由于标注数据的代价很高,半监督学习试图利用充分利用无标签数据和有标签数据进行混合训练。百科上对其介绍如下:
半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。 半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。
域迁移
领域迁移或者迁移学习也是一个比较火热的研究点。在生活中,我们可能已经拥有了某个领域的大量标注数据,并可以在该领域的任务上表现良好。如何利用该领域的知识来提高模型在另一个领域的性能就是迁移学习要做的事情。
Meta-Learning
Meta-learning即元学习,通常指的是在多个学习阶段改进学习算法的过程。 在一般的学习过程中, 内部(或下层/基础)学习算法解决由数据集和目标定义的任务。 在元学习过程中,外部(或上层/元)算法更新内部学习算法,使其学习的模型改进外部目标。
Auto ML
这里有一段微软文档对AutoML的介绍:
自动化机器学习也称为自动化 ML 或 AutoML,是将机器学习模型开发过程中耗时的反复性任务自动化的过程。 数据科学家、分析师和开发人员可以使用它来生成高度可缩放、高效且高产能的 ML 模型,同时保证模型的质量。
传统的机器学习模型开发是资源密集型的,需要研究者具备丰富的领域知识,并需要花费大量的时间来生成和比较数十个模型。 使用自动化机器学习可以缩减生成可行的ML模型所需的时间,将工作变得更轻松高效。
多任务学习
多任务学习试图建立一个能够解决多重任务的大一统模型,比如百度的ERNIE 2.0,T5等都是很好的例子。
集成学习
集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。比如著名的XGBoost模型就是集成学习的一个好的方法。
图网络
图机器学习用于帮助深度模型有效建模实际生活中的各种各样的结构信息,典型的方法如GCN、GraphSAGE、GAT等。
知识图谱
知识图谱也是一个重要的研究领域,它由海量的三元组知识组成,但面临的落地困难的问题。
多模态学习
多模态学习旨在学习多种模态的信息并跨模态应用,例如看图说话。
机器推理
现有的神经网络模型是一个黑盒模型,如何去进行推理解释也是一个关键的问题。
NLP研究
下面将介绍一些NLP领域的特定任务和研究方向。
预训练语言模型
预训练语言模型可以说是近几年NLP领域最重要的进展,著名的BERT就是一个预训练语言模型,它的出现大大减少了各种NLP模型的应用门槛。
文本分类
文本分类是一个古老的研究领域,典型的应用如情绪分类、主题分类等。
序列标注
序列标注用于对输入文本序列中的实体、关系等进行标注,便于实体、关系的抽取和知识图谱的构建等其他任务。
关系提取
关系提取用于提取一句话中的实体之间的关系。
Dependency Parsing
依存句法分析用于分析句子的句法结构。示例图如下:
Semantic Parsing
语义解析用于将一种形式的语言解析为另一种形式,比如现在最火热的Text-to-SQL解析。
Seq2seq
Sequence-to-Sequence是一种模型的架构,最初的Transformer就是使用这种Encoder-decoder的形式进行文本翻译。
文本生成
文本生成是一个“炫酷”的应用,他可以帮助人们自动生成各种文本。但实际应用上的效果并不是那么好。
文本推荐
文本推荐则是和推荐系统联系密切,但一个难点在于用户的兴趣不是一成不变的,会随着时间的变化而变化。
翻译
这个是最基础的应用之一,不同语言之间的翻译仍是一个研究的热点。
指代消解
指代消解是在一段文本中找出相同实体的所有表达的任务。我之前有一系列博客可以参考:Coreference Resolution学习笔记(一):简介
总结
本篇博客记录了一些AI基础的研究方向和NLP领域的研究内容,希望对您有帮助。
- GPT、GPT-2和GPT-3概览
- Text2SQL学习整理(四)将预训练语言模型引入WikiSQL任务
- MySQL-系统库讲解
- NLP实战高手课学习笔记(3):NLP基本任务及研究方向
- KBQA数据集整理(一):LC-QuAD 2.0
- 幻方萤火AI算力平台使用笔记(4):hfai workspace命令详解
- 幻方萤火AI算力平台使用笔记(3):Workspace功能浅试——Resnet-50训练示例
- 幻方萤火AI算力平台使用笔记(1):MacOS下的客户端安装与管理平台概览
- RocketMQ存储层原理
- RocketMq-批量消息和消息过滤
- RocketMQ-存储设计
- CS224N学习笔记(二)词向量和词含义
- T5模型中的位置编码
- Text-to-SQL学习整理(二十一)Tree-SQL模型
- Text-to-SQL学习整理(二十)STRUG模型
- 论文笔记:Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks
- 莫凡Pytorch教程(六):Pytorch中的mini-batch和优化器
- 莫凡Pytorch教程(五):Pytorch模型保存与提取
- Mysql-详解脏读、不可重复读、幻读
- Mysql-MVCC多版本并发控制详解