NLP實戰高手課學習筆記(3):NLP基本任務及研究方向
攜手創作,共同成長!這是我參與「掘金日新計劃 · 8 月更文挑戰」的第27天,點選檢視活動詳情
說明
本系列部落格將記錄自己學習的課程:NLP實戰高手課,連結為:time.geekbang.org/course/intr… 本篇為最開始05節的課程筆記,主要介紹了NLP基本任務及研究方向
NLP的基本任務和研究方向
這裡,導師將整個NLP相關的研究和任務分為以下三大類: - 基礎性研究 - 專屬於NLP領域的研究 - 交叉領域的研究
基礎性研究
網路架構
網路架構主要研究深度學習中各種神經網路的結構,如CNN、RNN、LSTM、Transformer等,如下圖即為經典的Transformer模型。
優化理論
過去,由於算力限制,神經網路模型都很淺,因而比較好優化。但最近幾年,隨著算力的發展,模型的深度和引數(比如T5-3B模型有著超過30億個引數)呈現爆炸式增長,因而如何進行優化成為了一個關鍵問題。
優化理論主要關注如下兩個方面: - 優化演算法的收斂性; - 優化演算法的速度(對算力的消耗)。
對抗訓練
一般而言,當資料標註非常有效時,訓練效果會很好。但是,當模型在遇到噪聲資料時,效能會顯著下降。比如,我們的模型都是使用一些非常標準的資料進行訓練,訓練時模型只見過“政府”這個詞彙,但在使用者輸入時,有時可能會輸入進不規範的詞語,比如:“正府”,這些詞語很多是由於輸入法的誤選擇導致,但是模型面對這樣的噪聲資料集時,效能將會下降。 而對抗學習 則是為了解決這一問題。
資料增強
資料增強可以通俗的理解為使用人工構造一些資料,而不是請人標註。這種自動生成的資料集實際上存在“分佈漂移”的風險(見上一篇部落格)。如何使用這些增強資料來提升效能也是重要的研究點。
半監督學習
由於標註資料的代價很高,半監督學習試圖利用充分利用無標籤資料和有標籤資料進行混合訓練。百科上對其介紹如下:
半監督學習(Semi-Supervised Learning,SSL)是模式識別和機器學習領域研究的重點問題,是監督學習與無監督學習相結合的一種學習方法。 半監督學習使用大量的未標記資料,以及同時使用標記資料,來進行模式識別工作。
域遷移
領域遷移或者遷移學習也是一個比較火熱的研究點。在生活中,我們可能已經擁有了某個領域的大量標註資料,並可以在該領域的任務上表現良好。如何利用該領域的知識來提高模型在另一個領域的效能就是遷移學習要做的事情。
Meta-Learning
Meta-learning即元學習,通常指的是在多個學習階段改進學習演算法的過程。 在一般的學習過程中, 內部(或下層/基礎)學習演算法解決由資料集和目標定義的任務。 在元學習過程中,外部(或上層/元)演算法更新內部學習演算法,使其學習的模型改進外部目標。
Auto ML
這裡有一段微軟文件對AutoML的介紹:
自動化機器學習也稱為自動化 ML 或 AutoML,是將機器學習模型開發過程中耗時的反覆性任務自動化的過程。 資料科學家、分析師和開發人員可以使用它來生成高度可縮放、高效且高產能的 ML 模型,同時保證模型的質量。
傳統的機器學習模型開發是資源密集型的,需要研究者具備豐富的領域知識,並需要花費大量的時間來生成和比較數十個模型。 使用自動化機器學習可以縮減生成可行的ML模型所需的時間,將工作變得更輕鬆高效。
多工學習
多工學習試圖建立一個能夠解決多重任務的大一統模型,比如百度的ERNIE 2.0,T5等都是很好的例子。
整合學習
整合學習是使用一系列學習器進行學習,並使用某種規則把各個學習結果進行整合從而獲得比單個學習器更好的學習效果的一種機器學習方法。比如著名的XGBoost模型就是整合學習的一個好的方法。
圖網路
圖機器學習用於幫助深度模型有效建模實際生活中的各種各樣的結構資訊,典型的方法如GCN、GraphSAGE、GAT等。
知識圖譜
知識圖譜也是一個重要的研究領域,它由海量的三元組知識組成,但面臨的落地困難的問題。
多模態學習
多模態學習旨在學習多種模態的資訊並跨模態應用,例如看圖說話。
機器推理
現有的神經網路模型是一個黑盒模型,如何去進行推理解釋也是一個關鍵的問題。
NLP研究
下面將介紹一些NLP領域的特定任務和研究方向。
預訓練語言模型
預訓練語言模型可以說是近幾年NLP領域最重要的進展,著名的BERT就是一個預訓練語言模型,它的出現大大減少了各種NLP模型的應用門檻。
文字分類
文字分類是一個古老的研究領域,典型的應用如情緒分類、主題分類等。
序列標註
序列標註用於對輸入文字序列中的實體、關係等進行標註,便於實體、關係的抽取和知識圖譜的構建等其他任務。
關係提取
關係提取用於提取一句話中的實體之間的關係。
Dependency Parsing
依存句法分析用於分析句子的句法結構。示例圖如下:
Semantic Parsing
語義解析用於將一種形式的語言解析為另一種形式,比如現在最火熱的Text-to-SQL解析。
Seq2seq
Sequence-to-Sequence是一種模型的架構,最初的Transformer就是使用這種Encoder-decoder的形式進行文字翻譯。
文字生成
文字生成是一個“炫酷”的應用,他可以幫助人們自動生成各種文字。但實際應用上的效果並不是那麼好。
文字推薦
文字推薦則是和推薦系統聯絡密切,但一個難點在於使用者的興趣不是一成不變的,會隨著時間的變化而變化。
翻譯
這個是最基礎的應用之一,不同語言之間的翻譯仍是一個研究的熱點。
指代消解
指代消解是在一段文字中找出相同實體的所有表達的任務。我之前有一系列部落格可以參考:Coreference Resolution學習筆記(一):簡介
總結
本篇部落格記錄了一些AI基礎的研究方向和NLP領域的研究內容,希望對您有幫助。
- GPT、GPT-2和GPT-3概覽
- Text2SQL學習整理(四)將預訓練語言模型引入WikiSQL任務
- MySQL-系統庫講解
- NLP實戰高手課學習筆記(3):NLP基本任務及研究方向
- KBQA資料集整理(一):LC-QuAD 2.0
- 幻方螢火AI算力平臺使用筆記(4):hfai workspace命令詳解
- 幻方螢火AI算力平臺使用筆記(3):Workspace功能淺試——Resnet-50訓練示例
- 幻方螢火AI算力平臺使用筆記(1):MacOS下的客戶端安裝與管理平臺概覽
- RocketMQ儲存層原理
- RocketMq-批量訊息和訊息過濾
- RocketMQ-儲存設計
- CS224N學習筆記(二)詞向量和詞含義
- T5模型中的位置編碼
- Text-to-SQL學習整理(二十一)Tree-SQL模型
- Text-to-SQL學習整理(二十)STRUG模型
- 論文筆記:Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks
- 莫凡Pytorch教程(六):Pytorch中的mini-batch和優化器
- 莫凡Pytorch教程(五):Pytorch模型儲存與提取
- Mysql-詳解髒讀、不可重複讀、幻讀
- Mysql-MVCC多版本併發控制詳解