NLP實戰高手課學習筆記(3):NLP基本任務及研究方向

語言: CN / TW / HK

攜手創作,共同成長!這是我參與「掘金日新計劃 · 8 月更文挑戰」的第27天,點擊查看活動詳情

説明

本系列博客將記錄自己學習的課程:NLP實戰高手課,鏈接為:time.geekbang.org/course/intr… 本篇為最開始05節的課程筆記,主要介紹了NLP基本任務及研究方向

NLP的基本任務和研究方向

這裏,導師將整個NLP相關的研究和任務分為以下三大類: - 基礎性研究 - 專屬於NLP領域的研究 - 交叉領域的研究

基礎性研究

網絡架構

網絡架構主要研究深度學習中各種神經網絡的結構,如CNN、RNN、LSTM、Transformer等,如下圖即為經典的Transformer模型。

image.png

優化理論

過去,由於算力限制,神經網絡模型都很淺,因而比較好優化。但最近幾年,隨着算力的發展,模型的深度和參數(比如T5-3B模型有着超過30億個參數)呈現爆炸式增長,因而如何進行優化成為了一個關鍵問題。

優化理論主要關注如下兩個方面: - 優化算法的收斂性; - 優化算法的速度(對算力的消耗)。

對抗訓練

一般而言,當數據標註非常有效時,訓練效果會很好。但是,當模型在遇到噪聲數據時,性能會顯著下降。比如,我們的模型都是使用一些非常標準的數據進行訓練,訓練時模型只見過“政府”這個詞彙,但在用户輸入時,有時可能會輸入進不規範的詞語,比如:“正府”,這些詞語很多是由於輸入法的誤選擇導致,但是模型面對這樣的噪聲數據集時,性能將會下降。 而對抗學習 則是為了解決這一問題。

數據增強

數據增強可以通俗的理解為使用人工構造一些數據,而不是請人標註。這種自動生成的數據集實際上存在“分佈漂移”的風險(見上一篇博客)。如何使用這些增強數據來提升性能也是重要的研究點。

半監督學習

由於標註數據的代價很高,半監督學習試圖利用充分利用無標籤數據和有標籤數據進行混合訓練。百科上對其介紹如下:

半監督學習(Semi-Supervised Learning,SSL)是模式識別和機器學習領域研究的重點問題,是監督學習與無監督學習相結合的一種學習方法。 半監督學習使用大量的未標記數據,以及同時使用標記數據,來進行模式識別工作。

域遷移

領域遷移或者遷移學習也是一個比較火熱的研究點。在生活中,我們可能已經擁有了某個領域的大量標註數據,並可以在該領域的任務上表現良好。如何利用該領域的知識來提高模型在另一個領域的性能就是遷移學習要做的事情。

image.png

Meta-Learning

Meta-learning即元學習,通常指的是在多個學習階段改進學習算法的過程。 在一般的學習過程中, 內部(或下層/基礎)學習算法解決由數據集和目標定義的任務。 在元學習過程中,外部(或上層/元)算法更新內部學習算法,使其學習的模型改進外部目標。

Auto ML

這裏有一段微軟文檔對AutoML的介紹:

自動化機器學習也稱為自動化 ML 或 AutoML,是將機器學習模型開發過程中耗時的反覆性任務自動化的過程。 數據科學家、分析師和開發人員可以使用它來生成高度可縮放、高效且高產能的 ML 模型,同時保證模型的質量。

傳統的機器學習模型開發是資源密集型的,需要研究者具備豐富的領域知識,並需要花費大量的時間來生成和比較數十個模型。 使用自動化機器學習可以縮減生成可行的ML模型所需的時間,將工作變得更輕鬆高效。

多任務學習

多任務學習試圖建立一個能夠解決多重任務的大一統模型,比如百度的ERNIE 2.0,T5等都是很好的例子。

image.png

集成學習

集成學習是使用一系列學習器進行學習,並使用某種規則把各個學習結果進行整合從而獲得比單個學習器更好的學習效果的一種機器學習方法。比如著名的XGBoost模型就是集成學習的一個好的方法。

圖網絡

圖機器學習用於幫助深度模型有效建模實際生活中的各種各樣的結構信息,典型的方法如GCN、GraphSAGE、GAT等。

知識圖譜

知識圖譜也是一個重要的研究領域,它由海量的三元組知識組成,但面臨的落地困難的問題。

多模態學習

多模態學習旨在學習多種模態的信息並跨模態應用,例如看圖説話。

image.png

機器推理

現有的神經網絡模型是一個黑盒模型,如何去進行推理解釋也是一個關鍵的問題。

NLP研究

下面將介紹一些NLP領域的特定任務和研究方向。

預訓練語言模型

預訓練語言模型可以説是近幾年NLP領域最重要的進展,著名的BERT就是一個預訓練語言模型,它的出現大大減少了各種NLP模型的應用門檻。

文本分類

文本分類是一個古老的研究領域,典型的應用如情緒分類、主題分類等。

序列標註

序列標註用於對輸入文本序列中的實體、關係等進行標註,便於實體、關係的抽取和知識圖譜的構建等其他任務。

image.png

關係提取

關係提取用於提取一句話中的實體之間的關係。

Dependency Parsing

依存句法分析用於分析句子的句法結構。示例圖如下:

image.png

Semantic Parsing

語義解析用於將一種形式的語言解析為另一種形式,比如現在最火熱的Text-to-SQL解析。

Seq2seq

Sequence-to-Sequence是一種模型的架構,最初的Transformer就是使用這種Encoder-decoder的形式進行文本翻譯。

文本生成

文本生成是一個“炫酷”的應用,他可以幫助人們自動生成各種文本。但實際應用上的效果並不是那麼好。

image.png

文本推薦

文本推薦則是和推薦系統聯繫密切,但一個難點在於用户的興趣不是一成不變的,會隨着時間的變化而變化。

翻譯

這個是最基礎的應用之一,不同語言之間的翻譯仍是一個研究的熱點。

指代消解

指代消解是在一段文本中找出相同實體的所有表達的任務。我之前有一系列博客可以參考:Coreference Resolution學習筆記(一):簡介

總結

本篇博客記錄了一些AI基礎的研究方向和NLP領域的研究內容,希望對您有幫助。