AI開始卷高考了,英語已被捲到134分??

語言: CN / TW / HK

文 | 天於刀刀

AI 真的太捲了!不但模型之間互相卷,現在直接開始和人類學生一起卷高考了!

近期,來自 CMU 兩位學者提出的重構預訓練模型(reStructured Pre-training, RST)在只有 GPT-3 十六分之一引數量的情況下,在2022年高考全國英語捲上豪取134分,碾壓 GPT-3 的同時也遠遠超出了人類學生的英語平均分,正式加冕為人工智慧第一實驗中學大模型班的第一學霸。

人家的學習成績不但是今年的表現相對出彩,還能穩定在130分上下,歷年最高分還拿到過138.5分,聽力和閱讀理解都是滿分!

從下表中可以看出 RST 在聽力、完形填空和閱讀部分碾壓了 GPT-3,並且在寫作部分和 GPT-3 相差無幾,總分平均分高出15分!

在這裡小編想安慰一下 GPT-3,咱今年考得不理想沒關係,記得回家後讓 OpenAI 買一套最新版的《五年高考三年模擬》,我們來年再卷!

可有時候氣人的是,哪怕你刷再多的題(更多的資料用於訓練),也架不住人家 RST 天生比你骨骼清奇啊(引數量少,更輕量級)!

在文章中,作者詳細地闡述了她是基於什麼思想,如何構築訓練資料,以及怎樣訓練模型結構的。

讓小編驚喜的是,作者不僅僅是介紹了 RST 模型和高考英語測試系統 Qin,同時還提出了自然語言處理技術進化假說等綜述性的結論,再搭配上其精美的手繪漫畫配圖,非常適合作為今年 NLP 前沿技術的科普文章。

接下來,讓我們通過文章[1],來探究 RST 如此優秀的原因。

在這篇文章中,作者提出了一些新方法論,新的資料集[2]和程式碼[3]資源,新的高考英語測試基準[4],和新的表情包[5]。

讓我們向作者致敬!

文中用一句話總結了自然語言處理技術的發展。

技術的迭代方向總是朝著系統開發者可以做更少的事去完成一個更好的更通用的系統。

這話說著有些拗口,但是這基本概括了自然語言處理技術的進化脈絡。

  1. 在標籤資料上的特徵工程 feature engineering(監督學習);

  2. 使用特定結構的神經網路進行訓練的結構工程 architecture engineering(預訓練-微調-無上下文);

  3. 基於上下文的無監督預訓練大模型 objective engineering(預訓練-微調-有上下文);

  4. 注重零樣本或少樣本表現的泛用預訓練大模型 prompt engineering(預訓練-提示-預測)。

基於上面的種種思想,作者提出自然語言處理下一步的發展方向應該為:

  1. 強調資料儲存和呼叫的預訓練大模型 data engineering。

作者認為,在當今 NLP 領域中預訓練大模型大行其道的時候,我們不能一股腦地堆積更大的模型和更多的資料,而需要考慮獲取模型中資料資訊的便利性。

簡單來說,預訓練大模型完成了對資料的儲存和積累(data storing),而在下游任務中我們需要呼叫模型中的資料資訊(data accessing)去解決業務。

在上圖中可以看到,作者將預訓練大模型類比為人腦和傳統的資料庫,都是資料儲存的一個媒介。

而在進行資料檢索的時候,人腦依靠的是思考,資料庫依靠的是 SQL 語言,而預訓練大模型則依靠的是 prompt。

但問題在於,同樣是機器儲存資料,我們知道使用 SQL 語言查詢資料庫的結果遠比 prompt 來的更準確、更快速和更具有可解釋性。

當前 prompt learning 的技巧並不能完全達到“所查即所得”的效果,同時不同下游任務中模型在預訓練步驟中儲存資料的方式也是不透明。

也就是說,下游任務並不知道使用何種 prompt 可以更好地從大模型中獲取想要的結果。

(prompt 工程師上大分)

那麼作者是如何解決這個問題的呢?

一言以蔽之,所有的訣竅就在模型的名字中: 重構 + 預訓練

為了最大化地利用現有的資料,作者將資料看作是由各種訊號(signal)組成的,並且需要:

  1. Identify:在資訊的海洋中定義和發現這些訊號;

  2. Restructure:將各種訊號重組為統一的格式讓模型進行預測訓練;

  3. Pre-train:選擇預訓練結構,並通過訓練的方式儲存資料;

  4. Fine-tune:使用結構化資料進一步微調以適應下游任務。

我們很少在文章中見到“訊號”這種描述,小編感覺就是一個數據對的意思。

例如(“我喜歡夕小瑤,她是一個優雅的演算法女神”;“夕小瑤”)就可看成是一個命名實體識別的訊號。

作者在文中調研了許多不同的資料集,並且給出了他們對應所包含的訊號樣本。(如下圖)

歷盡千辛萬苦獲得訊號後,下一步就是將其組合成一個統一的固定格式。

作者將訊號分為兩個主要類別: 普通訊號任務相關的訊號

普通訊號包含基礎的語言知識,泛用性強,而任務相關的訊號則有利於某些特定的下游任務。

對於普通訊號來說,通常都是一些完形填空的型別,因此輸入和輸出可以採用 互補 的方式。

例如我們現在有一個普通訊號:(夕小瑤是一個< X >的< Y >,< X >|< Y >,優雅 | 演算法女神)。

那麼我們的輸入為“夕小瑤是一個< X >的< Y >”, 輸出為“< X >優雅< Y >演算法女神< Z >”。

對於任務相關的訊號來說,我們可以使用 選擇式生成式 的方式進行重組。

例如在情感分類任務中,選擇式重組的結果為:“我喜歡夕小瑤。這句話是‘積極的’還是‘消極的’?”

而生成式重組的結果往往是:“我喜歡夕小瑤。請問這句話的情感傾向是什麼?”

作者使用特殊標記“ TEXT: ”和“ QUERY: ”來區分普通文字和目標任務。同時對於每一個訊號,作者構造了多種 prompts,使模型可以學習到多種提問的方式。

由於篇幅關係,後續的數學公式推導和附錄中大段的 prompt 構造就不再一一介紹了。

感興趣的同學可以自行檢視原文,不要被112頁的篇幅所嚇到,正文部分基本到38頁左右就結束了。

小編刀刀在閱讀完全文後,感觸最深的就是作者大膽地提出了對第五正規化的猜想,基於當前流行的 prompt 思想,進一步想到了重構資料集,最終以達到 prompt in prompt out 的類似 SQL 查詢的效果。

不論作者的猜想是否被最終印證,我想說當前業界的共識就是資料代表了一切,同時資料也是模型最大的提分點。

文中還曾提到,作者希望該英語測試系統可以幫助老師批改作業,指導學生學習進步,甚至可以在最後實現教育公平的目的。

在這個場景下,對於模型的可解釋性其實有著較高的要求。

或許我們可以從 prompt 的不同構築中,來進一步提高模型的表現。

但是很多情況下,深度學習模型很難做到保證一個穩定的、高水平的和可解釋的輸出結果。

小編期待能看到,之後作者就該模型的可解釋性設計更多的實驗(例如不同的 prompt 是否會有不同結果?),或者是真的設計一個模擬實驗,來模擬評判人工智慧是否真的能夠輔助學生和老師的英語學習。

彩蛋小劇場:

(交稿了)

刀刀:寫完啦,順便想探討下第五正規化真的會是 data engineering 麼 orz

刀刀:(typing)我覺得在 NLP 裡資料不是一直很重要麼,之前...

小瑤:第五正規化不是降本增效嗎(歪頭)

刀刀:(刪除刪除) 

刀刀:夕總說的對啊!

賣萌屋作者:天於刀刀

注重 WLB 的工業界反捲鬥士,未進化的 NLP 鹹魚一條。專注於研究在各個場景中演算法模型的落地情況,希望自己編寫的演算法有朝一日可以改變世界。目前的興趣點在於:假新聞檢測、深度學習模型可解釋性等。

作品推薦

1. 騰訊薪酬改革來了!晉升≠加薪?員工到底為何工作?

2. 從 Google AI 離職了,這裡讓我愛不起來

3. 百萬懸賞!尋找“模型越大,效果越差”的奇葩任務!

4. 想通這點,治好 AI 打工人的精神內耗

後臺回覆關鍵詞【 入群

加入賣萌屋NLP、CV、搜廣推與求職討論群

[1] reStructured Pre-training, http://arxiv.org/abs/2206.11147

[2] reStructured-Pretraining, http://github.com/ExpressAI/reStructured-Pretraining

[3] rst-all-llb, http://huggingface.co/XLab/rst-all-llb

[4] Explainable Leaderboards (GaoKao), http://explainaboard.inspiredco.ai/benchmark?id=gaokao

[5] XLab emoji, http://expressai.co/peripherals/emoji-zh.html