今年高考英語 AI 得分 134,復旦武大校友這項研究有點意思

語言: CN / TW / HK

在挑戰寫語文作文後,AI 現在又盯上了高考英語。

結果好傢伙,今年高考英語卷(全國甲卷)一上手,就拿了 134 分。

而且不是偶然的超常發揮。

在 2018-2021 年的 10 套真題測試中, AI 的分數都在 125 分以上,最高紀錄為 138.5 分 ,聽力和閱讀理解還拿過滿分。

這就是由 CMU 學者提出的, 高考英語測試 AI 系統 Qin

它的引數量只有 GPT-3 的 16 分之一, 平均成績卻比 GPT-3 高出 15 分

其背後的祕訣名叫重構預訓練 (reStructured Pre-training),是作者提出的一種新學習正規化。

具體來看, 就是把維基百科、YouTube 等平臺的資訊重新提取重構 ,再餵給 AI 進行訓練,由此讓 AI 具有更強的泛化能力。

兩位學者用足足 100 多頁的論文,深入解釋了這一新正規化。

那麼,這一正規化到底講了什麼?

我們來深扒一下~

什麼是重構預訓練?

論文題目很簡單,就叫 reStructured Pre-training(重構預訓練,RST)。

核心觀點凝練來說就是一句話,要重視資料啊!

作者認為,這個世界上有價值的資訊無處不在,而目前的 AI 系統並沒有充分利用資料中的資訊。

比如像維基百科,Github,裡面包含了各種可以供模型學習的訊號:實體,關係,文字摘要,文字主題等。這些訊號之前由於技術瓶頸都沒有被考慮。

所以,作者在本文中提出了一種方法, 可以用神經網路統一地儲存和訪問包含各種型別資訊的資料

他們以訊號為單位、結構化地表示資料,這很類似於資料科學裡我們常常將資料構造成表或 JSON 格式,然後通過專門的語言(如 SQL)來檢索所需的資訊。

具體來看,這裡的訊號,其實就是指資料中的有用資訊。

比如在“莫扎特生於薩爾茨堡”這句話中, “莫扎特”、“薩爾茨堡”就是訊號

然後,就需要在各種平臺上挖掘資料、提取訊號,作者把這個過程比作了從礦山裡尋寶。

接下來,利用 prompt 方法,就能將這些來自不同地方的訊號統一成一種形式。

最後,再將這些重組的資料整合並存儲到語言模型中。

這樣一來,該研究就能從 10 個數據源中,統一 26 種不同型別的訊號,讓模型獲得很強的泛化能力。

結果表明,在多個數據集中,RST-T、RST-A 零樣本學習的表現, 都優於 GPT-3 的少樣本學習效能

而為了更進一步測試新方法的表現, 作者還想到了讓 AI 做高考題的方法

他們表示,現在很多工作方法走的都是漢化 GPT-3 的思路,在評估的應用場景上也是跟隨 OpenAI、DeepMind。

比如 GLUE 測評基準、蛋白質摺疊評分等。

基於對當下 AI 模型發展的觀察,作者認為可以開闢出一條新的賽道試試,所以就想到了用高考給 AI 練練手。

他們找來了前後幾年共 10 套試卷進行標註,請高中老師來進行打分。

像聽力 / 識圖理解這樣的題目,還找來機器視覺、語音識別領域的學者幫忙。

最終,煉出了這套高考英語 AI 模型,也可以叫她為 Qin。

從測試結果可以看到, Qin 絕對是學霸級別了,10 套卷子成績都高於 T0pp 和 GPT-3

此外,作者還提出了高考 benchmark。

他們覺得當下很多評價基準的任務都很單一,大多沒有實用價值,和人類情況對比也比較困難。

而高考題目既涵蓋了各種各樣的知識點,還直接有人類分數來做比對,可以說是一箭雙鵰了。

NLP 的第五正規化?

如果從更深層次來看,作者認為, 重構預訓練或許會成為 NLP 的一種新正規化 ,即把預訓練 / 微調過程視為資料儲存 / 訪問過程。

此前,作者將 NLP 的發展總結成了 4 種正規化:

  • P1. 非神經網路時代的完全監督學習 (Fully Supervised Learning, Non-Neural Network)

  • P2. 基於神經網路的完全監督學習 (Fully Supervised Learning, Neural Network)

  • P3. 預訓練,精調正規化 (Pre-train, Fine-tune)

  • P4. 預訓練,提示,預測正規化(Pre-train, Prompt, Predict)

但是基於當下對 NLP 發展的觀察,他們認為或許之後可以以一種 data-centric 的方式來看待問題。

也就是,預訓 / 精調、few-shot / zero-shot 等概念的差異化會更加模糊,核心只關注一個點 ——

有價值的資訊有多少、能利用多少。

此外,他們還提出了一個 NLP 進化假說。

其中的核心思想是,技術發展方向總是順著這樣的 —— 做更少的事實現更好、更通用的系統。

作者認為,NLP 經歷了特徵工程、架構工程、目標工程、提示工程,當下正在朝著資料工程方向發展。

復旦武大校友打造

本篇論文的一作為 Weizhe Yuan。

她本科畢業於武漢大學,後赴卡內基梅隆大學讀研,學習資料科學專業。

研究方向集中在 NLP 任務的文字生成和評估。

去年,她被 AAAI 2022、NeurIPS 2021 分別接收了一篇論文,還獲得了 ACL 2021 Best Demo Paper Award。

論文的通訊作者為卡內基梅隆大學語言技術研究所(LTI)的博士後研究員劉鵬飛。

他於 2019 年在復旦大學計算機係獲得博士學位,師從邱錫鵬教授、黃萱菁教授。

研究興趣包括 NLP 模型可解釋性、遷移學習、任務學習等。

博士期間,他包攬了各種計算機領域的獎學金,包括 IBM 博士獎學金、微軟學者獎學金、騰訊人工智慧獎學金、百度獎學金。

One More Thing

值得一提的是,劉鵬飛在和我們介紹這項工作時,直言“最初我們就沒打算拿去投稿”。

這是因為他們 不想讓會議論文的格式限制了構思論文的想象力

我們決定把這篇論文當作一個故事來講,並給“讀者”一種看電影的體驗。

這也是為什麼我們在第三頁,設定了一個“觀影模式“的全景圖。

就是為了帶著大家去了解 NLP 發展的歷史,以及我們所展望的未來是怎樣的,讓每一個研究者都能有一定的代入感,感受到自己去帶領著預訓練語言模型們 (PLMs) 通過礦山尋寶走向更好明天的一個過程。

論文結尾,還藏了一些驚喜彩蛋。

比如 PLMs 主題表情包:

還有結尾的插畫:

這麼看,100 多頁的論文讀起來也不會累了~

論文地址:

https://arxiv.org/abs/2206.11147

「其他文章」