谷歌LaMDA|工業級端到端預訓練對話模型
卷友們好,我是rumor。
前段時間分享過 開放域問答 的研究進展,雖然這些榜單的分數都在不斷提升,但真要提到應用的話,實驗室產品和工業級產品還是有很大差距的。我在公眾號後臺放了一個機器人,基本90%以上的同學都是兩輪內識破,雖然每單句話拿出來都還行,但放到上下文裡就顯得很突兀。
那怎麼樣才能做一個真正的、應用級別的對話系統呢?現在大模型效果這麼好,能否幫助我們告別繁瑣的pipeline,實現端到端問答呢?
看了最近谷歌放出的LaMDA方案,我覺得稍微有點那麼個意思了。
在最近兩年的谷歌大會上,都有對話技術上的迭代,前年是當場跟Google Assistant打了個電話、推出了Meena,去年是推出了LaMDA模型,展示了一段關於冥王星的知識型對話,直到最近才放出具體論文。
LaMDA: Language Models for Dialog Applications https://arxiv.org/abs/2201.08239

工業級的對話產品?
要打造實際能用的對話產品,我們的思維就要先轉換一下:
不再是我要用什麼方法解決這個問題,而是:我要解決什麼問題?
這跟我們做模型的思路是一樣的,先把objective定好,然後只要用差不多的網路結構去擬合就完了。在實際落地時更要定好這個目標,而現在的一些benchmark和對話系統,評估維度都太單一了,大部分問答裡都是準確率/F1這種,直接忽略掉機器人的人性化部分。
要往更智慧的對話系統走,首先要想清楚怎麼樣才算是「智慧的對話系統」,我們還差在哪裡 。
(翻回去看了18年小冰的論文,發現它對機器人EQ、IQ、Personality的定義也很多維度,只可惜當時的我太年輕眼裡只有複雜的模型,希望看到這篇文章的同學能意識到這個問題)
再去看谷歌的Meena和LaMDA,前面很大一部分篇幅都在講評估指標的定義,分為三個維度:
- Sensibleness, Specificity, Interestingness:是否合理、符合上下文、有創造力
- Safety:是否有風險、不公正
- Groundedness、Informativeness:在知識型問答中,是否包含真實的資訊、並引用相關連結
定義完指標後,第二步是評估一下baseline和天花板,看到差距在哪裡 ,從Meena的評估結果來看,各個機器人比起人類還是相差甚遠:

LaMDA的結果:

差這麼多怎麼辦?沒事, 最難的問題定義已經搞完了,剩下的標資料就完了!
在優化過程中,谷歌並沒有用什麼高階的技術,只是把Sensibleness、Specificity、Interestingness、Safety分別當成分類任務去標0/1,把知識問答當作生成任務讓標註同學去編輯答案,然後精調就完了。可以看到精調之後的LaMDA比純在對話資料上預訓練的PT有提升了不少。
對話+大模型+知識?
除了上面提到的指標定義外,LaMDA還可以給我們一些小啟示,就是怎麼更好地在對話任務中利用大模型。
首先是模型的選型,LaMDA用的是純自迴歸預訓練,這裡我還是有些疑惑的,因為Meena用的是Seq2Seq結構(雖然不是相同的作者),作者也沒有明說原因,但我認為模型結構的選擇還是很重要的,T5和GPT還是有些diff的。
第二點,是個比較巧妙的地方。在業界目前的對話系統中,都是跟搜尋一樣召回+排序的邏輯,這就需要兩個模型。而 LaMDA做到了單模型同時生成+排序 ,而且由於語言模型的任務形式,這個排序分數是直接在生成結果後面加prompt完成的。也就是生成完結果的最後一個字後,直接繼續預測分數,一氣呵成。
從輸入上看就是: <context> <sentinel> <response> <attribute-name> <rating>
第三點,也是LaMDA在Meena上的大改進:融入知識 。作者們為了讓大模型學會答知識類問題,設計了兩個任務:
TS, Query
經過上述兩個任務的訓練,模型就會判斷什麼時候該去查詢資料知識,並且返回整合的結果了:

總結
總結來說,LaMDA的文章雖然在技術上沒什麼新突破,但卻給我們提供了很有價值的落地方案參考:
- 首先指標一定要定義清楚,然後向著指標優化就完了
- 如何用單個大模型實現整個端到端的問答
- 純粹依靠模型記憶知識是不行的,知識型問答還需要其他系統輔助
以上就是我的收穫了,希望同學們不光只關注純技術,也多往應用方便去思考,畢竟技術的價值最終還是體現在應用上。
---
歡迎初入NLP領域的小夥伴們加入rumor建立的「 NLP卷王養成群 」一起學習,新增微信「 leerumorrr」 備註 知乎+NLP 即可,群裡的討論氛圍非常好~
---
入門路線和各任務詳解都在這裡下載啦~
- 文字匹配|雙塔的效果如何追上互動?
- DeepMind出手!多模態小樣本打敗精調
- 預訓練模型的下一步?突破Impossible Triangle
- 谷歌PaLM|推理能力大幅提升,Pathways給出的第一份答卷
- 騰訊SkillNet|NLU任務的全能網路,對Pathways架構的初步嘗試
- 谷歌LaMDA|工業級端到端預訓練對話模型
- 預訓練時代下的文字生成|模型&技巧
- 清華x商湯|統一21年的各類對比學習框架
- 開放域問答綜述|四種方案 資料集
- PromptBERT|結合Prompt 對比學習,超越SimCSE兩個多點
- 清華P-tuning v2、微軟SPoT|Prompt可以超過精調了嗎?
- 哈工大|15種NLP資料增強方法總結與對比
- 谷歌UDG|Prompt新用法,直接生成訓練資料
- Instruction Tuning|谷歌Quoc V.Le團隊提出又一精調正規化
- Sentence-T5|谷歌提出文字表示新SOTA
- Prompt正規化第二階段:引數化
- Prompt正規化的緣起|Pattern-Exploiting Training
- 業界總結|搜尋中的Query理解
- ERNIE3.0 Demo試玩,被捲到了
- 43頁預訓練模型綜述(清華、復旦、人大)