DeepMind 又放大招!用大型語言模型實現可信推理,距離模型可解釋性又近了一步
可解釋性,已經成為當今機器學習研究與開發領域最緊迫的難題之一。儘管目前的大規模語言模型(LM)已經展現出令人印象深刻的問答能力,但其固有的不透明性卻導致人們無法理解模型如何得出最終答案,因此使用者難以論證答案合理性、也不易發現答案中的潛在錯誤。
DeepMind研究團隊在最新論文《 使用大型語言模型實現可信推理 》(Faithful Reasoning Using Large Language Models)中解決了這個問題。論文提出一套前向鏈選擇推理模型,能夠執行忠實推理並提供有效的推理跟蹤,用以提高推理質量並幫助使用者檢查 / 驗證最終答案。
![](http://mdimg.wxwenku.com/getimg/6b990ce30fa9193e296dd37902816f4b4d0d40624d8265d1c91d04733bd901957d1ea5aac6867db9299ca76f8d662ae6.jpg)
論文地址:
http://www.researchhub.com/paper/1272848/faithful-reasoning-using-large-language-models
如何利用因果邏輯原理提高推理質量?
為了突破機器學習可解釋性這道難關,DeepMind 研究團隊在論文中展示瞭如何通過因果結構反映問題的潛在邏輯結構,藉此過程保證語言模型忠實執行多步推理。研究團隊的方法會將多個推理步驟聯絡起來共同起效,其中各個步驟均會呼叫兩套經過微調的語言模型:其一用於選擇,其二用於推理,藉此產生有效的推理跟蹤。
該方法還會對推理軌跡空間執行定向搜尋,藉此提高推理質量。
論文中提出的方法基於這一基本思想:如果給定問題的潛在邏輯結構,可以通過因果結構來反映,則語言模型可以忠實執行多步推理。為了實現這個目標,DeepMind 團隊開發出選擇推理(SI)作為系統主幹。作為一種新穎架構,其中包含兩套經過微調的語言模型,一套用於選擇、一套用於推理。
![](http://mdimg.wxwenku.com/getimg/6b990ce30fa9193e296dd37902816f4b0df9d5ce03778b96a709f01b6543a69d3904e2f63b385a24ef481ff2f3aa2a6a.jpg)
分步前向推理主幹會將各個推理步驟拆分為兩個:
1)給定一個問題,由選擇模型首先從上下文中選擇一組語句;
2)推理模型隨後從選擇中計算一個語句,預測其含義(推理)
在推理步驟結束時,該推理會被新增至上下文內。通過迭代整個選擇與推理過程,模型即可產生推理軌跡,而最終推理將用於回答問題。
![](http://mdimg.wxwenku.com/getimg/6b990ce30fa9193e296dd37902816f4b2fd5f7d87a608d40d7d8f2e33880837d24c56160f43f874452c6f826c514d653.jpg)
為了讓模型能夠確定何時停止推理,該團隊還引入了一個兩段式 halter。它會利用微調的語言模型來預測該模型能否在當前推理之下回答給定問題。如果模型無法以高置信度回答問題,則執行另一次選擇推理迭代;如果 halter 的輸出就是答案,則終止此過程並返回答案。假設選擇推理迴圈持續到預先指定的迭代次數,但仍未得出答案,則系統不會直接給出最佳猜測、而是返回 “未知”。
研究人員觀察到,在刪除掉模型認為無法忠實回答的問題之後,模型效能得到顯著提高。他們相信,這種方法有助於提高模型在以精確度(而非召回率)為優先的現實世界中的可信度與安全性。
![](http://mdimg.wxwenku.com/getimg/ccdf080c7af7e8a10e9b88444af98393ff1296d42557c18b9325bb33d37f1847ea49dc298ae753f8fa3fba9db0b5bf53.jpg)
![](http://mdimg.wxwenku.com/getimg/ccdf080c7af7e8a10e9b88444af983936bafb19e3a51224bca02e51e8019e5d785da7df9f36a6aad58434d3d0da5be93.jpg)
實際效果
在這次實證研究中,該團隊將自己的選擇推理系統與 Proof Writer(PW)和 EntailmentBankQA(EB)資料集上的基準模型進行了比較。他們提出的模型在 PW 和 EB 上分別實現了 88.1% 和 78.1% 的最終答案准確率,大大優於基準模型。
這項工作表明 DeepMind 提出的新方法確實能在不犧牲模型效能的前提下,通過多步推理對問題做出忠實回答。雖然該研究目前只側重於給定上下文中的多步驟推理,但該團隊已經計劃在未來的工作中利用檢索進一步充實上下文資訊。
從實際效能來看,儘管存在“只能執行可信推理”的限制,該模型的實際表現仍然非常出色。考慮到如果一項技術要想安全普及、為大眾所接受,就必須能夠通過審計檢驗,此次研究可能代表語言模型正向著可解釋性邁出重要一步。
原文連結:
http://www.researchhub.com/paper/1272848/faithful-reasoning-using-large-language-models
- 那些 Go 語言發展歷史上的重大決策
- 從趨勢到挑戰,一站式解讀作業系統運維和可觀測性
- 百萬級 Topic,騰訊雲的 Apache Pulsar 穩定性實踐
- Apache Doris 在思必馳的應用優化實踐:海量語音通話資料下,實時、離線一體的數倉架構設計實踐
- 愛數正式開源認知智慧開發框架 KWeaver
- 運維智慧化的三大關鍵技術
- “抄我的還‘反捅’我一刀”,Gary Marcus 發文駁斥圖靈獎得主 Yann LeCun
- 當出海成為必選項,企業如何構建全場景全生態技術底座?
- 數智底座必備能力三:快速構建創新應用
- Docker 多階段構建實戰 (multi-stage builds)
- 工作筆記之 SELECT 語句在 SAP ABAP 中的用法總結(上)
- 經久不衰的設計定律是不要讓我思考的設計
- 不要指望下一個像 GPT 這樣的大型語言模型會民主化
- Java 近期新聞:Helidon Níma、Spring Framework、MicroProfile、MicroStream、Kotlin 和 Piranha
- 一文入門 jQuery
- C 學習 ---__libc_open 函式的原理
- 監控系統工作原理
- 甲骨文新微服務框架 Helidon Níma:使用虛擬執行緒實現高效能
- 【雲原生 | 從零開始學 Kubernetes】二、使用 kubeadm 搭建 K8S 叢集
- Elasticsearch 聚合學習之四:結果排序