DeepMind 又放大招!用大型語言模型實現可信推理,距離模型可解釋性又近了一步

語言: CN / TW / HK

可解釋性,已經成為當今機器學習研究與開發領域最緊迫的難題之一。儘管目前的大規模語言模型(LM)已經展現出令人印象深刻的問答能力,但其固有的不透明性卻導致人們無法理解模型如何得出最終答案,因此使用者難以論證答案合理性、也不易發現答案中的潛在錯誤。

DeepMind研究團隊在最新論文《 使用大型語言模型實現可信推理 》(Faithful Reasoning Using Large Language Models)中解決了這個問題。論文提出一套前向鏈選擇推理模型,能夠執行忠實推理並提供有效的推理跟蹤,用以提高推理質量並幫助使用者檢查 / 驗證最終答案。

論文地址:

http://www.researchhub.com/paper/1272848/faithful-reasoning-using-large-language-models

如何利用因果邏輯原理提高推理質量?

為了突破機器學習可解釋性這道難關,DeepMind 研究團隊在論文中展示瞭如何通過因果結構反映問題的潛在邏輯結構,藉此過程保證語言模型忠實執行多步推理。研究團隊的方法會將多個推理步驟聯絡起來共同起效,其中各個步驟均會呼叫兩套經過微調的語言模型:其一用於選擇,其二用於推理,藉此產生有效的推理跟蹤。

該方法還會對推理軌跡空間執行定向搜尋,藉此提高推理質量。

論文中提出的方法基於這一基本思想:如果給定問題的潛在邏輯結構,可以通過因果結構來反映,則語言模型可以忠實執行多步推理。為了實現這個目標,DeepMind 團隊開發出選擇推理(SI)作為系統主幹。作為一種新穎架構,其中包含兩套經過微調的語言模型,一套用於選擇、一套用於推理。

分步前向推理主幹會將各個推理步驟拆分為兩個:

1)給定一個問題,由選擇模型首先從上下文中選擇一組語句;

2)推理模型隨後從選擇中計算一個語句,預測其含義(推理)

在推理步驟結束時,該推理會被新增至上下文內。通過迭代整個選擇與推理過程,模型即可產生推理軌跡,而最終推理將用於回答問題。

為了讓模型能夠確定何時停止推理,該團隊還引入了一個兩段式 halter。它會利用微調的語言模型來預測該模型能否在當前推理之下回答給定問題。如果模型無法以高置信度回答問題,則執行另一次選擇推理迭代;如果 halter 的輸出就是答案,則終止此過程並返回答案。假設選擇推理迴圈持續到預先指定的迭代次數,但仍未得出答案,則系統不會直接給出最佳猜測、而是返回 “未知”。

研究人員觀察到,在刪除掉模型認為無法忠實回答的問題之後,模型效能得到顯著提高。他們相信,這種方法有助於提高模型在以精確度(而非召回率)為優先的現實世界中的可信度與安全性。

實際效果

在這次實證研究中,該團隊將自己的選擇推理系統與 Proof Writer(PW)和 EntailmentBankQA(EB)資料集上的基準模型進行了比較。他們提出的模型在 PW 和 EB 上分別實現了 88.1% 和 78.1% 的最終答案准確率,大大優於基準模型。

這項工作表明 DeepMind 提出的新方法確實能在不犧牲模型效能的前提下,通過多步推理對問題做出忠實回答。雖然該研究目前只側重於給定上下文中的多步驟推理,但該團隊已經計劃在未來的工作中利用檢索進一步充實上下文資訊。

從實際效能來看,儘管存在“只能執行可信推理”的限制,該模型的實際表現仍然非常出色。考慮到如果一項技術要想安全普及、為大眾所接受,就必須能夠通過審計檢驗,此次研究可能代表語言模型正向著可解釋性邁出重要一步。

原文連結:

http://medium.com/syncedreview/deepminds-selection-inference-language-model-system-generates-humanly-interpretable-reasoning-8707817ad098

http://www.researchhub.com/paper/1272848/faithful-reasoning-using-large-language-models