Generation-Augmented Retrieval for OpenQA

語言: CN / TW / HK

論文:Generation-Augmented Retrieval for Open-domain Question Answering https:// arxiv.org/abs/2009.0855 3

程式碼: https:// github.com/morningmoni/ GAR

來源:ACL 2021

Abstract

本文針對開放域問答任務(OpenQA)提出 生成增強檢索方法(Generation-Augmented Retrieval, GAR) ,在 沒有額外資源 的情況下,通過 生成啟發式的上下文來增強查詢 。生成的上下文極大程度上豐富了查詢的語義,使用GAR的稀疏檢索(BM25)可達到與目前最佳的稠密檢索(DPR)相當或更好的效能,且與DPR結合可獲得更好的效能。使用抽取式閱讀器時,GAR在Natural Questions和TriviaQA資料集上取得了當前OpenQA的SOTA。

Introduction

檢索-閱讀(retriever-reader)是OpenQA的基本架構,檢索器發揮著重要作用並決定了閱讀器的效能上限。早期OpenQA系統使用經典的 稀疏檢索 方法,如TF-IDF和BM25,這種方法輕量高效,但不能執行語義匹配,在沒有詞彙重疊的情況下無法檢索到相關段落。近期提出的 稠密檢索 可以衡量語義相似性,通常比稀疏檢索表現更好,然而其計算成本更高,將文字編碼為固定維度的向量也會帶來資訊損失。

本文提出GAR,通過利用基於預訓練語言模型(PLM)的文字生成來增強查詢。例如,引導PLM根據給定查詢生成其相關段落的題目並將生成的題目拼接到查詢之後,檢索到相關段落就會變得容易許多。生成的上下文可以顯式地表達原始查詢中沒有的搜尋意圖,因此 GAR彌補了稀疏檢索的語義缺陷,相比於稠密檢索在訓練和推理方面更加輕量和高效 。除相關段落的題目外,論文還嘗試了將答案、包括答案的句子作為相關上下文。大量實驗證明了GAR的有效性。

Related Work

Conventional Query Expansion

GAR與基於偽相關反饋的傳統查詢擴充套件均不使用額外的監督來擴充套件查詢。GAR的優勢在於,它使用儲存在PLM中的知識(而不是檢索到的段落)來擴充套件查詢。

Recent Query Reformulation

近期針對其他檢索任務的一些研究聚焦於基於文字生成的查詢改寫,然而這些方法需要特定領域的資料或額外資源(如複述資料),不能很好地應用於OpenQA。此外,一些相關工作依賴於耗時的訓練過程(如強化學習),對OpenQA來說不夠有效。與查詢改寫不同,GAR不需要額外資源或強化學習的下游反饋作為監督,其通過生成啟發式的相關上下文來擴充套件(而不是改寫)查詢。

Generative QA

生成式QA通過seq2seq學習生成答案,而不是提取答案範圍,主要用於改善OpenQA的閱讀階段。與生成式QA不同,GAR的目標不是生成問題的準確答案,而是生成有助於檢索的相關上下文。GAR進一步證實,人們可以從PLM中提取事實性知識,這不僅限於先前研究的答案,還包括其他相關上下文。

Generation-Augmented Retrieval

論文通過生成啟發式的上下文並將其拼接在查詢後來提升檢索效能, 考慮的生成目標 有:

  • 答案:問題的答案對於檢索包括答案的相關段落顯然是有用的,一些closed- book QA的研究表明將問題作為輸入PLM可以直接進行回答。GAR將答案作為相關上下文用於檢索的好處是即使生成的答案部分正確(甚至不正確),只要它們與包含正確答案的段落相關(例如,與正確答案同時出現),它們仍然可以被檢索。
  • 包含答案的句子:即使生成的句子不包含答案對檢索相關段落也是有幫助的,因為它們的語義與問題/答案高度相關。
  • 包含答案的段落題目:包含答案段落的頁面標題通常是使用者感興趣的實體,有時甚至是問題的答案,因此由生成標題增強的查詢有更大的機率檢索到相關段落。

由於文字生成中的幻覺現象,生成的查詢上下文可能會包含一些非事實資訊並在檢索中引入噪聲,但整體來說其帶來的收益更大。此外,本文生成三種相關上下文並將對應的檢索結果進行融合,進一步緩解了幻覺現象帶來的影響。

增強查詢後,我們可以使用任意現有的檢索器進行段落檢索,本文使用了簡單的BM25,達到了比稠密檢索相當或更好的效能,同時保持了輕量和高效的特點。

OpenQA with GAR

為進一步驗證GAR的有效性,論文將其與抽取式和生成式的閱讀器結合實現端到端的QA評估。抽取式閱讀器使用BERT來實現,並採用段落級別片段投票策略進一步提升效能。生成式閱讀器使用BART實現,將問題與檢索到的段落拼接直到達到長度限制(平均7.8個段落)作為輸入來生成答案。

Experiments

資料集:Natural Questions (NQ)、TriviaQA (Trivia)

Query Context Generation

自動指標表明GAR確實會生成對檢索階段有幫助的有意義的上下文。作者進一步評估了查詢與相關段落之間的詞彙重疊程度,ROUGE-1/2/L F1分數分別為6.00/2.36/5.01,查詢增強後NQ資料集上的相應指標變為7.05/2.84/5.62 (answer), 13.21/6.99/10.27 (sentence), 7.13/2.85/5.76 (title),進一步驗證了生成的查詢上下文可以顯著地提高查詢與相關段落之間的詞彙重疊,從而可以促進檢索。

可以發現即使生成的答案錯誤,生成包括答案的句子和其他相關資訊與標題也與問題高度相關,這表明不同的查詢上下文可以相互補充,生成過程中的噪聲影響會被減弱。

Generation-Augmented Retrieval

Passage Reading with GAR

Efficiency of GAR

Conclusion

本文提出GAR並證明在沒有額外監督的情況下由PLM生成啟發式的相關上下文可以豐富查詢語義並提高檢索效能。使用稀疏檢索的GAR可以達到稠密檢索的效能,且與稠密檢索結合可實現更好的結果。此外,GAR在抽取式OpenQA中可達到目前的sota,在生成式設定下同樣具有可競爭的效能。

本文通過PLM來改善查詢的稀疏表示,使其與相關段落有更多的詞彙重疊從而降低檢索難度。但根據查詢生成相關上下文是在線上進行的,論文裡提到“GAR takes about 1 min to generate one query context with 1 GPU”, 對於問答系統來說會帶來較嚴重的延時

不妨思考通過線上下改善段落的稀疏表示來提升檢索, doc2query 模型利用問題生成模型擴充套件文件,從而間接改變文件的詞權重。但query具有較高的多樣性,模型根據文件生成的query並不一定會與真實的使用者查詢具有較高的詞彙重疊。與之相比,GAR利用PLM儲存知識,根據qurey生成相關上下文(如答案)相對確定,對檢索帶來的幫助也會更大。