Few-Shot Conversational Dense Retrieval

語言: CN / TW / HK

Source: SIGIR2021; Few-Shot Conversational Dense Retrieval

Code: ConvDR

Abstract:

Dense Retrieval(DR)可以通過在學習到的embedding空間中進行匹配來解決會話搜尋中的查詢理解問題。然而, DR模型對監督訊號的額外需求以及會話搜尋的長尾效應存在 ,使得這種適應非常具有挑戰性。

本文提出一個會話密集檢索系統ConvDR, 學習上下文的embedding用於多輪會話查詢,並且只使用嵌入點積進行文件檢索 。此外, 使用一個teacher-student框架賦予模型少樣本學習(few-shot)的能力 ,在該框架中,使用一個hoc DR作為teacher,學習了一個student查詢編碼器來模仿嵌入在Oracle重建的query中的teacher embedding,然後繼承了文件編碼。

實驗證明了模型在 少樣本學習和全監督設定 下的有效性。它優於以往的在稀疏詞空間中操作的系統,與手動Oracle 查詢重建的檢索精度相匹配,並且因為其簡單性而更加高效。分析表明,該模型的優勢在於它 能夠捕捉有資訊的上下文忽視在前幾輪對話中不相關的上下文 。這使得ConvDR更加有效,因為對話在不斷的發展,而其他研究模型可能會被之前回閤中增加的噪聲所幹擾。

Intro:

多輪會話查詢 在會話搜尋中產生了一個獨特的挑戰。人類的對話是上下文化的、簡潔的,並且假定有先驗知識。會話式搜尋通常意味著有省略、引用和歧義的來自之前會話回合的上下文,這使搜尋系統更難理解潛在的資訊需求。會話查詢中存在著查詢理解和詞彙不匹配問題。

從根本上解決會話搜尋中的 查詢理解和詞彙不匹配問題 的一個解決方案是利用 密集檢索技術 。如圖1所示,會話式密集檢索系統首先將使用者的每個會話查詢編碼為一個embedding,然後直接與學習到的嵌入空間中的文件匹配(做點積運算)。會話搜尋的目的是從會話上下文中模擬使用者的資訊需求。

但是在實踐中, 密集檢索的極端資料短缺與會話檢索的長尾分佈之間有著尖銳矛盾存在 。在ad hoc search中,與其他的資訊檢索方法相比,密集檢索需要更多的相關標籤、更多的微調迭代、更復雜的微調策略。但是,會話檢索可能並不能在hoc檢索中擁有大規模相關性監督資料。每個會話檢索序列都是長尾的並且沒有足夠的訓練訊號來完全監督當前的密集檢索模型。

本文,作者採用一種 用於會話密集檢索的少樣本學習的方法ConvDR 來解決這些差異。首先,作者發現瓶頸問題依然在於 查詢表示 上,而文件可以繼承在ad hoc搜尋中學習到的相同的稠密表示(它們的資訊是相同的)。針對此問題,作者開發了一個teacher-student框架來訓練一個student 會話查詢編碼器 來模仿來自teacher的Oracle查詢重寫的表示,這是一個ad hoc 密集檢索模型。同時,將知識蒸餾(KD)與多工學習中的標準排序損失結合,提高ConvDR的少樣本學習能力。

在TREC CAsT基準上進行的實驗結果表明,ConvDR表現出了很強的會話搜尋優勢,它在檢索精度上比之前的基於查詢重寫的SOTA模型分別高出9%、48%,甚至比CAsT19上的人工問題重新構造的精度還要高。此外,作者在QR-QuAC上進行了實驗,結果表明,本文采用的知識蒸餾也有利於全監督的ConvDR模型,並幫助我們的模型效能相比之前的SOTA準確度幾乎翻了一倍。

研究發現,與稀疏空間中的問題重構相比,本文通過會話式問題編碼器得到的embedding能夠更好地模擬Oracle teacher,捕捉之前回閤中的上下文。去除額外的查詢重構步驟,直接在密集空間中操作這樣不僅簡化了模型結構,並且改善了線上延時(因為不需要進行高成本的問題生成)。

此外,作者進行了一系列的分析來理解ConvDR的有效性。作者發現ConvDR相比使用查詢重寫的模型可以 高效並穩定地在之前的會話中捕捉到重要且資訊豐富的上下文 。這種處理資訊量豐富、干擾多的上下文資訊的能力確保了ConvDR在整個會話過程中保持其檢索質量,而其他的自動檢索方法可能會在該過程中受到干擾而混淆。

Related Work:

TREC CAsT為會話搜尋構建了一個評估基準,其任務為 在對話中為每輪查詢檢索相關的段落 。其中一個使用者的資訊需求通過多輪的對話查詢來呈現。其中的query是人工編造的,用來模仿語音搜尋場景中的使用者行為(去掉了語音識別部分)。最近在該基準上的研究表明,主要問題在 查詢 上;其中的文件排序可以大部分繼承在ad hoc搜尋中的技術。但是準確的會話查詢需要新的技術來解決其 上下文依賴關係和詞彙表不匹配 的問題。最近針對該問題的解決方法多是將會話 查詢重構 為去上下文化的、完全成熟的ad hoc queries,重構後的query其中可以包含表示使用者需求的所有必要資訊,之後 使用ad hoc檢索就重構的query進行檢索

查詢重構可以通過 查詢擴充套件 來完成,即使用一定的規則或監督分類器,在前面的回合中選擇上下文資訊新增到當前查詢的詞袋錶示中。還可以通過 查詢重寫 來完成,利用自然語言生成模型直接將會話查詢重寫為去上下文的查詢。TREC CAsT2019中表現最好的系統之一,其將之前和當前的查詢輸入進GPT-2,然後生成完全成熟的ad hoc queries。本文作者在其之前的論文中使用合成的弱監督資料進一步微調了GPT-2,提高了在少樣本環境下查詢重寫的精度。

以上解決方案旨在 將會話查詢重構為稀疏詞袋空間中的ad hoc query,然後再利用稀疏檢索模型如BM25、BERT reranker這些來進行檢索 。在這樣的設計下,因為額外的查詢重構環節增加了錯誤來源,因此在這些會話檢索系統中的 詞彙不匹配問題更為嚴重 。而且,從經驗上來看,使用自動查詢重構的方法與使用手動Oracle查詢重寫的方法之間存在著顯著的差異。

最近,密集檢索在各種ad hoc搜尋和開放域問答上顯示出了很強的效能。與稀疏詞表示不同,密集檢索使用了預訓練模型,比如BERT,將查詢和文件編碼到嵌入中,並單純地只在密集空間中進行檢索。經過微調,密集檢索方法如DPR、ME-BERT和ANCE等其檢索效果都顯著優於稀疏檢索。此外,學習一個有效的密集表示空間需要更多的相關標籤,但是注意到很少有研究關注到 密集檢索在少樣本情境中的有效性

通過使用QuAC會話QA資料集,有研究者構建了一個會話搜尋任務OR-QuAC,在該任務中其使用多來源問題作為查詢,證據段落作為檢索目標。OR-QuAC的合成性質導致了對話的所有相關段落都位於維基百科文件的同一部分,這與實際情景中的表現不符。但是,OR-QuAC提供了大量的合成標籤,可以展示 完全監督密集檢索在會話搜尋中的優勢

Methodology:

·會話式搜尋:

該任務是在一個多輪會話Q={ } 中,根據每輪的查詢從集合D中找尋出文件d。每一個會話查詢 可以是上下文相關的、不相關的,並且需要更為複雜的查詢理解技術,比如從以前的查詢 中推斷隱藏的上下文。針對該任務常見的解決方法是將對話式查詢重構為一個去上下文化的、完全成熟的ad hoc query 。其中 要完全能夠代表底層的資訊需求。其中的重構可以通過查詢擴充套件和查詢重寫來完成。查詢擴充套件即為,從之前的查詢中選擇terms將查詢 擴充套件為 。查詢重寫即為,使用生成模型如GPT-2直接生成目標查詢

最近的會話搜尋基準通常提供一個人工構造的Oracle ad hoc query ,該查詢能夠完全代表k輪次中的資訊需求。這裡的人工Oracle是一些有價值的監督訊號,可以用來訓練方程(1)中的查詢重構模型。

在將會話查詢重構為一個ad hoc query之後, 會話搜尋問題就被改造為一個ad hoc搜尋問題 。然後我們就可以使用 經典的檢索-重排架構 了,比如使用BM25首先從集合D中檢索前K個文件D*: (2)

然後使用BERT通過計算ranking score來對D*中的候選文件d進行排序。其中在BERT的[CLS]embedding上使用了一個MLP層,用來對重構查詢 和文件d之間的連線進行編碼。

將會話搜尋查詢重構為ad hoc搜尋查詢為會話搜尋提供了一個飛躍,但是它也通過ad hoc 搜尋限制了會話搜尋系統的有效性,因為其並 沒有利用多輪對話中的上下文來為下一次搜尋提供經驗 。在實際應用中,查詢重構的使用步驟也並不完善,這也進一步降低了會話搜尋的準確性。

·會話式密集檢索:

與改造為ad hoc 檢索不同,針對使用密集檢索的會話搜尋任務,ConvDR提供了一種端到端的解決方案。通常,ConvDR首先將會話搜尋查詢和文件對映到一個嵌入空間中:

然後通過簡單的對查詢embedding和文件embedding做 點積 來計算檢索得分 (7)

由於檢索函式只是一個簡單的點積,因此模型主要容量在於 查詢和文件編碼器 中。在密集檢索中,常使用BERT-Siamese/Dual-Encoder體系結構來對會話回合和文件進行編碼。

這裡使用了BERT[CLS]embedding來作為查詢和文件的編碼向量。同時,作者 將當前的查詢與以前所有的查詢串聯到了查詢編碼器 ,這是在一個上下文化的embedding中捕捉資訊需求的先決條件。

通過負對數似然(NLL)排名損失優化模型,使其學習面向檢索的表示。

在重排階段,不再使用查詢重構的方法,而是 直接在所有查詢 和文件d的連線上使用BERT

然後應用一個MLP層(方程4)來計算ranking score

·Few-Shot from Ad Hoc Teacher:

密集檢索的一個關鍵問題是:密集檢索模型需要 更多面向相關性的監督訊號 才能保證其有效性(甚至在ad hoc 檢索中也存在該問題)。在會話式搜尋中,ConvDR需要根據當前和以往的查詢來構建一個上下文化的查詢表示,與編碼一個ad hoc query相比, 計算上下文相關性需要額外的訓練訊號此外,會話搜尋比ad hoc 搜尋更難積累相關性標籤,會話搜尋的資訊需求也會更加複雜和個性化。

為克服這種限制,本文構建了一個teacher-student結構,通過從一個 ad hoc密集檢索器中學習來提高ConvDR的少樣本學習能力。對於一個手工的Oracle查詢 ,使用ad hoc密集檢索編碼器 來編碼得到查詢嵌入 。具體遵循下面的teacher-student學習框架來獲得ConvDR模型中的查詢和文件的embedding:

這裡作者使用了一個SOTA的ad hoc 密集檢索器ANCE來作為teacher。在該teacher-student框架中引入了兩個假設:1、手工Oracle 構造的查詢 與會話查詢 中的底層資訊需求是一樣的,因此他們的embedding是一樣的2、在進行ad hoc檢索和會話檢索時,文件d中的有用資訊是一樣的,因此這兩種場景中的文件embedding是可以共享的。遵循第一個假設,作者使用MSE損失函式從ANCE中知識蒸餾到ConvDR中。遵循第二個假設,作者將ANCE中的文件embedding繼承到ConvDR。

知識蒸餾KD損失函式與多工學習中的排名損失相結合。 (14)

為構建 中的負樣本文件集合 ,檢索了ANCE模型中對於Oracle查詢 的排名靠前的負樣本。

因此,該teacher-student訓練,通過繼承來自於ad hoc 密集檢索的文件embedding和模仿人工Oracle查詢的查詢embedding, 減少了ConvDR對於大規模相關性標籤的需要。 其中排名損失使用可用的會話搜尋標籤來監督ConvDR,而不是僅僅改造ad hoc 密集檢索。

Experimental Methodologies:

·Datasets:

實驗中使用三個會話檢索基準:TREC CAsT2019&2020(包含有少量的TREC-quality的相關標籤用於少樣本學習)OR-QuAC(其搜尋任務是合成的,但是包含有大量的標籤,即有監督的)

TREC CAsT2019:提供了一系列用於會話檢索的對話(主題)。其中有30個訓練對話,20個測試對話。每個對話包含平均9-10個自然語言形式的查詢。對話中的查詢是手工構造的,來模仿某個主題的真實對話,其具有共同的自然語言特徵,包括引用、縮寫、省略。後面的查詢通常之前的上下文相關。 它為所有的測試查詢提供手動Oracle去上下文化的查詢 ,並且為20個測試對話中的173個查詢 提供相關性判斷

TREC CAsT2020:包含25個驗證對話,使用與2019相同的文件集。查詢參考以前回合的系統響應的答案,使得資料集更加真實。其中加入了兩個版本的基線系統返回的規範響應:使用手動查詢重寫的手動規範響應,和使用會話查詢重寫器查詢重寫的自動規範響應。 CAsT-20為所有的查詢提供了手動重寫查詢,為大部分查詢提供了相關性判斷

OR-QuAC:是建立在會話QA資料集QuAC上的大規模合成會話檢索資料集。在其中,僱傭各領域的工作者 對給定的維基百科實體及其描述進行多輪提問 ,最終合成一個 對話式 的QA任務。CANARD招募了多領域的工作者來手動地編寫去上下文化的查詢。該資料集從英文維基百科建立語料,使用包含明顯答案的段落作為相關段落,並將其擴充套件到開放域檢索。需要注意的是, 在該資料集中,對話主題中所有回合的答案段落都保證來自給定實體的維基百科頁面,實體被新增到第一個對話回合

·Evaluation Metrics:

TREC CAsT上,使用MRR和NDCG@3(main)評價,此外還報告了average hole rate at cutoff10(排名前十的結果的得分沒有進行判斷)以此來顯示評價的不確定性。

OR-QuAC上,使用Recall@5、MRR@5和MAP@10評價。

·Baseline:

兩組baselines,一組是已經發布的研究模型,其中都使用問題重構和檢索-排序這樣的pipeline;一組是作者實現的。

在CAsT-19上作者首次引入了三個表現極好的系統:pgbert、h2oloo_RUN2和CFDA_CLIP_RUN7。

pgbert使用CANARD的手動重寫來進行查詢重寫,使用Anserini BM25和BERT reranker;

h2oloo_RUN2在其BM25檢索中新增主題標題,使用啟發式來擴充套件查詢,使用BERT進行重排;

CFDA_CLIP_RUN7添加了doc2query到h2oloo_RUN2中。

此外,在CAsT-19上引入兩種取得SOTA的系統:RRF和Auto-Rewriter。

RRF融合了h2oloo_RUN2和神經轉移重構(NTR)的結果。NTR使用了一個基於T5的查詢重寫器;

Auto-Rewriter作為自動查詢重寫器對GPT-2進行微調。其檢索和重排使用經典的BM25-BERT結構。

在CAsT-20上,介紹了兩種使用自動規範響應的效能極好的baseline:quretecQR和h2oloo_RUN2∗。

quretecQR利用QuReTeC模型來就要新增到當前查詢中的歷史查詢terms進行分類;

h2oloo_RUN2∗使用啟發式方法從系統響應中提取內容,並使用T5對查詢進行排序。

在OR-QuAC上,作者與目前的SOTA模型ORConvQA進行對比。這是一個神經QA系統,其中包括一個密集檢索器、一個重排器和一個讀取器。密集檢索器將當前與歷史話語結合起來進行檢索。

(以上是釋出的模型,下面是作者自己實現的)

作者使用不同的檢索模型實現了一些baseline,比如Anserini BM25、ANCE檢索、BERT reranker,然後使用BERT reranker進行排序。輸入進這些模型的查詢可能是原始查詢(RAW)、來自訓練過的GPT-2的自動查詢重寫(Query Rewriter)和手動Oracle重寫(Manual)。在CAsT-19上,訓練GPT-2,使用Rule-based+CV方法訓練基於規則的弱監督資料的查詢重寫器。在CAsT-20上,使用前一個查詢的答案,在CANARD上訓練GPT-2查詢重寫器。在OR-QuAC上,在其訓練集上訓練查詢重寫器。

·Implementation Details:

對於ConvDR和BERT reranker,作者進行了三種訓練正規化,還介紹了這兩種模型的三個變體:KD、Rank、Multi-Task(兩者的結合)。此外,還比較了它們只在ad hoc檢索上訓練的少樣本學習變體(Zero-Shot)。

第一階段檢索使用開源的ANCE的檢查點作為teacher。在CAsT上,使用MARCO段落在檢查點進行檢查(第600k步)。在OR-QuAC上,使用其在Natural Questions和TriviaQA上訓練的Multi-Task檢查點。此外,在訓練集OR-QuAC上對ANCE不斷訓練,通過手動查詢重寫使模型適應該資料集。

所有的文件嵌入都是由ANCE編碼的,並且在實驗中固定使用。查詢編碼器是在ANCE中熱身然後對其進行微調。針對CAsT-20資料不足,進一步在CANARD上對ConvDR模型進行了熱身。將歷史查詢與當前查詢連線起來,如果超過了256個token,則放棄前面的回合。在CAsT-20上,遵循自動規範設定,並將自動規範響應新增到前一個會話轉換的查詢之前。對於ConvDR(Rank)和ConvDR(Multi-Task)使用vanillaANCE通過手動查詢重寫來進行文件檢索。

BERT Reranker:使用手動重構的查詢,在MS MARCO段落和OR-QuAC任務上訓練BERT reranker。然後使用相同的三種訓練正規化對BERT rankers進行微調,得到BERT (KD),BERT (Rank)和BERT (Multi-Task)。使用RRF將最好的BERT ranker和ConvDR的結果結合起來,得到BERT(RRF)。

Result:

五組實驗:ConvDR的整體效能;少樣本學習策略;學習到的查詢表示;上下文建模的能力;案例研究

1、Overall Performance:

·Few-Shot Accuracy:

在CAsT上,ConvDR在第一階段的檢索中比所有的baseline表現都要好。相比BM25-Query Rewriter提高了68%、113%,表現了密集檢索相比BM25稀疏檢索的優勢。因為直接將查詢對映到嵌入空間中,而不是在稀疏空間中進行重構。使得ConvDR比ANCE-Query Rewriter效能更好也更簡單。而且注意到ConvDR在該資料集上的的hole rates很高,這表明其效能可能被低估了。

ConvDR的效能與ANCE-Manual在CAsT-19上是相似的,這是很好的。後續的實驗進一步研究了ConvDR如何在表示空間中模仿手動的Oracle查詢,同時還有效地捕獲了顯著的上下文資訊。

在CAsT-19上,ConvDR僅使用點積的效能就已經超越了最好的系統CFDA_CLIP_RUN7。(這是一個設計良好的系統,其實現了 SOTA的稀疏檢索表現 和神經資訊檢索技術)

ConvDR在第一階段檢索的有效性可以通過BERT reranker將其轉移到重排階段。在CAsT-19上,ConvDR->BERT的表現優於查詢重寫的baseline。結合使用RRF的ConvDR的結果ConvDR->BERT (RRF),進一步優於之前的SOTA模型RRF(Reranking)(該SOTA模型使用來自CANARD的 額外查詢重寫監督訊號 和更強大的預訓練模型T5)。

在CAsT-20上,ConvDR->BERT比除了h2oloo_RUN2之外的所有baseline都表現得更好,h2oloo_RUN2使用了一個密集-稀疏混合檢索模型,然後使用了一個強大的T5排序模型,其具有基於T5的查詢重構。還觀察到,在對密集檢索候選集進行重排時,與第一階段檢索相比,自動-手動重排存在更大的差距。因此,密集檢索上的重排還需要進一步的研究。

·Supervised Accuracy:

在OR-QuAC上,有大量可用的合成標籤,全監督的ConvDR的效能比所有之前的方法都要高。 只在第一階段檢索時,ConvDR幾乎將最好的系統ORConvQA reranker的準確率翻了一倍,ConvDR->BERT甚至優於ANCE-Manual->BERT-Manual。

但是在該資料集上帶來的增益需要 謹慎考慮因為合成數據包含各種各樣的偽資料,這些偽資料過度簡化了檢索問題 。例如,對話方塊的所有相關段落在第一輪都來自實體的維基百科頁面。然而,當我們有大規模的使用者反饋訊號時,當搜尋引擎變成會話式,這些合成數據又可以幫助我們瞭解ConvDR的潛力。

·Efficiency:

對ConvDR的線上推理效率進行了測試,並且與稀疏方法進行了比較。在每個查詢中,BM25和ANCE有著相似的延遲,但是查詢重寫明顯比查詢編碼成本要更高。因為查詢重寫使用代價高昂的語言生成,其中token是逐個取樣的,而編碼是在每個查詢中使用一次前向傳遞即可。

2、Effectiveness of Training Strategies:

實驗中,研究了ConvDR和BERT Reranker在不同訓練策略下的表現(表4),包括:Zero-Shot(在會話搜尋上沒有進行專門的訓練),KD(只使用方程12MSE Loss),Rank(只使用方程10 ranking loss),Multi-Task(兩損失結合)

·少樣本情景下的有效性:

CAsT-19上,KD是唯一一種能夠有效訓練ConvDR模型的方法。 其他三種策略在CAsT-19上的表現都比普通的ANCE差。對於有相關性監督的訓練,無論是單獨在Rank中使用還是在Multi-Task中結合使用,都使得模型表現比Zero-Shot更差。考慮到目前的密集檢索器需要大量的相關監督訊號,否則其效能可能會比BM25差。因此 本文使用到的teacher-student少樣本學習是必要的 。相比之下,BERT reranker似乎更加健壯,可以從TREC CAsT的標籤中獲益。結合KD損失,BERT (Multi-Task)可以達到最好的精度。

需要注意的是,在檢索階段,KD與ANCE-Manual最相近,可見ConvDR可以很好地模仿teacher的內容。

·監督的有效性:

利用OR-QuAC提供的大量訓練訊號,直接使用Rank進行訓練,在ConvDR和BERT reranker上都可以取得很好的效果。

當與Multi-Task結合時,本文使用KD的teacher-student學習架構可以提供額外的訊號,可以幫助ConvDR在OR-QuAC上取得最好的效能。

3、Learned Query Representations:

·查詢embedding:

圖3a:對於同一個查詢,不同方法學習到的embedding間的平均相似度(點積)。

如設想的那樣,ANCE-Raw和ANCE-Manual是完全不同的。ConvDR(Zero-Shot)和其他所有模型都不一樣,包括ANCE-Raw。說明 直接將ad hoc 密集檢索應用於多輪查詢的連線上並不能產生有意義的embedding。 ANCE-QR類似於ANCE-MQ和ANCE-Raw。

自動查詢重寫介於原始查詢和手動Oracle查詢之間。 由於不需要重構一個新的查詢,ConvDR(KD)在嵌入空間中通過端到端學習有效地逼近了ANCE-Manual

圖3b:通過使用t-SNE繪製了對話主題進一步展示上述的這種效果。Zero-Shot embedding位於當前(Q6)和之前回合的原始embedding中間, 其將所有查詢的連線處理為一個ad hoc查詢從而可以產生平均嵌入 。ConvDR(KD)與當前查詢Q6的距離與它的teacher MQ距離Q6的距離相同,但是KD的位置與之前的查詢的距離更加平衡。說明與手動的Oracle查詢不同, KD可以訪問原始查詢,並且可以捕捉之前回合的資訊 。之後有具體的例子進行說明。

·文件embedding的相似性:

對查詢嵌入的影響還會影響它們與相關文件的相似性。如圖4a所示, KD具有最高的相似性,甚至高於MQ 。然而,與MQ相比,自動查詢重寫有著較低的相似性。(稀疏空間中模仿手工Oracle查詢比在密集空間中更難。)

圖4b中進行了embedding相關性的視覺化,OS嵌入位於不相關文件中間,其他三個位置都更接近於相關文件。其中,ANCE-QR可能引入了一些偏差,其更偏向於相關文件的子集,導致重寫的查詢只能捕獲一部分需求。相比之下, MQ和KD將查詢放在了更靠近相關文件的位置。在表示學習中,這種統一的表示分佈意味著有更好的泛化能力

4、Effectiveness in Capturing Contexts:

研究ConvDR學習 多輪會話 中的查詢表示的能力。

·多回合的準確性:

作者首先根據模型每回合的檢索精確度和會話回合間的查詢相似度,研究了密集檢索模型在不同會話回合中的行為。如圖5a, ANCE的準確度隨著會話的進行而下降 ,這與之前的會話搜尋系統相同。後面會話回合中的查詢更可能依賴於前面的回合,因此增加的推理空間、對話回合, 使得上下文依賴更難解決 。然而, KD在整個對話中保持其準確性 ,並且在所有回合中與MQ的執行相同。這進一步證實了 本文的少樣本學習策略幫助ConvDR理解使用者資訊需求所需要的上下文資訊

圖5b也可以體現出 ConvDR更好的查詢理解能力 ,KD的查詢表示在相鄰的回合中更加相似,這表明了在嵌入空間中進行會話轉換時的平滑過渡。相比之下,去上下文化的手動查詢MQ關聯較少。在會話過程中, 自動重寫的查詢嵌入變化更大。這說明新增查詢重寫會引入新的錯誤源,直接學習上下文化的查詢嵌入更加有效

·對之前對話回合的依賴性:

為了研究ConvDR模型在前面的回合中如何對上下文進行建模,作者進行了入侵測試,在會話中隨機丟棄掉前一個回合,跟蹤 查詢嵌入前後的變化 。將這個 變化 與丟棄turn和當前turn的手動Oracle查詢間的術語重疊 term overlap 進行比較,term overlap可以代表被丟棄回合中上下文的重要性。結果如圖6,OS受其影響最小,因為其不能獲取更多的情景資訊,刪除前一個回合也不會讓其變得多糟糕。ANCE-QueryRewriter受其影響比較嚴重, 因為語言生成模型是脆弱的,輸入的微小變化都可能導致輸出的巨大差異

在嵌入變化與上下文回合和手動Oracle間的術語重疊間,KD表現出了平滑的相關性。 其學習捕捉重要的上下文(high term overlap),更少關注不相關的上下文。因此其對於嵌入變化很微妙,很多查詢嵌入改變了,但大多數只改變了一點點,表現了其對於上下文移除的魯棒性。 情境術語可能出現在多個前一個回合中,有效的模型應該能夠使用重複的情境來從刪除一個回合中恢復過來。同時發現,在該入侵測試中,ConvDR (Multi-Task)具有更多的變異,說明有限的相關標籤的排名損失是不可靠的。

5、Case Study:

在case1中,原始查詢並不明顯地依賴於上下文,它本身可以是一個ad hoc查詢。手動oracle構造的查詢與原始查詢相同。然而,縮寫“ACL”是模糊的,通過使用前面的會話轉換進行編碼, ConvDR正確地消除了它的歧義

Case2是典型的由自動查詢重寫器造成的 共引用錯誤 。ConvDR正確地在其潛在空間中識別正確的上下文,並檢索正確的段落。

最後一種情況很有趣,因為它反映了自動查詢重寫器的“保守”行為。當它不能解決上下文依賴時,便傾向於重複原始查詢。通過對前面的所有會話回合的建模, ConvDR提供了一個更有意義的查詢表示,如分數下降所示,通過更多地關注會話第一輪,並在檢索中捕獲突出的上下文術語“Darwin”

Conclusion:

在本文中,作者提出了一個會話密集檢索器——ConvDR,它完全在密集嵌入空間中進行會話搜尋的第一階段檢索。作者提出了一個few-shot策略,訓練ConvDR的查詢編碼器模仿從一個訓練良好的ad hoc密集檢索器中得到的手動oracle查詢embedding。我們在TREC CAsT和OR-QuAC上的實驗表明,ConvDR在第一階段檢索中達到了最先進的效能。詳細的分析表明,這種簡單方法可以在few-shot會話搜尋設定中更好地從之前的會話轉向中獲取突出的上下文資訊,並極大地提高線上延遲。