一文詳解 | 開放搜尋相容Elasticsearch做召回引擎

語言: CN / TW / HK

簡介:開放搜尋釋出開源相容版,支援阿里雲Elasticsearch做搜尋召回引擎,本文詳細介紹阿里雲ES使用者如何通過接入開放搜尋相容版豐富行業分詞庫,提升查詢語義理解能力,無需開發、演算法投入,即可獲得淘系同款搜尋效果。

開放搜尋開源相容版簡介

很多客戶在搭建搜尋業務時更熟悉開源技術棧,會選擇Elasticsearch/Solr等開源引擎負責搜尋的召回環節,然而在召回引擎以外訓練NLP、排序等演算法能力,不僅 耗時耗力,而且大部分處於高投入低迴報的狀態。

開放搜尋開源相容版的Elasticsearch引擎則是基於阿里巴巴在搜尋領域的積累,開放搜尋的Elasticsearch引擎例項作為一個阿里雲Elasticsearch的外掛,執行在使用者的阿里雲Elasticsearch叢集中,提供阿里自研行業分詞能力、Query分析理解能力, 從而減少了使用者對演算法模組的投入,可以將更多精力投入到業務轉化、產品功能等需求上。

業務流程圖:

開放搜尋相容版優勢

  • 基於阿里巴巴多年詞庫積累及達摩院NLP技術,豐富Elasticsearch開源引擎分詞庫,提升搜尋效果;

在通用分詞基礎上還增加行業分詞能力,可覆蓋電商、IT內容、教育、遊戲、互娛等行業。

  • 賦予Elasticsearch引擎Query理解能力,精準定位使用者搜尋意圖;

通過對Query進行一系列智慧語義分析(拼寫糾錯、同義詞改寫、詞權重、停用詞、實體識別)理解使用者搜尋意圖,改寫使用者搜尋Query,使召回結果更符合需求;

  • 提供自定義分詞、查詢分析干預詞典的能力,在開放搜尋控制檯配置後會即使生效

使用者可根據自身業務進行調整和優化,高效響應搜尋需求,提升搜尋效果和使用者體驗;

開源相容版ES引擎例項建立及配置

一、建立Elasticsearch引擎例項

1.登入開放搜尋控制檯,並進入 例項管理 - Elasticsearch引擎 頁面,點選 建立應用

2.頁面會跳轉至 Elasticsearch搜尋增強版售賣頁 ,選擇建立應用需要的 商量型別地域 ,填寫好 應用名稱 ,選擇 資源組 ,最後點選 立即購買 即可:

3.建立成功後,即可在 例項管理 - Elasticsearch引擎 頁面檢視新建立的 應用例項

二、配置Elasticsearch引擎例項

配置應用包含關聯 阿里雲Elasticsearch例項安裝外掛、配置完成 三步:

  1. 例項管理 - Elasticsearch引擎 頁面,找到 待配置 狀態的例項,點選 配置 ,進入 關聯阿里雲Elasticsearch應用 頁面:

  1. 安裝外掛:

  1. 點選“ 確定 ”,則開始安裝自定義外掛( 會觸發Elasticsearch叢集重啟 ):

2.配置成功,等待外掛安裝:

三、Elasticsearch引擎例項搜尋測試

  1. 在阿里雲Elasticsearch控制檯例項詳情頁中 確認 開放搜尋的“Elasticsearch搜尋增強版自定義外掛” 是否已經安裝

  1. 登入Elasticsearch視覺化控制檯通過Dev Tools工具測試已安裝的外掛:

瞭解更多詳細配置內容,檢視產品文件:http://help.aliyun.com/document_detail/293662.html

客戶案例

某新零售客戶,打造1公里社群網店服務,為使用者提供吃、喝、玩、樂一體化生活服務。

客戶搜尋業務痛點

  • 自建搜尋效果差, 搜不準、搜不到 直接影響使用者體驗;
  • 缺乏行業分詞庫 ,自研難度大,開發週期長,難以響應業務需求;
  • 成熟的搜尋引擎涉及離線模組、線上模組、查詢理解服務、演算法平臺等系統組成,所需大量開發、演算法調優以及持續的複雜運維工作, 自建成本高

開源相容版解決方案

1.呼叫開放搜尋電商行業分詞庫

整合淘寶搜尋同款電商分詞器,訓練語料來自淘寶搜尋多年積累的百萬級有標註的電商行業資料,可準確識別商品品牌、品類、產品特性等電商屬性query;

2.呼叫電商查詢語義理解功能

  • 電商拼寫糾錯

使用者輸入的query並不總是正確的,錯誤的輸入可能導致查詢結果不符合預期或者是無結果,因此需要對使用者的輸入進行拼寫檢查。OpenSearch的查詢分析中提供的拼寫檢查功能,對查詢詞中的錯誤進行糾正,給出正確的查詢詞。並根據糾錯的可信度高低,決定當前查詢是否用糾錯後的詞進行查詢。

  • 電商同義詞

同義詞功能主要是對查詢詞進行同義擴充套件,擴大召回和查詢詞同義的文件。

  • 電商實體識別

全稱命名實體識別(Named Entity Recognition,簡稱NER),指對查詢詞中的具有特定意義的語義實體進行識別。查詢分析根據識別的結果,依據實體型別的權重對查詢詞進行改寫,使得召回的文件符合查詢的意圖。

效果反饋

無需額外投入人力資源,在不改變現有ES使用習慣情況下,從瞭解到測試到接入上線短短15天就獲得高質量搜尋效果,企業有更多資源精力投入到產品功能和業務提升中去。

  1. 商品搜尋無結果率30%降至5%以下,指標還在持續優化中;
  2. 搜尋引導的業務轉化率增長7%;
  3. 商家店鋪搜尋CTR提升5%,將直接影響拉動商家入住和廣告營收;

本文為阿里雲原創內容,未經允許不得轉載。 返回搜狐,檢視更多

責任編輯:

「其他文章」