IBM Research的科學發現深度搜索 (DS4SD)

語言: CN / TW / HK

IBM研究中心(IBM Research)的深度搜索產品使用自然語言處理(NLP)來“收集和分析大量結構化和非結構化資料”。多年來,從Covid-19研究到分子合成,“深度搜索”(Deep Search)被廣泛用於科學領域。現在,IBM Research通過釋出Deep Search for scientific Discovery ( DS4SD :科學發現深度搜索),將部分產品開源,從而簡化了深度搜索的科學應用。

DS4SD包含了針對文件轉換和處理的深度搜索的特定功能。首先是深度搜索體驗,這是一個文件轉換服務,包括拖放介面和互動式轉換,幷包含質量檢查。DS4SD的第二個部分是深度搜索工具包( Deep Search Toolkit ),這是一個Python包,它允許使用者通過將工具包指向一個資料夾“以程式設計方式批量上傳和轉換文件”,然後該資料夾的內容將被上傳並從pdf檔案轉換為更“容易破譯”的JSON檔案。該工具包集成了現有的服務,同時IBM Research歡迎開發者社群都能夠利用該開源工具包並作出自己的貢獻。

Deep Search 分四個步驟從文件中提取和結構化資料:解析,解釋,索引和整合.

解析

Deep Search 可解析大量 PDF 文件,例如科學出版物和專利。它檢測並分隔具有內容的文件物件,例如段落和表格。然後從物件中提取此內容,例如段落中的文字和表格中的單元格。

解釋

在解析文件的內容後,深度搜索會對其進行解釋和豐富。文字段落通過自然語言模型傳遞。這些模型識別語言結構,例如句子和術語,然後將其分類為實體型別,例如 a country 或 a  physical property of a  material 。同樣,影象物件由計算機視覺模型檢測和解釋。

索引

Deep Search 在可擴充套件的雲基礎設施上快速、解析和解釋大量文件。這些集合被儲存和索引,以便您可以根據其內容搜尋和檢索任何文件,直至表格中的值和物理單位。獲 取 更多前沿科技研究 進展訪問:http://byteclicks.com

除了索引您的個人文件集合之外,Deep Search 還索引了來自公共資源的數百萬份文件,例如 arXiv、Pubmed 和專利局。這些文件會定期更新,幷包含來自精選資料庫的記錄。

整合

使用深度搜索將您的文件集合整合到知識圖譜中。知識圖將跨文件發現的實體型別互連起來。然後,您可以查詢圖表來回答超出搜尋關鍵字的分析問題。例如:

For each material type that is mentioned in my collection of scientific papers, which of its physical properties have been tested and under which conditions?

For each company that is mentioned in my collection of annual reports, what was its total revenue per year?

IBM Research將DS4SD描述為處理非結構化資料的福音。這些資料對科學研究具有“很大價值”;作為例子,他們引用了IBM自己的Photoresist專案,該專案在2020年使用“深度搜索”技術,梳理了6000多項專利、檔案和材料資料表,以尋找一種新的分子。IBM Research表示,與人工選擇相比,Deep Search可提供高達1000倍的資料獲取速度和高達100倍的資料篩選速度。

DS4SD的釋出緊隨在今年3月釋出的GT4SD (科學發現生成工具包)之後。GT4SD也是一個開源庫,用於加速科學發現的假設生成。

DS4SD和GT4SD共同構成了IBM Research所稱的加速發現開放科學的第一步。IBM研究中心表示,未來還會有更多的新功能,比如將通過DS4SD提供 “人工智慧模型和高質量資料來源”。深度搜索還增加了“超過3.64億”的公共檔案(如專利和研究論文)供使用者在他們的研究中使用——這與之前需“自帶資料”的工具性質相比是一個很大的改變。