IBM Research的科學發現深度搜索 (DS4SD)

語言: CN / TW / HK

IBM研究中心(IBM Research)的深度搜索產品使用自然語言處理(NLP)來“收集和分析大量結構化和非結構化數據”。多年來,從Covid-19研究到分子合成,“深度搜索”(Deep Search)被廣泛用於科學領域。現在,IBM Research通過發佈Deep Search for scientific Discovery ( DS4SD :科學發現深度搜索),將部分產品開源,從而簡化了深度搜索的科學應用。

DS4SD包含了針對文檔轉換和處理的深度搜索的特定功能。首先是深度搜索體驗,這是一個文檔轉換服務,包括拖放界面和交互式轉換,幷包含質量檢查。DS4SD的第二個部分是深度搜索工具包( Deep Search Toolkit ),這是一個Python包,它允許用户通過將工具包指向一個文件夾“以編程方式批量上傳和轉換文檔”,然後該文件夾的內容將被上傳並從pdf文件轉換為更“容易破譯”的JSON文件。該工具包集成了現有的服務,同時IBM Research歡迎開發者社區都能夠利用該開源工具包並作出自己的貢獻。

Deep Search 分四個步驟從文檔中提取和結構化數據:解析,解釋,索引和整合.

解析

Deep Search 可解析大量 PDF 文檔,例如科學出版物和專利。它檢測並分隔具有內容的文檔對象,例如段落和表格。然後從對象中提取此內容,例如段落中的文本和表格中的單元格。

解釋

在解析文檔的內容後,深度搜索會對其進行解釋和豐富。文本段落通過自然語言模型傳遞。這些模型識別語言結構,例如句子和術語,然後將其分類為實體類型,例如 a country 或 a  physical property of a  material 。同樣,圖像對象由計算機視覺模型檢測和解釋。

索引

Deep Search 在可擴展的雲基礎設施上快速、解析和解釋大量文檔。這些集合被存儲和索引,以便您可以根據其內容搜索和檢索任何文檔,直至表格中的值和物理單位。獲 取 更多前沿科技研究 進展訪問:http://byteclicks.com

除了索引您的個人文檔集合之外,Deep Search 還索引了來自公共資源的數百萬份文檔,例如 arXiv、Pubmed 和專利局。這些文檔會定期更新,幷包含來自精選數據庫的記錄。

整合

使用深度搜索將您的文檔集合集成到知識圖譜中。知識圖將跨文檔發現的實體類型互連起來。然後,您可以查詢圖表來回答超出搜索關鍵字的分析問題。例如:

For each material type that is mentioned in my collection of scientific papers, which of its physical properties have been tested and under which conditions?

For each company that is mentioned in my collection of annual reports, what was its total revenue per year?

IBM Research將DS4SD描述為處理非結構化數據的福音。這些數據對科學研究具有“很大價值”;作為例子,他們引用了IBM自己的Photoresist項目,該項目在2020年使用“深度搜索”技術,梳理了6000多項專利、文件和材料數據表,以尋找一種新的分子。IBM Research表示,與人工選擇相比,Deep Search可提供高達1000倍的數據獲取速度和高達100倍的數據篩選速度。

DS4SD的發佈緊隨在今年3月發佈的GT4SD (科學發現生成工具包)之後。GT4SD也是一個開源庫,用於加速科學發現的假設生成。

DS4SD和GT4SD共同構成了IBM Research所稱的加速發現開放科學的第一步。IBM研究中心表示,未來還會有更多的新功能,比如將通過DS4SD提供 “人工智能模型和高質量數據源”。深度搜索還增加了“超過3.64億”的公共文件(如專利和研究論文)供用户在他們的研究中使用——這與之前需“自帶數據”的工具性質相比是一個很大的改變。