IBM Research的科学发现深度搜索 (DS4SD)

语言: CN / TW / HK

IBM研究中心(IBM Research)的深度搜索产品使用自然语言处理(NLP)来“收集和分析大量结构化和非结构化数据”。多年来,从Covid-19研究到分子合成,“深度搜索”(Deep Search)被广泛用于科学领域。现在,IBM Research通过发布Deep Search for scientific Discovery ( DS4SD :科学发现深度搜索),将部分产品开源,从而简化了深度搜索的科学应用。

DS4SD包含了针对文档转换和处理的深度搜索的特定功能。首先是深度搜索体验,这是一个文档转换服务,包括拖放界面和交互式转换,并包含质量检查。DS4SD的第二个部分是深度搜索工具包( Deep Search Toolkit ),这是一个Python包,它允许用户通过将工具包指向一个文件夹“以编程方式批量上传和转换文档”,然后该文件夹的内容将被上传并从pdf文件转换为更“容易破译”的JSON文件。该工具包集成了现有的服务,同时IBM Research欢迎开发者社区都能够利用该开源工具包并作出自己的贡献。

Deep Search 分四个步骤从文档中提取和结构化数据:解析,解释,索引和整合.

解析

Deep Search 可解析大量 PDF 文档,例如科学出版物和专利。它检测并分隔具有内容的文档对象,例如段落和表格。然后从对象中提取此内容,例如段落中的文本和表格中的单元格。

解释

在解析文档的内容后,深度搜索会对其进行解释和丰富。文本段落通过自然语言模型传递。这些模型识别语言结构,例如句子和术语,然后将其分类为实体类型,例如 a country 或 a  physical property of a  material 。同样,图像对象由计算机视觉模型检测和解释。

索引

Deep Search 在可扩展的云基础设施上快速、解析和解释大量文档。这些集合被存储和索引,以便您可以根据其内容搜索和检索任何文档,直至表格中的值和物理单位。获 取 更多前沿科技研究 进展访问:http://byteclicks.com

除了索引您的个人文档集合之外,Deep Search 还索引了来自公共资源的数百万份文档,例如 arXiv、Pubmed 和专利局。这些文档会定期更新,并包含来自精选数据库的记录。

整合

使用深度搜索将您的文档集合集成到知识图谱中。知识图将跨文档发现的实体类型互连起来。然后,您可以查询图表来回答超出搜索关键字的分析问题。例如:

For each material type that is mentioned in my collection of scientific papers, which of its physical properties have been tested and under which conditions?

For each company that is mentioned in my collection of annual reports, what was its total revenue per year?

IBM Research将DS4SD描述为处理非结构化数据的福音。这些数据对科学研究具有“很大价值”;作为例子,他们引用了IBM自己的Photoresist项目,该项目在2020年使用“深度搜索”技术,梳理了6000多项专利、文件和材料数据表,以寻找一种新的分子。IBM Research表示,与人工选择相比,Deep Search可提供高达1000倍的数据获取速度和高达100倍的数据筛选速度。

DS4SD的发布紧随在今年3月发布的GT4SD (科学发现生成工具包)之后。GT4SD也是一个开源库,用于加速科学发现的假设生成。

DS4SD和GT4SD共同构成了IBM Research所称的加速发现开放科学的第一步。IBM研究中心表示,未来还会有更多的新功能,比如将通过DS4SD提供 “人工智能模型和高质量数据源”。深度搜索还增加了“超过3.64亿”的公共文件(如专利和研究论文)供用户在他们的研究中使用——这与之前需“自带数据”的工具性质相比是一个很大的改变。