基于ChemAxon的化学结构和名称转化技术,各种类型的化学信息可以被识别出来并转化为化学结构,例如IUPAC名称,通用名,药物商品名,SMILES, InChI, CAS注册编号等。D2S还应用OSR技术将化学结构图片转化为化学结构。(D2S目前支持CLiDE, OSRA和Imago这三个OSR工具,但不提供这些工具的授权。用户需要通过它们的供应商获得授权。其中OSRA和Imago可免费获得授权。)D2S可以将化学结构图片与非结构图片(如IC50曲线图)区分开来,减少结果中的噪音。
D2S可支持各种文档,包括PDF, TXT, HTML, XML, MS Office文档 (DOC, DOCX, PPT, PPTX, XLS, XLSX), OpenOffice ODT等。Office文档中内嵌的化学结构对象(ChemDraw, SymyxDraw, MarvinSketch等)可以直接提取为化学结构。各种图片格式(如TIFF, BMP等)也可以支持。
从5.9版本开始,D2S可以开始处理图片格式的PDF文档,而不仅是文本格式的PDF文档。D2S采用OCR技术将图片PDF转化为文本,然后定位所有的化学信息。由于OCR技术的局限性,转化后的文本可能包含有错误。D2S通过一个内部纠错算法来识别常发生的OCR错误,并修正这些文本为正确的化学名称。因为很多的化学专利都是图片格式的PDF文档,这个功能对于专利信息挖掘十分有价值。
具有化学意义的文档(例如化学专利)可能有几百页的长度。研发人员如果想要在文档中找到某个特定的化合物,要花费很长的时间,尤其是这个化学结构是以文本的格式存在。通过D2S,PDF文档中提取出来的每个化学结构都和它对应的位置信息以及原始的化学信息(IUPAC名称,图片,SMILES等)一起提取出来。这可以为研发人员阅读化学专利节约数小时的时间。
D2S可以作为单独的工具使用。文档可以直接用MarvinView打开,提取的结果将在一个扁平表格中显示出来。如处理多个文档,可以通过命令行来运行D2S。D2S同时也整合到了ChemAxon的数据库管理工具Instant JChem和JChem for Office(在Instant JChem和JChem for Office中使用D2S需要额外的授权)。文档可以在这些工具中直接打开,D2S处理的结果可以作为数据表导入。D2S也可以作为ChemAxon组件包中的一部分在工作流工具中使用,如Pipeline Pilot和KNIME。跟ChemAxon的很多工具一样,D2S也可以通过命令行来进行批量处理,也可以通过API来开发客户化系统。
您正在申请的产品: 产品 >研发信息管理 > Document to Structure
您的服务是