自然语言处理在药物专利检索系统中的应用

程晓静^[1]2004年在《自然语言处理在药物专利检索系统中的应用》文中研究说明随着计算机应用的日益普遍，人工智能的迅猛发展，计算机在化学领域的应用也愈来愈受到普遍的关注。特别是在有机化学人工智能方面，出现了日益繁多的有关物质分子结构信息处理的专家系统。物质分子结构的计算机处理，需要一种化学家和计算机都能接受的表达形式来表示分子结构，且要求一种分子只能有唯一的一种结构代码表示。在药物专利中，族性结构是通过结构图形与可变部分的文本描述相结合来表达的，计算机本身无法识别自然语言文字。因此，将专利摘要中的文本部分自动的转化为分子结构代码，对于计算机结构信息检索和匹配具有重要的意义。本论文采用自然语言处理技术(Natural Language Processing)，将药物专利摘要中对族性结构的可变部分进行描述的文本部分，半自动的翻译成规范的、唯一的、能够被计算机识别的代码。并结合输入到计算机中的专利结构图形，生成一个描述族性结构的紧缩拓扑关联表(GSCCT表)，以便进行药物专利的结构匹配检索。机器翻译系统基于面向对象技术(OOT)，通过句法、语法分析，建立语言模型。并结合机器翻译的需要，提出了新的汉语自动分词算法(MM)，使词典库结构简化，极大的提高了机器翻译的准确性和速度。同时，词典库是开放式的，可以随时向库中添加新的词条，充分体现了该系统的学习能力和智能化。本系统应用于“药物专利信息检索系统”，为进一步生成药物专利化合物结构的计算机表达、存储以及匹配所用。它大大减少人工输入表达式的工作量，并且尽可能地减少差错。通过测试近二百篇药物专利摘要，系统性能良好，达到了预期的效果。

梁静^[2]2007年在《药物专利的数据挖掘技术研究》文中研究指明目前，英、美、法等发达国家已经建成了世界权威的专利数据库，对药物化学专利文献处理方面的技术比较成熟，我国近几年也十分重视药物化学信息资源的建设和计算机处理水平的发展并取得了一定的成果。事实证明对专利文献深度挖掘和高技术处理能够明显提高数据库的查全率和查准率，本文以此为出发点，使用目前被广泛应用于各个领域的数据挖掘技术全面处理了药物专利中包含的化学结构图形和文本信息。本论文运用面向对象编程技术，使用C++编程语言完善了本课题组开发的化学结构图形输入输出软件StruDraw，实现了文字向结构图形的翻译功能。用户只需输入要查找的化合物名称便可在图形输出界面得到所需的化学结构图形，免去了费时费力查找资料的过程。本文的重点是药物专利文本信息的处理。保证查全率和查准率的关键在于专利文献的分类准确度，数据挖掘类型之一便是文本的自动分类，机器学习算法是实现数据挖掘技术的手段。本文为实现药物专利分类的机器处理，结合药物专利本身特点，使用机器学习算法实现了专利文本自动分类。首先对2000余份药物专利按照治疗功能分类，抽取其中五类作为训练样本，对每一类提取特征文本，使用向量空间模型将非结构化的文本进行数字化表示，分别使用支持向量机(Support Vector Machine，SVM)，朴素贝叶斯(Na(?)ve Bayes，NB)，径向基神经网络(Radical Basis Function Network，RBFNetwork)对专利样本进行分类测试，并通过各种分类模型评估指标对这叁种分类算法进行了分类性能评估，证明SVM算法在药物专利自动文本分类方面的优越性。使用机器学习算法对药物化学专利分类，取代了以往人工分类的方法，为专利信息检索奠定了基础。

王艳^[3]2006年在《族性结构的计算机辅助标引及结构词典的建立》文中研究表明建立具有自主知识产权的药物专利检索系统,首先要对专利中的族性化合物信息进行标引加工。本文综述了近年来国内外利用计算机处理族性结构的研究进展,其核心内容涉及药物专利结构中族性结构的计算机表达问题。论文包含两方面内容,一是根据国家知识产权局制定的新的族性结构标引语言的特点,将药物专利中出现频率很高的结构片断统计出来并存储相应的结构信息,运用面向对象编程(OOP)技术VC6.0设计了一系列族性环结构以及族性超原子模板,图形化显示上述结构片断,减少了标引过程中的人工干预,实现了半自动化的标引。同时完善了图形软件strudraw中关于族性结构的处理部分,主要是RGroup(表示取代基变量)以及Attachment(可变结构之间的相互连接位置)等功能,满足不同研究者研究需要,实现了化学结构信息特别是族性结构信息处理的效率优化问题。论文的另一部分工作是利用族性环模板以及族性超原子模板存储的大量结构信息,开发了化学结构特别是族性结构信息词典库。其中存储的化学结构信息具体分为五类:链,超原子及常见官能团、环、糖类、氨基酸及生物大分子、生物碱,萜类及甾族化合物,并将其对应的中文名称、英文名称或缩写、别名、相关性状数据,结构式以及相应的标引结构式存入库中,以方便用户查找。在词典库的设计中采用OOP编程语言VB6.0把系统设计原型分解为一系列的类对象来分别实现其功能。词典库采用Microsoft Office自带的Access数据库,使用方便,占用空间小。同时,词典库设计为开放式的,用户可以直接在查找界面中对其进行添加、编辑等操作,便于库的随时更新。达到了人机交互的良好效果。

徐冰^[4]2005年在《Markush结构分析与检索系统》文中认为化学专利中普遍应用的Markush结构是由一个新颖的母体基团和可变取代基组成,由于可变取代基的复杂性使得Markush结构的检索和匹配成为化学信息学领域的一个难题。本论文在深入研究了现有Markush结构处理方案和本课题组已有研究成果的基础上,提出了一个处理Markush结构的两阶段方案。首先进行筛选,将Markush结构中相对稳定的环和环之间的连接片断提取出来构成族性结构的骨架(Scaffold),考虑到有显式的确定环(如苯环)和隐式的族性环(如可被取代的芳环),为了增加筛选的效率,根据统计分析的结果将出现频率最高的确定环用一系列代码标识,其余的环结构则统一族性化处理成脂肪环,芳香环和含有部分芳环的脂肪环,根据是否含有杂原子可进一步加以区分。利用SMILES扩展算法程序对环和非环原子,特别是对芳香环原子的识别算法,实现了结陶式的程序分析,删除环上的连接片断,保留了环和环之间的连接片断,利用程序自动生成了Markush结构的骨架。第二阶段是在每一个骨架结构上添加非环的可变取代基,提取其中的官能团信息加以分析归类,作为环的属性描述。用面向对象程序设计方法(OOP)实现了骨架编码方案的一系列算法,用Java语言完成了能够运行于网页的Applet程序StruDraw,对提问结构式能够实现结构的分析,对于检索用户起向导作用。由于骨架环处理方案将环抽象成图的顶点,环之间的连接片断抽象成图的边,环上的连接片断则对应于图的权重,在匹配阶段避免了复杂耗时的回溯算法,并且有骨架环的生成由程序实现,适用于药物专利标引,建立供检索的药物专利数据库。本论文基于Windows2000+IIS5.0平台设计并实现了药物专利Markush结构分析和检索测试系统。

雷春雨^[5]2004年在《药物专利化学结构匹配检索新方法》文中认为为实现对药物专利中使用的族性化学结构进行计算机表达、存储和检索，论文对化学家和专利代理人员在药物专利中大量使用的族性化学结构的特性进行了研究和总结。以处理族性化学结构信息的计算机表达式——族性结构紧缩关联表(Generic Structure Compact Connection Table，GSCCT)为基础，拟定了一套检索族性化学结构的筛选策略，即从GSCCT表中提取出主干环节点的预筛选方案。GSCCT表由计算机在结构图形文件绘制后自动生成。该结构匹配方法与传统的在原子节点层次上的算法不同，是在紧缩节点的层次上，提取族性化学结构中的关键信息(或称指纹信息)进行筛选，避免由于大量枚举而产生的组合爆炸。基于该方案用Access 2000建立了药物专利的题录信息数据库和化学结构信息数据库，并用Microsoft Visual Basic 6.0编写了检索程序，建立了药物专利化学结构检索试验系统。提供了绘图查询和代码查询两种途径，实现了对药物专利中族性化学结构进行主干环节点的筛选检索功能。

徐亮^[6]2004年在《基于Web的药物专利检索系统》文中指出建立基于Web的药物专利检索系统的核心问题是药物专利中采用的族性结构的计算机表示方法的问题。本论文系统的回顾了国内外族性结构处理的发展和现状，吸取众家之长，提出了族性结构新的表达方案——数字编码，从药物分子的角度探讨了数字编码的理论基础。该处理方案首先利用SMILES线性编码程序对环和非环原子，特别是对芳香环原子的识别算法，实现了结构式的程序拆分，打断结构式中原子和键的连接关系，将结构式拆分成Ring和Fragment两类结构片断，利用生成全结构SMILES编码的算法生成Ring和Fragment的唯一SMILES编码；其次，从结构片断编码中提取结构信息，用数字表示Ring和Fragment的类型和属性得到Ring和Fragment的数字编码表达式；最后，分别按照预先定义的Ring和Fragment的优先级别排列组合Ring和Fragment的数字编码就是全结构的数字编码表达式，重新构建了原结构原子和键的连接关系。数字编码将确定结构族性化表示，将族性结构适当展开，用有限的数字编码表示可能包含有成百上千个确定结构的族性结构。用面向对象程序设计方法(OOP)实现了数字编码方案的一系列算法，用Java语言完成了能够运行于网页的Applet程序StruDraw，对提问结构式用该程序实现了结构的拆分和数字编码。由于数字编码规则简单，适用于药物专利标引，建立供检索的药物专利数据库。本论文基于Windows2000+ⅡS5.0平台设计并实现了基于Web的药物专利检索系统，能够提供确定结构检索确定和族性结构，族性结构检索族性结构，达到了论文的预期目的。

马运运^[7]2016年在《中药专利信息分析与数据挖掘研究》文中提出专利是指受到专利法保护的发明创造,包括发明、实用新型、外观设计等。申请人向专利管理部门提出申请,经公开与审核通过后在规定的年限及地域内享有该发明创造的支配权。其申请过程中产生的文档所包含的信息就是专利信息,是集法律性、技术性、经济性于一体的复合型战略性资源。对药物专利定期进行集中整理,能够准确把握市场与技术的形势,有针对性地开展研究、开发工作。本文借助计算机辅助针对中药相关的专利信息进行了多角度的统计,分析了特定领域专利的历史、发展、趋势、格局及配伍等,并整理了一套专利信息分析的流程及方法,以期为相关领域的研究人员提供信息、方法等方面的参考。主要技术要点及步骤有：源数据库的选择、检索策略的调整、专利信息的补充与清洗、结果需求的分析、专利数据的变换与统计、文本挖掘算法的利用、统计数据的解读等。本文主要有两大专利信息来源：北京东方灵盾科技有限公司的《世界传统药物专利数据库》及欧洲知识产权局的《Espacenet》,前者的专业性与后者的全面性保证数据的可靠性。检索结果导出后利用Python.R语言、SQLite3等数据处理工具及其第叁方扩展对专利数据实施补充、整理。除了常见的统计分析方法,本文还对文本挖掘算法进行了调研及实践,主要包括文本关键词提取、潜在语义分析等。通过对收集到的11种药用植物的13种药材、5种功能和1个企业的专利数据的分析,发现在本文调查领域中：最具开发潜力的五种药用植物依次为山药、枸杞子、细辛、芍药、党参；中国大陆的专利族占绝对优势,但是专利输出排名比较靠后；中国大陆吸引专利输入的能力最强；中药领域的专利申请机构主要有6类：药品生产企业、日用化工企业、食品企业、生物科技企业、科研院所与高等院校、知识产权服务企业,其中药企的专利族量最多,科研机构的专利族延续性好；中药行业专利信息、技术服务正在慢慢兴起。此外,还总结了专利文本中各药材的配伍规律。

马双刚^[8]2016年在《基于深度学习理论与方法的中文专利文本自动分类研究》文中提出在当前经济全球化的时代,科技成为第一生产力。国家和企业的进步,越来越多地依赖于科技的创新。作为科技载体的专利的数量和质量已经成为衡量国家和企业创新能力的重要指标,因而专利申请的数量大大增加。世界知识产权组织的统计结果表明,专利文本中蕴含了全世界90%-95%的发明创造,表征着世界科技的发展水平。如何从这些专利文本中获取和利用科技信息,为国家和企业的发展提供战略支持,是国内外相关学者和专家研究的重点。而专利文本的分类作为最基础的步骤,制约着专利文本信息的获取和利用。目前,专利文本的分类主要以人工方式为主,自动分类方式已经开始作为辅助手段,但大规模的专利文本自动分类尚未实现,因此研究专利文本的自动分类具有重要的现实意义。基于专利文本的语义特征,借助自动分类技术,专利工作人员能够对大量的专利文本进行自动且高效地分类,提高工作效率的同时,能够更好地对专利文本中蕴含的丰富的科技信息进行分析和利用。因此,本文在对专利文本自动分类的基本框架和基本原理进行系统梳理的基础上,设计了一个基于深度学习理论的中文专利自动文本分类方法,方法的主要内容如下:首先对专利文本进行预处理和特征选择,得到专利文本的形式化表示;然后基于深度学习理论,用降噪自动编码器构建深度学习网络,自动学习得到专利文本的低维特征编码,并在网络的最顶层采用支持向量机算法对其进行分类,根据分类的结果不断调整网络中的各层参数得到分类器;最后采用已知类别的专利文本测试集对分类器进行分类测试,得到测试分类的准确率、召回率和F值以验证本文设计的方法的可行性。另外,为了验证本论文设计方法的有效性和优越性,本文借鉴其他学者的方法,将得到的分类测试结果分别与K近邻算法、支持向量机算法和反向传播神经网络算法等经典算法得到的分类测试结果进行比较。本文设计的专利文本自动分类方法在测试集上平均得到了95%以上的分类准确率和94%以上的分类召回率,优于经典算法,表明本文设计的方法是有效而且优越的。

王庭利^[9]2001年在《中国药物专利信息系统的研究与开发》文中研究说明本文概括地介绍了中国药物专利信息系统的建构思想和实体功能。该系统共具有叁个子系统：图形录入系统、数据库管理系统、检索系统。图形录入系统用于进行族形结构的整体录入，它的功能强大，操作方便快捷；数据库管理系统包括题录信息、图形信息、检索信息的管理，能方便的浏览数据库中的各类信息，完成各种库操作；检索系统包含题录检索和结构检索。题录检索实现了专利号、申请人、专利分类号等多项条目的单项检索和复合检索，结果显示的信息详尽、直观，结构检索的框架已经完成，还有部分内容有待于进一步的完善。该系统可在Windows 95/98/ME/NT/2000平台上运行。

杨仑^[10]2007年在《面向基因的文献组学中枢纽（hub）法则提出及其应用》文中指出以in bulk的方式处理分子生物学文献，而非一篇一篇地阅读其中的基因信息，这可能是继转录组学和蛋白质组学后又一种高通量的生物信息获取方式，属于文献组学研究的范畴。蛋白质组研究中存在“中心性一致死性法则”，即拥有越多相邻节点的蛋白，其缺失更倾向于对机体具有致死性。为寻求科学的对称之关，本研究重点探讨了基因同现网络(GGCON)中是否存在以及缘何存在这种类似中心性一致死性法则的原理的问题，并对其在解决主题相关基因排序及镇痛药靶筛选等生物学问题中的具体应用进行了探索。首先通过归纳和总结提出了“一个在某主题下尚未被引起重视的基因如果在基因同现网络中具有越多的相邻节点，则具有越高的概率被引起重视”的规律，并将其命名为“枢纽法则”。通过实验证实该规律能够应用在主题相关基因的突出或预测中。通过基于构想生物学的建模对该规律形成的原理进行了演绎：将主题相关基因划分为已知与主题相关的核心基因以及与主题关系尚待确定的拓展基因。将拓展基因转变为核心基因的影响因素归结为依赖构想链路的因素(红色因素)和不依赖构想链路的因素(绿色因素)。通过回归分析对节点邻居数与主题之间的相关性进行了量化，随后发现红绿因素在决定基因与主题关系的权重的比值在逐年升高，最终证明依据枢纽法则来挖掘主题相关基因具有理论上的可行性，运用时效上的可持续性以及实际应用中的可操作性，并运用枢纽法则对阿尔兹海默病(AD)、乳腺肿瘤以及基底神经退化等疾病的相关基因进行了挖掘。为解决主题相关基因检索中的“噪音干扰”问题，根据枢纽法则原理设计了GeneRankV1算法，使得一个基因如果在GGCON中越多地连接到高等级的基因，其自身的等级也得以提高。以专家罗列的AD相关基因作为金标准，GeneRankV1算法能够从受噪音干扰的AD相关基因列表中挖掘出位于此金标准中的基因。建立了将GeneRankV1算法付诸实际应用的Gengle平台。截至2006-6-30，Gengle收录人类疾病1131种，通路199个，涉及人类基因共计10699个、文献96547篇以及基因专利文献9437件。该平台面向基因组织信息，有效地排序主题相关基因，提供对基因与主题相关性按图索骥的文献来源。其基因专利文献组模块也能够对刻意隐藏于基因专利中的专利基因进行挖掘。主题相关基因检索的检索问题与镇痛药靶的选择问题之间具有密切的关联。已知的或潜在的镇痛药靶存在于以疼痛为主题的MEDLINE中。然而，从其中选出镇痛药靶的文献组学方法仍然面临噪音干扰问题。为此根据枢纽法则原理设计了GeneRankV2算法，获取了83450篇以疼痛为主题的文献组，利用该算法有效地从697个疼痛相关基因中选出已知的镇痛药靶，挖掘出已被忽视的镇痛药靶，预测了潜在的疼痛相关基因和镇痛药靶。首先，考虑到围绕被忽视的镇痛药靶的镇痛药物研发相对进行较少，知识产权覆盖相对疏松，由此基于GeneRankV2算法突出了11个被忽视的候选药靶作进一步考察。其次，考虑到生物化学与分子生物学实验室制备此类药靶配体的硬件条件不适合进行化合物的合成，最终从11个候选药靶中确定了以烟碱样乙酰胆碱受体(nAChr)为靶点的镇痛药物开发方向。据此方向创建了一套“挂钩”蛋白表达纯化系统，实现了将nAChr配体的复性、肠激酶切割以及纯化集成在Ni亲和层析柱上完成的技术方案。上述工作为文献组学中基于枢纽法则的主题相关基因挖掘提供了理论依据和实验基础，体现了文献组学、枢纽法则及其衍生算法在解决具体生物学问题中的应用价值。此外，Gengle平台有望成为当前面向基因的信息平台的重要补充，Gengle建设中所建立起来的首个中国专利基因数据库(NASDAP)也能够为相关研究的思路启发及知识产权战略制定提供参考。而基于枢纽法则的镇痛药靶选择实现了从海量疼痛主题文献中确立有把握且有潜力的研究方向，与之配套的“挂钩”系统的建立的建立，也为后续镇痛新药研发的研发提供了实践根基。

参考文献：

[1]. 自然语言处理在药物专利检索系统中的应用[D]. 程晓静. 大连理工大学. 2004

[2]. 药物专利的数据挖掘技术研究[D]. 梁静. 大连理工大学. 2007

[3]. 族性结构的计算机辅助标引及结构词典的建立[D]. 王艳. 大连理工大学. 2006

[4]. Markush结构分析与检索系统[D]. 徐冰. 大连理工大学. 2005

[5]. 药物专利化学结构匹配检索新方法[D]. 雷春雨. 大连理工大学. 2004

[6]. 基于Web的药物专利检索系统[D]. 徐亮. 大连理工大学. 2004

[7]. 中药专利信息分析与数据挖掘研究[D]. 马运运. 北京协和医学院. 2016

[8]. 基于深度学习理论与方法的中文专利文本自动分类研究[D]. 马双刚. 江苏大学. 2016

[9]. 中国药物专利信息系统的研究与开发[D]. 王庭利. 大连理工大学. 2001

[10]. 面向基因的文献组学中枢纽（hub）法则提出及其应用[D]. 杨仑. 南京农业大学. 2007

标签：有机化工论文; 自然语言处理论文; 基因合成论文; 专利检索论文; 文本分类论文; 专利管理论文; 文本分析论文; 原子结构论文; 专利论文; 基因结构论文; 文献回顾论文; 算法论文;

自然语言处理在药物专利检索系统中的应用

参考文献：

猜你喜欢