中文文本数据挖掘研究

中文文本数据挖掘研究

邱剑[1]2016年在《电力中文文本数据挖掘技术及其在可靠性中的应用研究》文中进行了进一步梳理随着电网智能化与信息化的建设,电网企业积累了大量的数据,逐渐构成了学术界和工业界共同关注的电力大数据。本文将电力系统全生产过程、电力设备全寿命过程中产生的数据,统称为全寿命数据,其类型涵盖了结构化和非结构化数据。目前在电力领域中,主要侧重于结构化数据挖掘的研究,也有针对图像识别的研究,但是,电力文本挖掘研究才刚刚起步。本文以获取可靠性的相关指标(统计指标、健康指数、广义故障率和可靠性)为目的,以电力设备资产管理为着眼点,重点对电力文本挖掘及多源数据的融合技术进行了深入研究,取得了如下成果。1.针对可靠性和资产管理的特点,给出了电网自然语言处理(Natural language processing for power grids,NLP4PG)的基础定义。编撰了专业词典、变压器本体词典和领域语料库,并将部分内容开源共享。融合了本体论与电力领域知识,建立了适用于NLP4PG的总框架。指出了NLP4PG的工作原理和潜在应用,并分析了若干语言特性和语言模型,填补了电力中文文本挖掘研究的空白。2.基于语义框架思想,将离线统计学习与在线语义规则的方法相结合,提出了适用于故障与缺陷分类统计的文本挖掘模型。解决了缺陷文本句子成分难以划分、数字量无法精确提取等问题,并实现了本体字典的半自动化构建技术。3.针对设备健康指数(Health Index)多源、多类型的特点,改进了kNN算法,提出了具备自主区间寻优能力的电力缺陷短文本分类模型。该模型实现了从故障缺陷文本到HI的自学习映射,能够在最大程度上挖掘同类设备的相似信息、融合同台设备的历史信息,使得HI更加合理、精准。在一定程度上,改变了运维人员主观评价故障/缺陷等级的方式,并符合电网企业精细化管理的发展要求。4.为了能够充分利用从全寿命数据中挖掘到的亚健康状态信息,同时处理多类型复发事件,提出了基于鞅过程和非参数理论的设备故障率预测模型。该理念完全区别于以往单一变量的故障率模型(基于时间或状态量的定参数分布函数),通过算例结果、鞅残差检验、灵敏度分析表明,该模型能够定量地、精确地描绘短期故障率,为剩余寿命预测、状态检修优化提供基础可靠性指标。5.针对智能变电站自动化系统(Smart Substation Automation System,SSAS)这类新型的、缺乏运维数据的场景,提出了基于网络层次分析法的广义可靠性评估模型。参考IEC 61850标准、设计文档和相关文献,构建了SSAS本体平台,包括物理本体、逻辑本体和信息流本体。对应地,将系统可靠性作为总指标,涵盖了物理可靠性、逻辑可靠性、信息流可靠性和系统经济性。四大指标下面包含了若干定量与定性的指标。通过算例结果与灵敏度分析表明,在缺乏运维数据的情况下,本模型能够用于新型系统的可靠性评估,为设计方案的遴选提供一种新思路。

周雪忠[2]2004年在《文本挖掘在中医药中的若干应用研究》文中指出文本挖掘是人工智能、机器学习、自然语言处理、数据挖掘及相关自动文本处理如信息抽取、信息检索、文本分类等理论和技术相结合的产物,它得到了越来越多研究人员的关注。文本挖掘是数据挖掘研究面向文本数据的自然延伸,其研究仍处于婴儿期,在方法和应用方面均未成熟。中医药学作为生命科学具备中国特色的传统医学组成部分,在疾病诊治和方药使用等方面具有特色和显着的临床疗效,并包含着丰富的知识,几千年的医学实践积累获得了大量的数据。在中医药学信息化建设的基础上进行KDD研究具有重要意义。中医药领域未存在文本挖掘的相关研究,本文在多个方面如文献临床复方药物组成和科属配伍知识发现、中医术语及关系抽取和中医证候基因关系知识发现等进行了研究。本文研究内容包括如下四个方面: ● 进行基于字特征的中文文本分类研究,实验表明字特征是中文文本分类的高效特征表示方法。提出了分布字聚类方法,该方法无需分词、具有低达10~2数量级的特征维数和高性能的特点,其与NB结合的性能接近基于词特征的SVM分类器,微平均准确率达到86%。 ● 进行中医药文献信息抽取研究,提出了Bubble-bootstrapping和ATP方法,该方法无需任何浅层中文自然语言处理、专业词库和已标注的训练语料,是一种接近无导师的可缩放性、可移植性信息抽取方法。在近40万文献题录的复方名称和疾病名称抽取实验中,取得了平均准确率达99%,F1值65%左右的结果。应用于中医药文献自动标引的副主题词抽取,达到80%的F1值。ATP是一种semi-hard的模式方法,是未来信息抽取研究的技术方向之一。 ● 进行文献临床复方药物组成文本挖掘研究,提出了复方科属配伍的概念,并进行了临床复方科属配伍知识发现研究,实现了MeDisco/3T文本挖掘系统。MeDisco/3T实验表明,复方文本挖掘研究具有较高的质量和实际应用价值,复方用药中存在科属配伍的规律,并能进行挖掘发现。 ● 整合利用中医药文献库和生物医学文献库(Medline)进行中医证候和基因相关关系知识发现研究,实现了原型系统MeDisco/3S,并进行了初步实验和分析,表明MeDisco/3S能为辅助中西医结合研究和生命科学交叉研究提供智能化的知识发现平台,是进行生物医学文本挖掘和多学科信息整合研究的典型范例。

茅剑[3]2007年在《中文Web文本聚类研究》文中研究指明文本聚类是文本数据挖掘的重要技术,它是一种非监督学习,可以由计算机自动进行,不需要人工干预。文本聚类通过比较文本的相似性,能发现文本的内在特征及分布规律,从而获得对文本数据更深刻的理解与认识。本文以中文Web文本作为文本聚类的挖掘对象,并对中文Web文本聚类的全过程进行了研究。文中分析研究了中文Web文本聚类各个处理阶段,其中包括:中文Web文本预处理、文本聚类、性能评价。在文本预处理阶段的研究中,本文针对文本聚类的特点,提出了一种基于遗传算法的特征选取方法。该方法可以在无先验知识的情况下对特征向量降维,达到降低聚类复杂度,并保持聚类精度的效果。在文本聚类算法的研究中,本文提出一种带孤立点检测的改进K-means算法。在该算法中,对文本数据集先进行孤立点检测提取,然后执行聚类,排除了孤立点对聚类的影响。并且在聚类过程中改进了传统的初始聚类中心选取方法,采用基于最远距离的初始聚类中心选取方法,一定程度上避免聚类陷入局部最优。实验证明该算法有很好的适应性,在一些方面优于原来的算法。最后,本文设计并实现了一个中文Web文本聚类模型,模型采用模块化设计,实现了中文Web文本聚类的全过程。

谌志群, 张国煊[4]2007年在《文本挖掘与中文文本挖掘模型研究》文中指出文本挖掘,又称为文本数据挖掘或文本知识发现,是指在大规模的文本中发现隐含的、以前未知的、潜在有用的模式的过程。本文首先对文本挖掘进行了概述,给出了文本挖掘的定义、特点和研究现状。然后对国内中文文本挖掘的研究现状进行了分析,指出了当前中文文本挖掘研究中存在的主要问题和主要研究方向。最后提出了一个统一的中文文本挖掘模型——UCT-MF。该模型具有层次性、开放性和可扩展性,为中文文本挖掘系统提供了基本体系框架。

许高建[5]2007年在《文本挖掘关键技术研究及实现》文中提出随着互联网技术的飞速发展且日益成熟,使得互联网上的信息每天都在呈现爆炸式增长,但同时也出现了“信息丰富而知识相对匮乏”的问题。由于Internet的开放性及异构性,用户很难快速准确地从互联网上获取自己所需的有价值信息,因此,文本挖掘技术在近几年倍受研究者的关注,是一项重要的研究课题。文本挖掘是数据挖掘与信息检索两门学科的交叉,可以对文档集合的内容进行总结、分类、聚类、关联分析以及趋势预测等。这首先需要对文本进行预处理,获取文档的特征表示,抽取文档的信息才可以实现的。但是由于中文文本的组织方式不同于西文,给以上技术的研究带来了相当大的困难。虽然目前在文本预处理方面的研究有些进展,但是对于文本信息获取的精度都不是很高,还有很大的研究空间。本文正是对中文分词、特征抽取、文本分类等技术分别进行了研究,主要做了如下的工作:1.由中文词条切分技术开始,介绍了几种分词的方法,并设计了一个分词系统,提出了一种改进的歧义消除算法;2.研究分析了文本特征值的抽取技术,分析比较了几种特征值获取技术性能优劣,重点研究了信息增益和互信息以及词频统计等方法,提出一种改进的特征抽取方法,并实现了相应的系统模型;3.分析比较了文本分类技术,利用改进的权重和KNN分类方法相结合,实现文本的分类,并通过实验来验证其相应的查全率和准确率。

张波[6]2017年在《基于文本挖掘技术的情报处理方法研究》文中指出一直以来,情报机构的主要职能是将搜集汇总的大量情报素材加以分析研究,形成情报产品后提供给情报用户,以利于情报用户决策。而在情报机构处理的各类情报素材中,公开来源的文本素材是所处理的情报素材的重要组成部分。而随着近年互联网技术的飞速发展,由网上电子文档、电子邮件、数据库等形式承载的文本信息量正不断爆发式地增长,情报素材来源极大丰富,传统的情报处理方法已经越来越难以满足任务需要。与此同时,情报用户的情报需求越来越旺盛,时效要求越来越高。如何从浩瀚的互联网公开信息中挖掘出有用的文本信息并对其进行高效率的处理上报,业已成为当前情报机构急切需要解决的重要问题。针对当前情报机构面临的情报质量和情报效率两个现实问题,本文尝试利用文本挖掘的相关技术,对情报机构所获情报素材开展预处理、分类和价值挖掘研究,探索提高情报处理效率和从零散情报素材中发现情报价值有效方法。本文主要工作有:一是情报预处理技术研究。情报文本分词是预处理的关键环节。本文结合情报处理工作实际需要,提出了基于专门领域的情报词典的分词策略,同时构建了一个简单的情报专业领域词典,有效地提高了情报文本的分词准确率。二是情报分类研究。本文利用KNN(k-nearest neighbor)分类算法进行情报文本的分类。分析了KNN分类方法的不足,采用改进KNN的方法进行了分类系统设计;通过对比实验发现,改进后的KNN分类方法比改进前分类准确性和效率都有明显提高。叁是情报价值挖掘研究。本文利用关联规则算法推导军事情报的要素之间的强关联规则,利用Apriori算法进行情报价值的深度挖掘。针对军事情报分析工作的特点,本文采用优化后的Apriori算法,着眼于情报要素重要性差异,将重要性大的情报要素赋予较大权值,将重要性小的要素赋予较小的权值,从而挖掘出更多可靠而且潜藏的情报结论。最后,本文对情报素材进行预处理、分类和价值挖掘后,基于海空军事目标的位置关联性,尝试研究情报报告自动生成方法。本文的研究工作和研究成果对于情报实践这一专业领域的文本挖掘技术研究有一定的理论意义;尤其是将文本挖掘技术与现实情报工作流程相结合,可以有针对性地提高情报处理工作的效率和有效性,对现实情报处理工作具有一定的参考价值。

倪茂树[7]2007年在《基于语义理解的观点评论挖掘研究》文中进行了进一步梳理随着互联网技术的迅速发展,网上文本数量呈指数级增长,如何从这些海量的文本中挖掘有用的信息成为当前研究的重要课题。文本挖掘是指以计算语言学、统计数理分析为理论基础,结合机器学习和信息检索技术从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。本文就是立足于文本挖掘技术的研究,结合当前电子商务和网上评论的盛行,从商品的观点评论中挖掘信息,反馈给商家和消费者。本文第一部分详细地介绍了文本挖掘和观点评论挖掘的发展概况和相关技术,随后在第二部分系统地分析了文本挖掘所采用的技术及算法。同时,对文本挖掘中的重要分支——文本分类做了深入的研究,探讨了文本分类的一般过程,以及目前比较流行的分类方法。在文章的第叁部分对前人所做的工作做了一些改进,分为两个方法,第一由于传统粗糙集规则匹配方法过于复杂,设计了一种简化算法的分类方法;第二是基于词共现概念的文本分类方法,弥补了传统向量空间模型中特征项的独立性,用词共现的概念特征体现了文档中的语义。两种方法虽然都提高了分类结果,但所面对的问题不一样,第一种是为了优化算法复杂度,而第二种是侧重于语义概念的。本文的后叁部分鉴于网络评论的流行,结合一些文本挖掘的思想,对网络商品评论的挖掘做了一些研究。借助于国外一些学者的研究成果,设计了两种商品评论挖掘算法。第一种算法为基于关联规则和语义理解的商品特征挖掘,思想主要侧重于挖掘商品评论中的特征,整体思想比较简单,但过分依赖于统计的方法,缺乏深入的语义分析;第二种算法是在第一种方法的缺陷上做了一定改进,利用依存关系定位观点词,同时将语义相似度的思想引入中文的商品评论中,结合中文和英文的区别,正确率和召回率均有所提高,但总体来说,由于网络评论的自由性,召回率不如正确率。

徐亚娟[8]2008年在《基于公安业务信息的文本挖掘技术研究与实现》文中研究表明随着计算机的普及以及互联网技术的飞速发展,公安领域的文本信息量越来越庞大,不论是现有的文本数据库,还是网页实时更新的文本信息,这使公安部门迫切需要一些自动化的工具,以帮助业务人员在海量的信息中快速有效的获取所需要的案件信息,从而使犯罪信息的文本挖掘技术成为数据挖掘中一个研究的热点课题。目前在文本挖掘领域,对自由文本的处理上,主要的技术大部分都集中在中文分词、文本特征提取、分类、聚类算法上,系统地将这些方法融合在一起应用于实际领域的研究还比较欠缺。本文在分析了文本挖掘各种技术的基础上,提出了一种基于案例相似性计算的文本信息挖掘模型,该模型能够有效地解决传统的文本挖掘系统抽取特征语义信息缺乏、表达能力薄弱等问题。该文本挖掘模型主要由案件相似性判别以及文本聚类两部分组成。在案件相似性计算中,模型借助改进的中文分词算法,提出了一种基于案件分解的知识匹配方法,该方法通过对案件文本信息的关键词抽取以及匹配计算,有效地增强了相似案件匹配语义分析能力,提高了系统的准确率。该方法不仅增强了单一案例的知识表达能力,大大减少了案件库中相似案件的数量,同时也增强了案件知识库的学习能力。在文本聚类中,模型主要是在分析网页案件信息的基础上,实现了K-Means算法的应用。该方法按照文本信息的关键字聚类,有效地实现了相似网页信息的归并。

谌志群, 张国煊[9]2005年在《文本挖掘研究进展》文中研究指明文本挖掘又称为文本数据挖掘或文本知识发现,是指在大规模文本集合中发现隐含的、以前未知的、潜在有用的模式的过程。本文首先介绍了文本挖掘的概念,包括文本挖掘的定义、特点、与其它几个研究领域(数据挖掘、信息检索、信息抽取、计算语言学等)的关系;然后讨论了文本挖掘模型、文本特征抽取与中间表示、文本挖掘的分类与实现技术;最后介绍了几个文本挖掘产品。

徐西孟[10]2011年在《基于OODA决策循环的主题发现技术的研究与设计》文中提出本文针对日益严峻的“信息爆炸、数据泛滥、知识贫乏”的窘境,提出了一种基于OODA决策循环的主题发现。主题发现是从海量的数据中快速,有效的获取有价值的信息,了解数据集内容的一系列技术方法的总称。主题发现分为广义和狭义之分,广义的主题发现针对各种常见数据集(文本,图像,音频,视频等),狭义的主题发现仅针对文本数据。我们通常所说的主题发现是狭义的主题发现。本文将类似人类思考模式的OODA引入,作为主题发现的框架,充分借鉴智能数据挖掘、文本挖掘,数据融合,知识发现等技术方法和相关的思想,融合多个学科,多角度的对主题发现进行研究和分析。基于OODA的主题发现可以使人们能够从大量繁杂的信息中快速有效的提取主题,获取必要的知识,供人们分析决策。其相关的技术、方法、模型和思路可以应用到信息检索,文本分类和聚类,舆情监控,文献检索,主动信息推送等应用领域。目前,主题发现缺乏通用完善的主题发现框架;主题发现中模式的识别,特征项的提取,相似度的计算等模块都需要研究加强改进的算法,提高性能;主题发现中领域的适应性不够,缺乏专门领域的主题发现,以适应不同的用户和环境需求;主题发现的过程和结果缺乏可视化的展示以及与用户的交互,需要寻找或研究将可视化的发现过程与结果直观展示,便于用户理解,评价,交互,改进的方法和工具。本文除了将OODA作为主题发现的技术框架加以研究探索外,还改进了TF*IDF算法计算特征项的权重和去除停用词;利用关联规则挖掘解决复合词的识别问题;利用关联规则与改进的TF*IDF算法相结合构建领域词库,增强领域适应性,加快主题词提取的效率和准确度。对词语,句子,文本等进行基于关键词的关联规则挖掘的关联分析,相似度计算,并将关联分析和改进的K-means算法进行主题聚类研究;利用可视化的开发工具NetBeans,验证实现主题发现的相关技术方法,将该主题发现的过程加以可视化的展示,便于进行直观的理解、分析,便于与用户交互,从而更好的调试改进。使用某大学长年积累的BBS数据对基于OODA的主题发现框架加以验证,发现论坛数据中的热点问题,便于进行舆情监控。经过理论分析论证,及大量实验的验证,基于OODA决策循环的主题发现是可行的,有效地,能够很好的对主题发现问题进行剖析,合理抽象划分,易于理解分析,适合于主题发现的分析与设计。本文中的一些创新性的主题发现技术分析方法,也取得了比较好的效果或比以往的一些技术方得到了改进提高。

参考文献:

[1]. 电力中文文本数据挖掘技术及其在可靠性中的应用研究[D]. 邱剑. 浙江大学. 2016

[2]. 文本挖掘在中医药中的若干应用研究[D]. 周雪忠. 浙江大学. 2004

[3]. 中文Web文本聚类研究[D]. 茅剑. 厦门大学. 2007

[4]. 文本挖掘与中文文本挖掘模型研究[J]. 谌志群, 张国煊. 情报科学. 2007

[5]. 文本挖掘关键技术研究及实现[D]. 许高建. 合肥工业大学. 2007

[6]. 基于文本挖掘技术的情报处理方法研究[D]. 张波. 电子科技大学. 2017

[7]. 基于语义理解的观点评论挖掘研究[D]. 倪茂树. 大连理工大学. 2007

[8]. 基于公安业务信息的文本挖掘技术研究与实现[D]. 徐亚娟. 浙江大学. 2008

[9]. 文本挖掘研究进展[J]. 谌志群, 张国煊. 模式识别与人工智能. 2005

[10]. 基于OODA决策循环的主题发现技术的研究与设计[D]. 徐西孟. 济南大学. 2011

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

中文文本数据挖掘研究
下载Doc文档

猜你喜欢