分词论文

数字图书馆中词频提取和自动文本分类方法的研究
任美睿[1]2002年在《数字图书馆中词频提取和自动文本分类方法的研究》文中研究说明数字图书馆是一个新兴的、涉及到互连网、多媒体、数据仓库、数据挖掘、版权保护等诸多技术的计算机应用领域，应用和商业前景非常广阔。现在国内外对数字图书馆的研究刚刚起步。我们在吸取前人经验的基础上，基于机群并行计算环境研制...
基于多类的汉语文本自动分类研究
卢忠良[1]2002年在《基于多类的汉语文本自动分类研究》文中研究指明随着计算机应用及“Internet”的日益普及，通过各种渠道获取的数据和信息正以惊人的速度增长，“丰富的数据与可用的信息”之间的矛盾也日见突出。如何快速有效的发掘海量信息中蕴含的有价值信息，合理分类及准确地定位所需信息，同时摒弃大...
数据挖掘在Internet信息检索中的应用
熊回香[1]2003年在《网络信息检索及其发展趋势研究》文中进行了进一步梳理随着Internet在全世界范围内迅猛发展，网上庞大的数字化信息和人们获取信息之间的矛盾日益突出。因此，对网络信息的检索技术及其发展趋势进行探讨和研究，是一个既迫切而又实用的课题。本文通过对网络信息检索的基本原理、网络信息检...
基地统计和规则的中文姓名识别系统的研制
王省[1]2000年在《基地统计和规则的中文姓名识别系统的研制》文中进行了进一步梳理中文姓名的识别是提高汉语分词系统正确率的关键技术之一，对整个机器翻译系统有重要影响。本文将统计和规则方法结合起来，根据其侧重点不同，提出了侧重规则和侧重统计两种识别模型。规则模型主要利用串频统计作切分预处理，并利用统...
中文智能搜索引擎的设计与实现
皮鹏[1]2002年在《智能搜索引擎系统的研究》文中指出搜索引擎作为互联网上最主要的信息搜索工具，在各个领域都已得到广泛应用。然而。由于网络信息量迅猛增加和网络信息组织的无序性，传统搜索引擎已经无法满足人们对信息服务个性化、智能化的需求。本文提出了智能搜索引擎的解决方案——通过机器学习获得用户的兴趣...
基于时空调节及基于三次遍历的快速关联规则挖掘算法的研究
路燕[1]2000年在《基于时空调节及基于三次遍历的快速关联规则挖掘算法的研究》文中提出数据挖掘是当今国际上人工智能和数据库研究方面最富活力的新兴领域，其目标是为了满足用户目标，自动处理大量的原始数据，从中识别重要和有意义的模式，并将其作为知识加以表达。是从大量的数据中发现潜在的、有用的知识的过程，...
任意类型的未登录词的识别研究
何燕[1]2000年在《任意类型的未登录词的识别研究》文中认为我们利用机器自动分词并经人工校对后的350万字语料，采用统计的方法，对出现在分词碎片中的未登录词进行识别。本文报告了我的实验情况：处理训练语料，从中获得有用的资源；对生语料文本进行两趟分词，第二趟分词是从分词碎片中识别未登录词；进行封闭测...