Web信息主题收集技术研究_文本分类论文

Web信息主题采集技术研究，本文主要内容关键词为：技术研究论文,主题论文,信息论文,Web论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

〔分类号〕G250.76 G252.7

随着网络技术的发展以及信息需求的变化，通用搜索引擎的缺点表现得越来越明显。它面向整个Web进行搜索，但实际的覆盖率却不到全部静态网页的20%[1]；它用同样的信息域支持所有用户的各类检索请求，缺乏针对性，造成大量的无关结果。为了克服通用搜索引擎的不足，满足科研人员深层次的、面向特定学科的信息需求，人们提出了基于主题的搜索技术。所谓主题搜索，是指根据用户定制的主题内容搜索有限的网络空间，发现、下载与主题相关的信息，提供个性化的信息服务。主题信息采集系统代表搜索引擎未来的发展方向[2]，其核心技术包括种子页面生成、主题表示、相关度计算策略、主题爬行策略以及结束搜索策略等。

1 种子页面生成技术

种子页面即主题爬行的起始页面，每个种子页面是一个具体的网页，它可以是一个网站的首页，也可以是网站下属子页面。这里叫“种子页面”而不是“种子站点”，就是为了突出爬行起点的专指性，缩小爬行范围，提高爬行效率。种子页面的选择将直接影响信息采集的质量以及采集工作的效率，为此，要求种子页面具有较高的主题相关性以及主题链接的中心度。有3种方法可以生成种子页面：①人工指定，即由专家给出相关的种子页面，也称为样板页面(sample URL)；②自动生成，用户指定部分关键词（如：“digital library”、“focused crawler”），并将这些关键词提交给通用搜索引擎（如Google），从检索结果中抽取前N个页面作为种子页面；③混合模式，即自动生成与人工指定相结合，首先利用通用搜索引擎获得部分相关页面，然后经人工筛选、过滤、合并、评价，形成一个能充分反映主题特征的种子页面集。

构造种子页面是一个复杂的过程，以上方法也有局限性，最好的策略是增加系统的学习能力。通过建立学科主题种子页面库，在对检索历史、用户反馈信息分析的基础上，动态优化相关主题的种子页面集，为新主题定制提供默认种子页面，并对用户进行种子页面选择、评价提供参考。

2 主题表示技术

主题描述的不准确性常常是造成不良检索结果的重要原因。Soumen Chakrabarti等人的研究[3-4]表明，要获得一个好的检索结果，检索式平均需要7.03个检索词以及4.34个操作符，而Alta Vista实际接收到的用户检索式平均只包括2.35个关键词及0.41个操作符。主题表示是主题信息采集的前提，当前常用的主题表示方式包括关键词表示法、Ontology表示法等。

2.1 基于关键词的主题表示

基于关键词的主题表示是指用一个特征关键词集(topic keywords)来表示主题内容。一个关键词可以是单个的词、短语，包括权重、语种等属性。关键词一般从种子文档中抽取，种子文档包括用户指定的样板文档（又包括爬行前指定的相关文档以及爬行过程中用户反馈的相关文档）、种子页面对应的相关文档以及对种子页面进行邻链扩展后产生的文档。

所谓邻链扩展，是指根据链入、链出关系对种子页面进行扩展，增加指向种子页面的父亲页面（取前N个），从而扩大种子文档集。根据需要，这种邻链扩展可以重复进行多次。Google、Alta Vista等搜索引擎都提供父亲链查询服务，如向Google提交检索式：link:http://www.cs.cornell.edu/home/kleinber/，就可以返回所有指向http://www.cs.cornell.edu/home/kleinber/页面的父亲页面。ARC试验系统[5]就是采取这种方法建立种子文档的。

生成主题词一般要经历以下7个操作步骤：第一步，接收用户输入的样板文档；第二步，生成种子页面；第三步，对种子页面进行邻链扩展，生成扩展的种子页面，重复该操作直到指定条件被满足；第四步，根据扩展后的种子页面，获取对应的种子文档集；第五步，将用户输入的样板文档以及系统生成的种子文档集合并为一个种子文档sDOC；第六步，利用TF/IDF等算法对种子文档sDOC进行词频统计，并加权计算；第七步，取权值最高的前N个词构成一个关键词集，用来表示给定爬行任务Q的主题[6]。早期的主题采集系统基本上都利用基于关键词集的主题表示方式，如Mercator[7]、北大天网等。

2.2 基于Ontology的主题表示

基于Ontology的主题表示技术采用概念集来描述用户需求，它不但能很好地描述主题内容，而且可以揭示概念间的语义关系，提高主题描述的精度，使主题相关度计算以及主题爬行策略计算更准确。为创建主题Ontology，首先要在分析用户需求的主题内容、学科范围以及相关条件的基础上，确定相关概念、属性；然后，依据学科Ontology体系，建立主题概念、属性间的关联与功能，生成一个具体的主题Ontology实例；最后，利用主题Ontology指导主题信息采集中的主题判断，并在采集过程中依据用户反馈信息不断优化主题Ontology实例，使其能更好地表达信息采集的主题。

相关性匹配计算是基于Ontology主题表示实现的关键。Ontology是—个有向图，而目标文档是—个文字流，由于结构的不同，两者无法直接进行相关性匹配，需要进行结构转换。通常有3种匹配方法：①基于文本流的相关性匹配，即将主题Ontology的有向图转换为ASCII文本流，实现两者在文本流上的匹配计算。该方法的优点是实现简单；缺点是无法用文本流表示有向图的全部语义，降低了Ontology原有的语义表达优势。②基于有向图的相关性匹配，其原理是将目标文档转换为有向图，即利用自然语言理解工具，分析文档语法结构以及语义内容，为其建立一个类似于Ontology的文档内容图，实现图形层面上的匹配计算。该方法的优点是充分发挥Ontology的优势，实现了语义层面上的相关性判断；缺点是文档图形化难度较大[8]。③基于中间格式的相关性匹配，即将有向图、文本流同时转换为第三方结构模式，在共同结构模型的基础上实现相关性匹配计算。

在基于Ontology的主题信息表示方面，德国Karslruhe大学的Marc Ehrig等人于2003年开发了一个实验系统CATYRPEL[9-10]，它包括用户交互界面、Web爬行器、文档预处理器、Ontology管理器、相关度计算模块等5部分。该研究在主题信息的Ontology表示、基于Ontology文档相关度计算等方面提出了具体实现模型，并提出了4种搜索策略：简单搜索（相关度计算只比较实体本身）、分类词表搜索（增加对上下位实体的比较）、相关性搜索（增加对实体间相关性比较）、全属性搜索（以上方法的综合）。

3 相关度计算策略

相关度计算是主题信息采集的核心技术，它不但直接影响主题采集的质量与效率，而且影响结果信息的呈现排序，因此，在计算网页的相关度以及进行待爬URL优先级排序时，需要综合运用多种启发式策略。

3.1 启发式策略

假设L是网页P指向网页C的一个链接（见图1），网页P已经被下载并被解析，网页C为待下载页面，那么，基于L、P以及爬行主题Q等信息，在估算网页C潜在的主题相关度时，可以考虑的启发式策略包括：①网页P与Q的相关度；②链接L的锚文字与Q的相关度；③链接L的周围文字与Q的相关度；④链接L的URL超链字串与Q的相关度；⑤链接L的兄弟链接与Q的相关度；⑥L的上下文环境与其他已知相关网页的上下文环境的相似度等。

图1 网页P指向网页C

3.2 相关度算法

主题相关度算法可以分为基于文本内容分类法与图形结构分析法两种类型。作为经典的相关度算法，基于文本内容分类的主要思想是词频统计，它需要事先对分类器进行训练，生成分类知识库，然后利用知识库去识别目标文档的主题，文本分类常用模型有布尔模型、向量空间模型、概率模型，其中最普遍使用的是向量空间模型；Web图形分析法对超链结构进行分析计算，实现对文档内容相关性的加权，以提高相关度计算的精度，当前最具影响的算法包括PageRank、HITS、ARC、CLEVER等。

3.2.1 PageRank PageRank根据页面链入、链出值计算网页的重要性，Google即采用该算法。原始PageRank算法将整个网络作为计算域，其计算结果不与任何用户主题相关，有利于发现权威网页，而不利于发现主题资源。针对主题信息采集，应对PageRank算法做相应修改，将计算域由原来的整个网络改为与主题相关的文档集合。Teoma[11]即采用该方法，它将爬行器采集到的与主题相关网页构成一个相关页面社区(community)，然后，在该区域内计算网页的Page Rank，这样计算出的结果对于指导后续主题资源采集更加有效。

3.2.2 HITS(Hyperlink Induced Topic Search)　HITS用权威级别、中心级别来区分网页的重要性，通过对查询结果集进行相关计算获得每个页面的HITS值。HITS虽然也针对查询结果集计算网页的权威度与中心度，但它计算的依据仅仅是前向链、后向链，没有考虑文本内容，特别是文本语义没有考虑，所以单独利用HITS指导主题信息采集容易导致主题污染(contamination)或主题漂移(drift)。

3.2.3 ARC(Automatic Resource Compilation)[12]　Soumen Chakrabarti等人在Stanford大学创建了一个实验系统ARC[15]，该系统对HITS算法进行了改进。首先，ARC对网页的权威性与中心性进行了重新定义：权威网页(authority)是指包含更多的与爬行主题相关的网页，中心网页(hub)是指包含大量指向权威网页链接的网页，并且这些出链指向的网页包含很多与主题相关的信息。其次，ARC在估算待爬页面的相关性时开始考虑锚点文字，后来人们又将锚点文字扩展到它的上下文信息。

3.2.4 CLEVER[13]　在主题信息搜索过程中，造成主题污染或漂移的主要原因来自页面的重要性(popular)因素而不是无关文档，这些因素包括停用网站、检索词加权模式、链接加权模式、相关网站之间的重复链接等。为解决主题漂移等问题，CLEVER对HITS算法进行了改进，在计算一个网页的权威度与中心度时，保留相关节点，裁剪无关节点；对来自一个网站或一个作者的多个超链只保留权威度最高的一个，删除其他超链；中心度值选取所有超链中中心度值最高的那个。试验表明，CLEVER算法在防止主题漂移方面收到了很好的效果。

4 主题爬行策略

主题爬行策略是主题搜索引擎区别于普通搜索引擎的特征所在。主题爬行策略的目标是保证爬行器尽可能多地获取与主题相关的信息，尽可能少地下载与主题无关的信息，以提高主题信息的发现率与覆盖率。在制定主题爬行策略时要考虑多种因素，包括待爬URL取舍策略、优先级排序策略、隧道技术、主题漂移应对策略等。

4.1 基本爬行策略

通用搜索引擎一般采取宽度优先的爬行策略(Breadth-First Search)，它可以保证较高的覆盖率，但主题发现率不高。主题搜索引擎采用主题优先策略(Best-First Search)，即按主题相关度排列所有待爬行URL，优先爬行主题相关性最高的页面，保证爬行器沿着主题相关度较高的路线前进[14]。在主题爬行器领域，该算法已经是相关技术评价的一个基准[15]。然而，主题优先爬行策略也存在很多不足，针对这些不足，人们提出了4种改进算法：

4.1.1 限定搜索算法(Limited Memory Search)[16] 只保留待爬队列中相关度最高的前N个链，将第N+1及其以后的链接作为低相关或不相关页面丢弃。该方法由于舍去了相关度较低的URL，减少了系统占用的缓冲空间，同时爬行覆盖范围限制在高相关度领域，爬行结果的主题相关度高，缺点是错过了经由低相关度页面发现高相关度页面的机会。

4.1.2 BFSK搜索算法(Beam Search)[17] 保留整个待爬行队列，但一次从队列中取出前K个URL并批下载全部K个页面，保证相同区域内的页面集中下载，避免受其他区域页面主题漂移的影响。

4.1.3 Fish搜索算法(Fish-Search)[18] Fish搜索算法的关键是根据用户的种子站点和查询关键词动态维护待爬行URL的优先级队列。其优点是模式简单、可实现动态搜索，但由于它只使用简单的字符串匹配来分配孩子节点潜在的相关度值，并且该值是离散的（0、0.5和1），造成被分配的值不能很好地代表孩子节点的相关度，同时，造成待爬行队列中优先级差别太小，网页之间的优先次第关系不明显。南京大学互联网数据采集系统[19]即采用Fish算法。

4.1.4 Shark算法(Shark-Search)[20] 针对Fish算法中的二值判断，Shark算法引入相关度度量法，取值在0到1之间，并将父亲节点的相关度按比例传递给孩子节点；在计算孩子节点潜在相关度时，综合考虑指向孩子节点链接的锚点文字、锚点周围文字以及父亲节点整个文本信息内容的相关度。与Fish算法相比，Shark算法精度更高，能更好地保证爬行器正确的搜索方向，提高相关信息的发现率。

4.2 隧道技术

如何穿过低相关度区域进入高相关度信息区域是主题爬行系统需要解决的一个重要问题，Ester[21]将其称为隧道技术(Tunneling)。隧道技术的基本思想是：当爬行器进入低相关网页区域时，扩大主题范围，而当爬行器重新进入正常区域时，恢复到原来定义的主题范围。具体实现方法有：①主题词泛化，即当爬行器所处区域页面主题相关度低于给定阈值时，则取主题词（或Ontology）的上位类词，如用“微生物”替代原来的主题词“细菌”；当爬行器所处区域页面相关度上升并超过给定阈值时，恢复初始指定的主题词，如将“微生物”恢复为“细菌”。②表达式泛化，对于形如Φ＝A∩B的提问表达式，用A的相关度。③调整权值，即通过增加关键词的权重来提高相关度，使本来相关度低于阈值的页面被作为“桥梁”页面下载，将爬行器引导到其后续链接页面。除此之外，D.Bergmark提出了一个建立在统计基础上的解决方案[22]，Pant则侧重研究如何扩展爬行范围[23]，而陈定权博士在他的博士论文中提出了对中英文导航页面的连通策略[24]。

5 结束搜索的策略

主题搜索面向有限的Web空间，用户在指定爬行起始位置的同时，还要指定爬行结束条件。制定结束搜索策略时可参考以下几种情况：

●待爬行队列为空（对于指定范围的爬行，该情况容易出现，但对于非限定范围的爬行该情况很少出现）；

●运行超时；

●已经获取到的相关网页数量达到用户指定值；

●从上一个相关网页之后，连续访问的无关网页数量达到用户指定值；

●当前爬行页面的相关度低于指定阈值；

●待爬行URL最大优先级权值低于指定阈值；

●根据隧道技术需要继续泛化，但已经到达词表的最顶层；

●被发现的相关网页包含一个“社区”，即相关文档包括一个子集，子集内文档间互相链接比子集与外部文档的链接更紧密。

6 其他技术

当前，信息检索系统正在从提供通用型服务转向提供个性化、专业化信息服务。设计开发一个性能良好的主题信息采集系统，除要考虑以上几项基本技术之外，还会涉及到人工智能、自然语言理解、可视化、语义网络等诸多方面。根据技术集成的策略不同，主题信息采集系统又表现为基于个性化定制的信息采集(customized Web crawling)、基于Agent的信息采集(agent based Web crawljng)、迁移的信息采集(relocatable Web crawling)以及面向深层Web的信息采集(deep Web crawling)等多种形式。

标签：文本分类论文; 搜索引擎技术论文; web技术论文; 搜索引擎原理论文; 用户研究论文; 文本分析论文; 算法论文;

Web信息主题收集技术研究_文本分类论文

猜你喜欢