关于网页爬虫技术的关键技术探究论文_耿贞伟1,苏文伟2,邹舟3

关于网页爬虫技术的关键技术探究论文_耿贞伟1,苏文伟2,邹舟3

(1.云南电网有限责任公司信息中心 云南省昆明市 650217;

2.云南电网有限责任公司信息中心 云南省昆明市 650217;

3.昆明能讯科技有限公司 云南省昆明市 650217)

摘要:现代信息技术飞速发展,不断的刷新人们的认知,只有加强对互联网技术的应用才能在未来的市场竞争中获得更大的发展空间。国家提出了“互联网+”的发展战略,我国各类企业都受到了一定程度的影响,电网工作也是逐渐改变观念,寻求新的突破。网页爬虫技术的日益发展优化了原有的搜索引擎技术,积极促进了各项工作的发展。本文针对网页爬虫技术的意义、分类以及相关应用技术做出一定分析。

关键词:信息技术;互联网;搜索策略;分析方法;线程机制

引言:现代科学技术和信息技术快速发展,对各行各业都产生了深远的影响,现今条件下,互联网技术被广泛应用于人们工作生活的各个领域。互联网更新换代的速度远超于其他技术,相对于搜索引擎来说,过去的搜索技术已经难以满足现代使用者的需求,现代网页爬虫技术能够为使用者提供准确的搜索结果和相关性的连接显示,更好的满足了使用者需求。网页爬虫技术能够运用计算机的预置程序快速的对搜索信息做出识别,猎取主要信息,并对各类信息的相关性做出分辨提供更多的搜索结果。

一、网页爬虫技术研究的背景及意义

1、网页爬虫技术的研究背景

互联网技术的出现极大程度上改变了人类的传统生活方式,互联网形成了新的信息分享大格局,突破了传统信息传播方式的局限性,使信息交流更加便捷开放。互联网技术快速发展,使用者数量逐年递增,互联网成为了当今社会信息传播和知识承载的最佳介质。根据相关调查显示,我国互联网的普及率为54.3%,网民数量达到7.51亿人次,超出全球平均水平的4.6个百分点,我国上网人次约为世界网民总数的五分之一。在利用互联网获取各类信息资源的过程中,利用搜索引擎是常用方式,能够在输入关键词的前提下获得在信息数据库中的有效信息,并弹出存在一定相关性的关联网页链接,为使用者提供方便。自上世纪九十年代蒙特利尔麦吉尔大学的三位学生提出最初搜索殷勤概念以来,人们不断的进行相关的研究和突破,经历了几个时期的发展,网络爬虫技术逐渐形成了系统化的搜索方式,为使用者提供快速准确的所需信息。

2、网页爬虫的研究意义

在进行信息搜索的过程中,使用者输出查询关键词后,搜索引擎会能够全面的寻找各类信息进行有效的分析整理,最终呈现精确的结果在使用者面前。过去的主题搜索技术只能进行特定的信息检索,不会提供主题范围外的信息,相对来说具有一定的局限性,网络爬虫技术能够按照搜索主体的相关性做出有效分析,最终将搜索结果按照相关性的高低呈现出来。现代搜索引擎的完善离不开网络爬虫技术的支撑,在信息搜索过程中能够自动下载相关网页,分辨无价值信息,进行小范围的精确搜索,极大的提升了搜索信息的准确性。网络爬虫在WEB网页进行全面浏览筛选的过程中,能够对相关程度较高的信息做出准确识别,提供相关性较强的信息网页,很大程度上降低了资源浪费,提升了工作效率。

二、网页爬虫的分类和相关问题

1、通用网页爬虫

使用者在搜索引擎中输入主题内容,通用网络爬虫开始工作,爬虫队列能够抓取网页URL,对链接内容进行下载和访问,对获取的数据进行分析整理,将关键词等数据储存在Web数据库中,抓取相关的URL保存到抓取队列,直至满足搜索需要停止工作,根据相关性做出有效排列。通用爬虫队列在爬行过程中会抓取一些偏离搜索主体的链接和网页,对于较为密集和结构复杂的信息难以很好的收集,在信息收集过程中通用爬虫多是以检索关键词的方式进行,信息智能化程度较弱。

2、主题网页爬虫

主题网页爬虫的覆盖率相对较小,对于搜索网页URL信息的抓取会有一定的辨识度,根据使用者输入的搜索主题选择性的对网页和连接进行筛选,抓取有效信息,一定程度上优化了通用爬虫存在的问题,获取的检索结果更加准确。主题爬虫的工作原理能够按照搜索引擎中输入的主体进行分析,对检索结果和网页内容做出分辨,能够保证尽可能多的获取与搜索主题相关的内容。主题网页爬虫能够有效的分辨检索结果和搜索主题的相关度,智能过滤垃圾信息避免网络资源的浪费,确定RUL的访问次序。在实际搜索使用过程中要提升主题网页爬虫的覆盖范围,协调抓取RUL的分析算法和后选RUL的排列次序,检索更多的有效信息和资源提升搜索质量。主题爬虫在实际搜索工作中主要任务是检索更多符合主题的相关链接和网页,对检索内容和相关度做出智能分析。

3、深度网页爬虫

九十年代初国外信息技术工作者提出了深度网页爬虫的初始概念,Web浏览器页面存在着一定数量的信息难以被普通搜索引擎发现的问题,深层页面在英文术语中被称为Deep web,其信息含量远高于Web浏览器页面,信息质量更高。普通搜索引擎难以搜索到具有高度权威性的信息,在Web页面动态数据库中涉及诸多领域的专业信息,对于此类具有重要价值的信息如果不加以有效利用,将会是信息化建设工作中的缺失。深度网页爬虫的工作原理为输入搜索主题,爬虫队列抓取初始RUL获得网页和连接,进行信息采集,对各项信息做出分析,如果符合搜索主题那么直接给予排序显示,反之,会对特征继续进行分析和页面分类深入网页数据库重复之前指令,直到获取高质量信息停止爬行进程。深度爬虫与常规爬虫的不同是,深度爬虫在下载完成页面之后并没有立即遍历其中的所有超链接,而是使用一定的算法将其进行分类,对于不同的类别采取不同的方法计算查询参数,并将参数再次提交到服务器。如果提交的查询参数正确,那么将会得到隐藏的页面和链接。深度网页爬虫在获取信息的过程中要面临大量的数据计算才能获得高质量深层次的信息,并且一些网络服务器会加密,使用者在搜索过程中需要相关的账号和验证码,如果没有相关账号,那么网页爬虫将没有权限对Deep web数据进行检索。

4、高性能网络爬虫优化问题

就目前信息技术的发展来说,高性能网络爬虫的设计仍存在一定的难度,信息科技研究人员也不断的采取各种方式对网页爬虫进行优化。高性能的网页爬虫要有一定的强度,面对大量的数据信息采集分析要进行有效处理,对于计算机的硬件配置也有较高的要求。在对网络资源进行利用的过程中要在最短的时间内抓取更多高质量的信息,防止一些高价值网页的丢失。加强网络资源的智能辨别,当前信息技术高度发展,网络资源也参差不齐,一些垃圾网页信息会影响服务器运行速度,造成不必要的资源浪费。在进行搜索访问的过程中避免短时间内大量访问同一主机下的网页,以避免影响其他用户的使用和被网页屏蔽。根据不同的需求情况制定相应的模块,满足多种情况需求,不断的升级网络爬虫的性能。

三、网页爬虫技术的相关定义及搜索策略

1、网页爬虫的定义

网页爬虫能够在浏览WEB网页的过程中进行自动下载,并从中提取和搜索主题相关性较强的内容。作为一种预先设定程序,网络爬虫具备固定的爬行队列,在爬行过程中对网页URL进行信息收集,并抽取新的URL放置于爬行队列末端,直至满足搜索需求后爬行队列停止工作。网络爬虫在能够根据使用者给出的主题信息进行有目的性的爬行工作,在爬行过程中能够对网页的标题以及正文信息做出智能识别,与使用者输出的主体内容进行对比,分析相关度,最终进行网页URL的抓取。网络爬虫在进行相关信息抓取的过程主要有三种方式,对网页特征、内容模式、领域概念三种信息的综合识别,网络爬虫在工作环境中主要是对符合搜索主题的网页和链接,根据输入的特定信息抓取具有特定结构的网页。相关的网络工程师会建立各个领域的信息汇总,使用者在进行搜索的过程中,网络爬虫能够根据输入信息的书面含义进行搜索,对各项信息从语义层面进行分析收集。

2、URL搜索策略

目前网页爬虫技术所使用的URL搜索策略主要有深度优先和宽度优先两种策略。深度优先是指网络爬虫队列在爬行的过程中对网页链接进行优先分析,根据使用者输入的关键信息搜索相关链接页面,如果发现相关链接内存在符合搜索条件的内容优先给予网页置顶。在进行深度优先的搜索过程中要制定爬虫爬行的深度,防止在爬行搜索时应当优先显示的页面链接不能及时显示。

期刊文章分类查询,尽在期刊图书馆宽度优先搜索策略也被称之为广度优先,在网络爬虫队列爬行过程中会对所有的网页链接全部进行爬行,能够达到网页全面覆盖的效果,在日常搜索引擎使用过程中多数使用宽度优先的策略。目前信息技术的高度发展,搜索引擎的升级换代,网页爬虫技术逐渐做的做到了深度优先和宽度优先策略的有效结合,能够设定搜索系统和URL的权限重点,根据URL权重做出相关分析,如果权重过高选择深度优先策略,反之则使用宽度优先策略或是爬虫队列放弃信息抓取。

四、网页爬虫技术相关性分析方法

在使用相关搜索引擎获取信息的过程中,对于不同的信息搜索应当采用不同的分析算法,保障网络爬虫在进行信息搜索过程中的即时性和准确性。各类信息主题本质虽然不同,但可能存在一定的语义相似性,防止爬虫队列在爬行抓取网页URL的过程中存在偏差,搜索引擎也在不断的提升完善,做出了多种搜索方式和相关性分析算法。

1、基于网页内容的算法

使用者在输入搜索主题后,网页爬虫队列会进行相关信息的抓取,当发现相关链接和网页中存在与搜索主题相符合的关键词,就会对信息链接给予优先显示。基于网页内容的算法就是对相关信息的关键词进行有效分析。网络信息技术的不断发展,信息资源也变得更加多样化,最初的网页信息多是以锚文本作为主要内容,逐渐的进行更新发展,由PIW,publicly Web发展到Hidden Web,信息数据含量也是呈现几百倍的递增,基于网页内容的算法也逐渐的向网页数据抽取、数据挖掘和预制学习程序方向发展,使信息技术和搜索引擎能够得到全面的应用。

2、网页分析方法

基于网页内容具有多种算法,但平时所使用的算法为文本分类与聚类算法、Hidden Web动态网页分析法两种。前者是指网页的文本信息内容会对网页的整体内容进行一个概括,在使用者使用搜索引擎获取信息的过程中,文本检索技术能够对主题内容进行分类或是聚类,根据网页或链接内容的相关度进行列出。锚文本和标签信息都能被有效的利用,先进技术下网页爬虫能够根据相关的指令进行有目的性的爬行。Hidden Web的网页分析方法和其他方法相比更具有一定的优势,网页爬虫能够抓取的信息更多,能够筛选出更多有效信息,提升搜索质量。目前信息技术拥有完善的数据库,储存结构便于检索,使用者输入搜索关键词,网页后台能够提供有效信息。由于各类限制条件的存在,网页爬虫独立的完成此类工作仍有很大难度,Hidden Web动态网页URL很难被普通爬虫抓取,网页爬虫当前条件下能够自主学习一些查询接口,以最少的样本估计方法完成优质关键词的提交工作。

3、基于网络链接结构的分析算法

基于网页内容算法之外,提供信息的途径还有网页链接结构,各个网页之前产生的一定的关联也会生成一些有效信息。网页链接结构分析算法能够对网页信息质量做出一定的分析。网络链接结构算法分为两种,HITS算法和Page Rank算法,最初由外国人提出了Hub界面和Authority的概念,能够有效的对众多搜索结果中的中心界面进行指向,Hub存在指向多个Authority界面的可能,两者相辅相成,能够对网页的信息内容进行有效的质量评估。Page Rank算法和查询无关,但却十分重要。谷歌公司利用Page Rank的指数来对网站的优劣做出判断,网页的价值能够在搜索页面得到优先显示,提升网页爬虫的相关性和质量。Page Rank是对网页质量衡量的重要标准,Page Rank算法的前提是网页价值的高低,或是价值网页对其的引用决定Page Rank算法的判定。两种分析算法都存在一定的偏离主题问题,目前也采取了一定的优化策略,对不同的连接和权值进行匹配。

五、优化网页爬虫的关键方法和技术

1、多线程机制

在实际搜索工作中,网络爬虫需要抓取大量RUL进行访问和下载,单线程搜索操作采集效果很难达到实际需求,耗费时间不能很好的完成搜索工作。爬虫队列在爬行前要对服务器递交相应的请求,等待服务器的处理和返回结果,服务器难以同时处理多个请求,单线程工作的方式会造成信息堆积难以及时发出指令,降低了工作效率。采用多线程机制能够有效的解决这一问题,拓宽网页爬虫请求递交渠道和服务器相应速度,全面提搜索程序的检索效率。

2、数据库访问技术

现代信息技术的发展对于网页爬虫技术的优化手段越来越多,数据库访问技术的出现也大大提升了搜索引擎的检索能力。SQLserver数据库能够对网页爬虫进行有效的队列管理,在预置程序中,以JAVA技术中的JDBC操作数据库,在JDBC和ODBC之间建立有效链接,以桥接器的方式明确分工,数据链接工作交给ODBC进行,JDBC能够向程序数据库发送SQL语句,并将指定数据进行返回。

六、网页爬虫技术的实现过程

1、爬虫程序中的主要类和函数

爬虫程序的基本功能的实现要依靠建立IinteraLCwler类来实现,包括多线程机制获取网页、处理网页、搜索新的RUL等功能。网页爬虫程序需要IinteraLCwler作为程序接口实现对象线程管理。Craw Work类用来创建工作对象,处理Internal-Crawler访问网页链接。

2、网页爬虫技术多线程的设计

在进行网页爬虫多线程机制爬虫设计的过程中,应当对于每个爬虫所抓取的RUL和其他数据进行统一收集处理,防止网页爬虫处于闲置状态,最大化的进行利用获取更多网页数据。这类多线程工作方式类似于master-slave模式,例如企业老板对工作进行统一的整体部署,下行员工只需要根据工作计划完成个人任务即可。就电网企业来说,领导负责启动所有的Worker线程,给所有的员工发布工作任务,所有的员工开始解析网页,对信息进行收集处理,整理完成后递交领导,领导在根据信息对线程工作做出反馈和处理。网页爬虫程序的关键部分在于线程的设计工作,良好的线路有助于网页爬虫实现最佳爬行,全面提升工作效率和信息收集质量。

3、建立机房日志

电网工作涉及用户数量较多,工作任务较重,更应该加强机房的管理工作。机房日志要对机房各项情况进行详细记录,日常的维护升级、系统更新等工作都要做出相关记录。如存在硬件设施自然因素或人为损坏的情况应当及时上报处理,进行更换或维修,建立长期的机房工作日志,保障各项信息技术工作的健康进行。

4、对计算机设施进行功能标注

电网机房一般来说计算机和服务器涉及到大量线路和各类接口,在机房建设过程中应当逐渐的完善各项设备和线缆的作用,进行相应的标注,防止在日常的维护或是其他工作中难以找到所需要的线路。随着信息技术的不断发展,机房设备的种类和线路也越来越复杂,只有从细节做好各项日常工作,才能便于应对各种突发情况。

结语:互联网的迅速发展对搜索引擎进行各类优化,全面的加强了各行业的工作效率,网页爬虫技术也逐渐的成为搜索主流。电网工作也要不断的适应现信息技术的应用,利用网页爬虫技术不断的加强内部工作效率,提升现代化建设水平,体现电网工作的先进性和可持续发展的特点。不断的加强信息技术人才的引进,改变传统的思维观念,加大网页爬虫技术的资金和技术投入,使其更好的服务于电力企业和其他适用企业。

参考文献:

[1]梁志宏,樊凯.Web信息安全动态监测关键技术研究与实现[J].网络安全技术与应用,2017(1):21-22.

[2]安子建.基于Scrapy框架的网络爬虫实现与数据抓取分析[D].吉林大学,2017.

[3]黄永军,王洪波,程时端.基于图书搜索引擎爬虫系统的关键技术研究和实现[J].2012.

[4]贾棋然.基于Python专用型网络爬虫的设计及实现[J].电脑知识与技术,2017,13(12):47-49.

[5]李俊君,傅佳杰,黄桢洢,等.基于微信和网络爬虫的教务信息查询系统设计与实现[J].2017.

论文作者:耿贞伟1,苏文伟2,邹舟3

论文发表刊物:《电力设备》2018年第1期

论文发表时间:2018/7/11

标签:;  ;  ;  ;  ;  ;  ;  ;  

关于网页爬虫技术的关键技术探究论文_耿贞伟1,苏文伟2,邹舟3
下载Doc文档

猜你喜欢