Web2.0信息内容安全,本文主要内容关键词为:信息内容论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 Web2.0信息内容安全的重要性
随着信息化的发展,信息已经成为重要的战略资源,并对人类社会设产生各种影响。其影响既可以是正面的、积极的,也可以是负面的、消极的。信息的作用效果取决于信息的四要素:信息内容、信息量、针对性和适时性。信息内容对人类的影响很大,它能够改变人的思维、做法,甚至影响国家的对外政策。
传统信息安全一般包括物理安全、系统安全、数据安全,应用安全,很少涉及内容安全。而内容是信息安全的一部分,它不只关注信息本身,同时也关注数据所包含的内容,即信息的语义层面。通过对一篇文档的内容是否含有反动、色情或一些不健康的信息来判定其内容安全,只有通过对文档的语义理解才能实现。因此信息内容的安全十分重要。
Web2.0各种应用,尤其是博客、RSS等的广泛使用,广大用户既成信息内容的发布者,又成信息内容的维护者。一方面,这些应用对人们的文化生活的影响越来越大,已成为社会主义精神文明建设的重要阵地,以及重要的思想舆论阵地和国际舆论斗争的新领域,另一方面,web2.0阶段下网络互动性、群体性使得互联网内容及质量越来越难于控制,易发的群体性事件或者网络虚拟串联很容易给国家和社会带来灾难。
互联网的无国界、无地界的特点,使得西方敌对势力可以充分利用信息传播的强势控制权,让互联网充斥着大量的不良信息和腐朽文化,有些信息甚至具有很强的煽动性、欺骗性和反动性。而且,网络已经成为敌对势力对我们进行思想渗透、政治策反、窃取机密的主要媒介。如法轮功分子创办的“明慧网”、民运分子创办的“大参考”、有台湾背景的“多维新闻网”等境外网络媒体,并通过博客、电子邮件向网民发送大量反动信息,给社会精神文明建设造成了极大的危害。如果不进行预处理和监控,可能会将一些虚假、色情、暴力、赌博等有害和不良信息采集发布,也可能引入木马、蠕虫等网络病毒,引发信息内容隐患。
再者,QQ、MSN等即时通讯工具的普及,Facebook、Twitter等社交网络社区的火爆,证券软件、网络游戏、网络音乐、网络购物的大量使用,不仅浪费了大量工作时间,而且造成工作和学习效率低下;通用下载以及BT、电驴等P2P下载工具的频繁使用,占用了大量网络带宽,使得网络设备的投入发挥不了应有的效益。这些工具的无限制使用造成网络应用的无序和混乱,极大地挑战着现有的网络系统。网络信息内容的安全性问题日渐突出。
据中国互联网络信息中心(CNNIC)2009年7月发布的《第24次中国互联网络发展状况统计报告》[1],我国网民规模达到3.38亿人,上网普及率达到25.5%。但是在2009年的上半年内,有57.6%的网民在使用互联网过程中遇到过病毒或木马攻击,有1.1亿网民(占35%)在半年内遇到过账号或密码被盗的问题。为给网民提供一个安全的环境,在加强安全宣传和培训的同时,需要进一步加快信息安全立法监督,依法行政、依法管理,大力推动自主创新,提高基础网络和各重要信息系统的抗攻击能力,努力构筑一个技术先进、管理高效、安全可靠的网络信息安全体系。随着多媒体应用、网络视频会议等新媒体业务的应用,内容安全逐渐成为了信息安全领域的新焦点。
2 信息内容安全的定义
内容安全是随着互联网出现和广泛应用才出现的一个安全术语。在学者中,对内容安全的定义,主要有几种观点:
史艾武等认为:内容安全是随着互联网出现和广泛应用才出现的一个计算机安全术语。它泛指一切有关进入和离开公司(或个人)网络的信息内容的安全。它包括监控互联网访问和消息应用的多种技术,其根本目标有两方面的意思:一是禁止或消除不适当的内容(如垃圾邮件)进入用户网络;二是防止公司或个人的敏感信息或数据泄漏给外界[3]。当前内容安全的威胁主要是由垃圾邮件、间谍/广告软件、即时通讯以及P2P文件共享带来的。
杨义先教授认为内容安全是跟随内容产业出现的:内容安全的宗旨在于防止非授权的信息内容进出网络,具体包含:政治性方面防止来自国内外反动势力的攻击、诬陷与西方的和平演变图谋;健康性方面剔除色情、淫秽和暴力内容等;保密性方面防止国家和企业机密被窃取、泄露和流失;隐私性方面防止个人隐私被盗取、倒卖、滥用和扩散;产权性方面防止知识产权被剽窃、盗用等;防护性方面防止病毒、垃圾邮件、网络蠕虫等恶意信息耗费网络资源[4]。
钟义信教授认为内容安全直接发生在信息的内核——“内容”层次上,这是它与“基于密码学的信息安全问题”的最大区别,后者只对信号的“形式”进行处理,不需要理解信息的“内容”[5]。
李秀英等认为内容安全主要是直接保护系统中传输和存储的数据。主要是通过对信息和内容本身进行变形和变换,或者对具体的内容进行检查来实现。内容安全所包括的典型技术有:加密、防病毒、内容过滤等[6]。
中国工程院方滨兴院士对内容安全的定义是:内容安全是指对信息在网络内流动中的选择性阻断,以保证信息流动的可控能力。在此,被阻断的对象可以是通过内容可以判断出来的可对系统造成威胁的脚本病毒;因无限制扩散而导致消耗用户资源的垃圾类邮件;危害儿童成长的色情信息;导致社会不稳定的有害信息等等[7]。
以上关于内容安全的定义只是若干定义中的一些具有代表性的,能代表国内学术界对内容安全的基本认识。也可以看出,上述定义虽然描述不同,只是着力点不同,文献[4]和[6]中对内容安全的理解相对更完整。
可以用一个形象点的比喻来说明内容安全与传统信息安全的关系:传统信息安全密码学所解决的信息安全问题是要为信息制作安全的信封,使没有得到授权的人不能打开这个信封;内容安全则是要“直接理解”信息的内容,需要读懂信中的内容后再判断哪些是“敏感”信息,哪些是正常信息,这是它的重要性与困难性之所在。
因此,在提出内容安全后,传统的信息安全三层模型就变成四层模型,如表1所示[7]。
表1 电子书经销商SWOT分析表
层面 作用点
内容安全 信息利用的安全
数据安全 信息自身的安全
运行安全 信息系统的安全
物理安全 基础设施的安全
在四层模型中,物理安全涉及硬件设施方面的安全问题;运行安全涉及操作系统、数据库、应用系统等软件方面的安全问题;数据安全是以保护数据不受外界的侵扰为目的,包括与泄密、伪造、篡改、抵赖等有关的行为;内容安全则通过对内容的语义分析和理解,对流动的数据进行选择性阻断、修改、转发等特定的行为。
内容安全加强了信息的机密性、真实性、可控性、可用性,这四个基本属性实际上是信息安全的四个核心属性,可以反映出信息安全的基本概貌,是信息安全的四要素,简称CACA,如图1所示[7]。
图1 信息安全四要素
3 Web2.0信息内容安全面临的威胁
目前互联网的内容安全现状十分令人担忧。一方面,单位很多员工在上班时间大量浏览网页,使用BT、PPLive等P2P网络应用,严重影响到单位正常的网络办公和业务运转。同时,互联网的黄色、赌博等低俗信息的泛滥,病毒、蠕虫、网页挂马等的传播严重影响到网络的正常使用,网络犯罪直线上升。目前内容安全的威胁主要分为如下几类[8-9]。
一是病毒、蠕虫及木马攻击。来自IDG的2009年美国IT趋势报告认为:恶意软件成功感染了PDF和Flash文件,2009年有更多更难对付的木马程序诞生。随着云计算的发展,安全漏洞日益增多,庞大的黑客经济产业链,使得黑客可借此获取大量用户信息,牟取私利。网络病毒时刻都在威胁着人们的上网安全,一些违规的黄色网站也为这些网络病毒提供了攻击和生存的场所。
二是垃圾邮件泛滥。大量的垃圾邮件不仅占用了存储资源和带宽,同时也导致了网络病毒的传播。因此,目前市场对于内容过滤产品的需求逐渐变大,消费者不仅要求产品能够主动过滤垃圾信息、防御蠕虫病毒的入侵行为及DoS攻击,还需具有极高的处理能力,以确保网络内容的正常传输。
三是带宽滥用。网络视频、网络游戏的无节制使用,以BT、电驴为首的P2P下载大量消耗着的网络带宽资源。因此,无论对于运营商还是企业,构建一个可控、可管理的网络系统,按照网络应用业务的重要程度分级控制,在上网高峰期限制带宽使用都显得极为重要。
四是信息泄露。大约有80%的用户因为信息泄露而被骚扰,骚扰方式包括垃圾短信、骚扰电话及垃圾邮件等。目前,全球互联网应用正日趋生活化,越来越多的用户将自身信息暴露于网络中,这就为网络窃取者制造了可乘之机。统计显示,Web应用平台是最常见的漏洞来源,许多平台对安全都没有充分考虑,往往存在一些极易攻击的漏洞,而大量用户信息正是通过这些漏洞被窃取的。
五是网络低俗信息泛滥。近年来,网络上色情图像、色情小说、色情电影、色情动画、色情游戏、邪教、网络犯罪等低俗信息迅速蔓延,严重败坏社会风气,污染社会环境,危害青少年的身心健康,已成为全球共同关注的问题。目前全球色情网站多达300万个,打击网络色情及其他低俗信息成为网络内容安全最直接、最迫切的需求。为此,很多国家开展了联合打击网络色情的活动。中国自2004年开始加大了对黄色网站的打击力度,定期开展专项整治活动,已取得一定成效。但是由于色情网站隐蔽性大、游移性强,除加强网络监管之外必须加强相关安全技术、安全系统的研究和开发,才能保证网络反黄行动的长期效果。
六是知识产权的威胁。随着网络的广泛开放,网络信息资源的知识产权保护问题日益突出,盗版现象屡禁不止。盗版、复制和非法下载不仅容易惹祸上身,甚至可引起巨额罚款、刑事诉讼[14]。P2P技术极度恶化了侵犯版权行为,美国许多州已经颁布了禁止P2P等侵权行为的相关法律,并从2005年开始大规模实施出版物版权保护的内容安全服务。网络复制、非法下载等侵犯知识产权的行为是全球性问题,需要所有国家立法,加强管理和技术研究才能解决这个问题。
七是无线上网带来的威胁。随着三网合一的发展,以及移动互联网的接入和3G技术的发展,无线上网和手机上网成为一种趋势[10]。同时也带来一些问题,一是用户的隐私信息很容易被盗或者泄漏,二是手机上网带来的大量病毒泛滥,三是各种信息骚扰,包括垃圾短信、各类非法信息、手机广告等泛滥成灾。据中国互联网协会的调查数据显示,目前国内手机用户平均每周收到8.29条垃圾短信,其中包括房地产广告、色情信息以及不法分子利用短信制造的骗局,这是全社会最关注的一类安全问题,也是急需解决的问题。
八是虚假反动信息等的内容威胁。随着Web2.0技术的发展,博客、播客、BBS等对突发事件的新闻传播速度、报道的广度深度具有比电视新闻更强的优势,如“汶川地震”的报道。由于信息发布的自由性和无限制性,使得无根据话题、谣言、煽动性言论更加容易产生和蔓延,容易引起公众的非理性判断和行为混乱,如“华南虎事件”等,对这些言论如果不进行舆情监控和跟踪,不进行正确引导,很容易造成恶劣的社会影响甚至诱发社会动荡。
4 信息内容安全技术
信息内容安全技术包括:信息获取技术、信息内容识别技术、信息内容分级、控制阻断技术、信息过滤技术、信息内容审计技术、防病毒技术、知识产权保护技术等[11]。
4.1 信息获取技术
信息获取是指从网络收集数据的过程。如何快速、准确地获取所需信息,是信息获取研究的主要内容。信息获取分为主动获取和被动获取。被动获取通常是将设备介入网络的特定部位进行获取;而主动获取主要是指基于Web的信息采集。
信息获取技术分为主动获取技术和被动获取技术。主动获取技术通过向网络注入数据包后的反馈来获取信息,这种技术接入方式简单,能够获取广泛信息,但会对网络造成额外负荷。如基于crawler的Web信息获取技术,已广泛地被Google等网络搜索工具所采用。被动获取技术是在网络出入口上通过旁路侦听方式获取网络信息,特点是接入需要网络管理者的协作,获取的内容仅限于进出本地网络的数据流,不会对网络造成额外流量,目前大多数入侵检测系统、网关型安全产品都采用被动方式获取网络信息。美国网络联盟公司的McAfee WebShield e1000已能实现对GB量级的数据流的实时捕获。
4.2 内容分析与识别技术
内容分析是实现网络内容安全和内容管理的基础。对文本的分析主要有词法分析、句法分析、语义分析和语用分析等部分。
内容识别是指对获取的信息内容进行识别、判断、分类,确定其是否为所需要的目标内容。主要对文字、声音、图像、图形识别,识别的准确度和速度是其重要指标。文字识别包括关键字、特征词、属性词识别,语法、语义、语用识别,主题、立场、属性识别等。已有的入侵检测产品、防病毒产品、反垃圾邮件产品、上网过滤产品等一般都是基于文字识别。
在语音识别方面,IBM的Via Voice已趋于成熟,剑桥大学的VMR系统和卡内基梅隆大学的Informedia都是出色的音频处理系统,并用于影视盗版监察、广告监播等。图像识别技术有了一些进展,IBM Almaden研究中心推出的QBIC系统是IBM开发的第一个商用基于内容的图像及视频检索系统,开创了图像信息查询的全新领域。
基于内容的音频和视频信息检索是当前多媒体数据库发展的一个重要研究领域。近年来引起了众多研究机构和学者的广泛重视,如美国卡内基梅隆大学、马里兰大学、麻省理工学院、康奈尔大学、英国剑桥大学等都对音频信息检索做了大量的研究工作,国内的国防科技大学、浙江大学、哈尔滨工业大学、中科院自动化所等多家单位也开展了相关的研究工作。
总之,目前多媒体信息检索目前仍存在着算法处理速度慢、漏检误检率高、检索效果无评价标准、缺少支持多种检索的手段等问题。
4.3 控制阻断技术
控制阻断技术从阻断依据上分为基于IP地址的阻断、基于内容的阻断;从实现方式上分为软件阻断和硬件阻断;从阻断方法上分为数据包重定向和数据包丢弃。对识别出的非法信息内容,一般将阻止或中断用户对其访问,其中成功率和实时性是重要指标。控制阻断技术已成功用于垃圾邮件剔除、涉密内容过滤、著作权盗用的取证、有害色情内容的阻断和警告等,并有成熟产品出现,如McAfee WebShield设备。国内如哈尔滨工业大学、中科院计算所、国防科技大学、东北大学等单位在开展相关研究,并取得一定进展。
4.4 内容分级
信息内容分级,实质是为了对互联网信息传播进行引导和控制,建立良好的上网环境。其主要作用是:对国家宪法和其他法律法规中明确知道的禁载内容,通过过滤、屏蔽等技术手段使其无方法在互联网传播,对于不违反法律但是可能对国家、社会、公司、家庭和个人容易造成某些不利影响或伤害的内容,或者只允许特定人群的查阅内容按明确详细的规则予以分类处理;方便受众在接受信息前熟悉该信息的安全级别,保证享有知情权和选择权;为保护未成年人,可以安装一些过滤软件,隔离会对未成年人造成伤害的信息[12]。西方发达国家早就意识到该问题的重要性,政府和社会团体采取了积极措施,对有害信息进行鉴别和防范。
1995年美国出台了第一个网络内容管理方案—Federal communications Decency Act(CDA),用于限制一些“低俗的和不恰当的”在线言论,但于1997年被推翻。2000年,一些学者针对言论自由和自律分级的平衡提出了Bertelsmann三层模型,以保证能够最大限度地在保证网络言论自由的基础上保护儿童不接触到不恰当的内容[12]。从上个世纪90年代开始,国外不少机构研制了各种分级体系,如Cyber Patrol、SurfWatch、RSACi和CYBERsitter等,这些知名的互联网分级方案具有强烈的时代性和地域性。由于RSACi分级体系类目体系简单,2000年12月互联网内容分级协会ICRA(Internet Content Rating Association)针对RSACi缺陷推出ICRA 分级体系。它支持PICS规范,ICRA的分级标准主要针对暴力、色情、语言及其他四类项目。微软浏览器Explorer3.1以后的版本已经整合了ICRA标准,扩大了其影响力。
而这些方案中,多方标记和分级模式(MPLRM:Multi-Party Labeling & Rating Model)占据主导地位,也是未来的发展趋势[13]。目前采用MPLRM模式的网站较少。台湾已经完成ICRA标准的本土化工作,并于2006年1月25日正式实施网站内容四级分级管理。我国起步较晚,目前如清华同方思科、上海交大均编制了自己的分级体系,中国信息技术标准化技术委员会教育技术分技术委员会推出网络教育内容分级标准(CHERS:Chinese E-learning Content Rating Standard)。中国虽然已推出CHERS分级标准,还需建立我国互联网内容分级标准和内容分级监管制度,并构建专用领域的信息分级标准。
4.5 信息过滤技术
信息过滤一般分为基于内容的过滤(content-based filtering)和合作过滤(collaborative filtering)。内容过滤一般是针对网上不良信息进行阻断,主要包括基于URL的站点过滤技术、基于内容关键字的过滤技术、基于URL内容关键字的过滤技术、基于图像识别的过滤技术、智能过滤技术和几种技术结合的组合过滤技术。目前,很多防火墙集成了内容过滤技术,能对URL网址和网页文字等固定内容进行过滤。
从对信息的取舍角度来分,信息过滤分为兴趣过滤和敏感信息过滤。兴趣过滤是根据用户模型(如用户背景、兴趣、行为、风格)对信息进行搜集整理,将用户感兴趣的信息提交给用户。敏感信息过滤是根据领域模型(如WEB知识、信息处理、与要屏蔽信息相关的信息资源、领域组织结构)对信息进行拦截,使用户无法接触到不良信息。网络上的敏感信息通常包括色情、暴力、邪教、赌博等违反国家政策的内容,有些类型的信息可以通过关键字匹配的方式,分析得到信息的主题内容。有些信息则无法简单地通过关键字匹配法判断是否为敏感信息,比如宣扬邪教和批判邪教的信息。在对此类信息进行分析的时候,不仅要分析信息包含的主题内容(topic),还要判断它的立场和态度,即倾向性(tendency)。从这个角度,信息分为三类,与主题完全无关的信息称为无关信息(irrespective information),对主题持有积极态度的称为正面信息(positive information),对主题持有消极态度的称为负面信息(negative information)。信息过滤的条件不再是依据涉及的主题内容,而是带有倾向性的主题信息。因此,敏感信息过滤又可以划分为主题性过滤和倾向性过滤。目前对倾向性过滤的研究还较少,只有几篇文章有论述。
内容过滤技术的实现方法主要包括旁路型和存储转发两类阻断。旁路阻断是采用旁路侦听的手段来获取互联网上的数据包,然后再进行协议还原,根据内容进行阻断。存储转发阻断是指通过代理服务器或透明网关来实现对互联网内容的控制,可以很好地实现对SMTP、POP3等协议的过滤。两种技术在应用中各有所侧重,需要根据不同的需求采用不同模式。
随着技术的发展,Web内容过滤不仅应支持文本内容过滤,还应支持漫画、照片、图像、流媒体等各种多媒体信息的过滤。随着技术的发展,下一代网页过滤解决方案必须能够解决网络病毒、手机病毒、恶意软件、即时通讯和P2P等问题的干扰和挑战。目前,我国自2009年7月1日起,要求所有网吧和学校的计算机安装“绿坝”过滤软件。
4.6 内容审计技术
内容审计主要指对与安全有关的活动的相关信息进行识别、记录、存储和分析;审计结果用于检查网络上发生了哪些与安全有关的活动。它通过记录用户访问的所有资源和所有访问过程,实现对网络的动态实时监控,为用户事后取证提供手段,为信息安全的执法提供依据,重要或泄密网络一般需要此类功能。
内容审计技术一般包括包获取技术、模式匹配技术、协议分析与还原技术、数据检索与智能统计分析技术等[8]。网络内容审计技术一般以旁路方式捕获受控网段内的数据流,通过协议分析、模式匹配等技术手段对网络数据流进行审计,并对非法流量进行监控和取证。通常采用多级分布式体系结构,并提供数据检索功能和智能化统计分析能力,对部分非法网络行为(如Web页面浏览、QQ聊天、BBS等)进行重放演示。目前已经有十多个信息内容审计产品,但是网络内容审计产品的发展却滞后于网络流量的迅速增长。
4.7 防病毒技术
防病毒技术主要包括计算机病毒预警技术、已知病毒与未知病毒识别技术、病毒动态滤杀技术等。通过对计算机病毒的识别、预警以及防治能力,形成基于网络的多层防范、集中管理的病毒防治体系,以防范对图书资源的各种破坏。
4.8 知识产权保护技术
知识产权的概念由法国人卡普佐夫在17世纪最先使用。知识产权是指法律赋予人们对其智力成果享有专门利用的权利,它除了是智力成果的创造人依法所享有的权利和生产经营活动中标志所有者依法所享有的权利以外,还有更广泛的包容性。随着经济全球化的发展,知识产权已成为决定一个国家和地区经济发展的重要因素,以及国家科技和经济竞争优势的重要手段。知识产权已成为企业、科研机构和高校保持竞争力的关键性资源。
在web2.0时代,知识产权包括专利权、商标权、版权(即著作权)、商业秘密等类型[14]。其中版权一般涉及网络,网络版权是一种新型的著作权形式,包括发表权、修改权、表演权和信息网络传播权等。网络版权侵权的主要方式包括:一是网民原创的文章被无偿转载;二是享有著作权的图书、音像制品、软件在作者不知情的情况下被网民免费下载[15],目前已成为知识产权利益冲突最明显的领域。而版权保护一般要通过采用一定的计算方法,从技术上防止数字内容非法复制,或在一定程度上使复制很困难,最终用户必须经过授权后才能使用、复制和传播数字资源,以维护版权所有者和使用者的正当权益。现在已经有CITED、COPICAT、ACCOPI、TALISMAN、IMPRIMATUR等项目对版权保护进行了研究。版权保护技术主要分为三类,主要包括安全容器技术、水印技术、移动Agent技术[12]。随着web2.0技术的发展,尤其是博客、播客、P2P、Facebook、MySpace、BT下载的推广,知识产权与对知识产权的侵犯间的纠葛更为复杂和紧密,需要版权保护技术、法律和法规的继续完善,才能形成完整的版权保护体系。
随着互联网广泛应用于社会政治、经济和文化生活的各个领域,互联网信息内容安全管理的范围正在从网络与信息安全向知识产权保护、消费者权益保护、个人隐私和商业秘密保护、传统文化与道德冲突等方面扩展。要及时研究新情况、新问题,有针对性地制定监管政策和法律、法规,形成有效的管理机制。
5 结语
随着Web2.0应用的普及,互联网将面临更多更复杂的内容安全威胁,必须加强内容安全技术的研究,构建针对BBS、博客等的内容监控系统,按照等级保护的原则分层部署监控系统,以实现互联网的健康有序发展,为社会主义精神文明建设服务。