地理计算及其前沿问题_地理学论文

地理计算及其前沿问题,本文主要内容关键词为:地理论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

修订日期:2007-07.

1引论

GIS的发展是20世纪后半叶地理学主要事件。然而,GIS的出现虽然在很大程度上增强了计算机的空间表达能力,但在某种程度上它是地理学的一种倒退,因为它所提供的数据模型和分析方法从地理学意义来看并不丰富,不能满足地理分析的要求,到了1990年代人们发现,GIS连那些最早引起计量革命的地理问题也不能解决[1]。1990年代前期,这种情况随着地理信息科学提法的出现有了一定改善,但是,由于地理信息数据日趋丰富,对复杂应用程序和模拟系统的需求越来越迫切,气候变化、人口增长和精确区位分析对地理分析的需求也越来越大。这就意味着地理学需要新的突破。

在这种情况下,1990年代英国利兹大学的Openshaw提出了“地理计算”这一名词。提出“地理计算”的目的是重新强调地理分析和地理建模,这里的地理计算并不一定要应用GIS。1996年地理计算第一届年会在利兹大学(Leeds University)召开,第一届大会的主要论题是:时空动力学、高性能计算机技术在地理学中的应用、互操作性(interoperability)与地理计算、智能自主体(intelligent agents)、神经网络与模糊计算(fuzzy computing)、空间理论与空间逻辑、推断(diagnostics)与模式挖掘(Pattern detection)、真实环境与虚拟环境、交互可视化(interactive visualization)以及地理计算的应用。这些讨论定义了地理计算的基本外延。1998年Couclelis给出了地理计算的宽泛定义,这是地理计算发展的一个里程碑。他认为,地理计算是计算机方法与技术在描述(地球表面)空间性质、解释地理现象和解决地理问题方面的应用[2]。他进一步根据操作数和运算的类型将地理计算分为四类(表1)。按这种认识,可以认为,20世纪60~70年代之间的计量革命主要是用非空间运算来解决空间问题:80~90年代前期,GIS虽然从地图学中脱离出来而发展成为独立分支,但主要还是为地图学应用服务,其中地图显示和标注属于用空间运算解决非空间问题(类型3),而遥感图像的增强、分类以及地图的多媒体显示属于用非空间运算解决空间问题(类型2);类型2还包括1990年代后期兴起的神经网络算法。进入21世纪,用空间运算对空间数据进行处理的地理计算(类型1)是研究热点,这一类地理计算主要包括多自主体复杂系统模拟、元胞自动机、形状文法、分形、空间运筹以及后来突出的本体论研究等。

21世纪地理计算的思想突破是智能计算的出现。Gahegan[1]认为地理计算中有待改进的方面有:将地理“领域知识”变成工具以提高性能和可信度;设计合适的地理算子(operators)来进行数据挖掘和知识发现;发展能够计算跨越时空尺度的鲁棒的聚类算法(clustering algorithms);针对目前软硬件还无法解决的复杂地理问题,提出可计算方法;将地理现象可视化,提供虚拟现实范式(paradigm)帮助人们探索、理解地理现象,交流地理知识。他又指出研究地理计算的有效技术手段为:计算机体系结构和设计;查询、分类、预测和建模;知识发现(从数据库中挖掘知识)和可视化。

我们认为,广义地看,地理计算是以计算机方法为基本科学工具的处理地理信息和分析地理现象的地理学分支,它包括地理信息处理与管理、地理数据挖掘、地理过程建模模拟以及支持这些处理与分析的软件工程和计算体系研究,如地理信息系统、地理决策支持系统和空间网格体系。它是地理信息科学的另一种说法,外延包括数量地理学、遥感、地理信息系统、建模模拟和计算体系。狭义地看,地理计算是地理信息科学的核心内容之一,主要研究地理信息科学的方法学问题,包括算法、建模和计算体系。我们主张一般情况下采用狭义定义,而且不过分强调空间,以免造成自然地理的一些分析脱离地理计算。同时,地理计算并非等价于地理信息科学,而是作为它的核心和非空间扩张。地理计算的内容除了建模、算法之外,还有一般方法学问题。这样地理计算才能作为地理学的核心学科独立发展。

下面对地理计算的主要领域作相应的介绍。

2地学数据挖掘

随着技术的发展和信息的急剧增长,数据爆炸现象已经成为我们必须面对的问题。在海量数据充斥视野的同时,如何提取有用知识成为现代生活的挑战。数据挖掘和知识发现(Data Mining and Knowledge Discovery)就是在这样的背景下产生和发展起来的[3],其目的是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则[4]。

地学数据挖掘是从地理学问题出发,对各种数据作地理学的模型处理、结果计算、发现地理知识的过程。地学数据与其它方面的数据不同之处在于:它具有空间属性。这些数据除了具有明显的含义之外,还有丰富的隐含意义,需要通过分析或挖掘才能显示。地学数据挖掘的问题范畴包括数据恢复、信号提取、指标的权重估计、地理事物关联分析、地学过程预测、地理结构发现、环境-区域演化发现。以遥感图像为例,遥感图像的去云彩处理是数据恢复,遥感图像增强是信号提取,遥感图像聚类分析即是联系分析。

近年来在数据挖掘与地理科学结合的领域出现了很多成果:周成虎、张健挺[5]构建了基于信息熵的地学空间数据挖掘模型,王雷等[6]用知识发现方法挖掘遥感影像的土地覆盖类型,王铮等[7]利用马尔可夫链和神经网络这两种数据挖掘方法研究了城市土地利用状况演变。另外,张健挺、邱友良[8]对人工智能和专家系统在地学中的应用进行了综述,裴韬,周成虎等[5]对空间数据挖掘的研究进展及存在问题进行了综述,张彤、潘和平[9]总结了决策数的形式算法在地理信息学中的应用。

目前,国内外都开展了地学空间数据挖掘与知识发现平台的研究。加拿大西蒙弗雷泽大学计算机科学系Han教授领导的小组,在MapInfo平台上建立了空间数据挖掘的原型系统GeoMiner,实现了空间数据特征描述、空间比较、空间关联、空间聚类和空间分类等空间数据挖掘方法;地理信息系统Descartes和数据挖掘工具Kepler的集成Descartes系统,实现了智能地图绘制的支持和空间数据交互可视化分析的频谱功能[10]。

3空间运筹

1970年代末至1980年代末地理学研究领域引进了规划方法、网络分析方法和决策方法等运筹学方法,并吸收了系统分析方法、系统优化方法等现代系统学方法,在此环境中空间运筹学逐步形成,并向着更为严密的理论方向发展。一方面,地理学为运筹学提供了研究问题的空间,扩大了其研究的范围和深度;另一方面,运筹学为地理学中的空间管理问题提供了技术解决手段。1990年代以后随着计算机技术和GIS的迅速发展,使用运筹学的方法处理大数据量空间问题成为可能。空间运筹学在地理学中的运用已越来越广泛,涉及军事方面、物流管理方面、环境管理方面以及设施区位方面等等。

在国际上,Dobson[11]建立了Maryland州的区位系统,可以用于确定发电厂的位置,这是空间运筹的成功应用。当时这个工作的引导性并没有受到重视。Marks[12]等人根据成本效益原理来确定潜在的医院位置,他们利用一系列的定位指标来对现在的医院的位置进行排序。Drezner[13]出版了关于设施区位的专著,书中对所有的设施区位模型、方法和应用进行汇总、分类和评述,当时还没有与GIS结合。Okable,Okunuki[14]用可计算模型来估测在网络街道上的零售设施的市场需求大小,并且在GIS上实现。而在实际商业操作方面,全球最大的便利连锁巨头7-Eleven就是通过GIS平台和空间运筹算法来优化其店铺的扩张以及物流供应。公共设施的区位问题是区位模型中非常重要的部分,很多领域的学者都在研究这个问题,如Ribeiro,Antunes[5]建立了一个基于GIS的公共设施规划的决策支持系统。

在国内,杨玉环[16]首先利用地理信息系统进行邻近性分析,对规划设施进行现状分析,但仅能提供有限的辅助决策。崔丽丽、黄涛、王铮[17]以多元韦伯区位模型为例,运用退火算法,建立了一个用于公共服务设施规划决策支持的算法。周天颖、简甫任[18]建立了避难场所区位决策支持系统,为防灾部门提供了有效的参考依据和建议。2003年,邓悦,王铮等[19]运用设施分析讨论了旅游集散地的建设问题。王铮,李山,刘扬[20]出版了《城市与区域中的地计算》,对设施区位问题作了系统总结。赵秀丽,黄承锋,肖盛燮[21]建立了一个基于成本分析的区域配送中心优化选址模型。

在此期间,国内外学者对空间运筹学中的算法也进行了积极的研究。相对用于搜索最短路径的传统方法——Dijksta算法,得到了改进[22],同时一些计算速度更快的路径算法开始补充进空间运筹学的范畴,如贪心算法和A*算法[23]。目前在路径优化领域,比较流行的启发式搜索策略是A*算法。它的关键之处在于选择下一个被检查的节点时引入了已知的全局信息,对当前节点距终点的距离做出估计,作为评价该节点处于最优路线上的可能性的量度,这样就可以首先搜索可能性较大的节点,从而提高了搜索过程的效率[24],但它同贪心算法一样有陷入局部最优解的可能。设施区位模型算法研究作为热点问题之一,也取得了长足进展。Rosing,Hodgson[25]发展了启发式核心搜索法(Heuristic Concentration),提出分两步进行搜索,第一步先求出多个局部最优解集,这些局部最优解集合并成一个核心集(Concentration Set),这样最优解很可能就在核心集中;第二步,用适当的方法在核心集中求出最优解。直到现在,启发式搜索算法还在不断的研究和探索中,它们确实在很大程度上提高了像P-中心这样的组合优化问题的运算速度,但用这种方法并不能保证一定可得到最优解,甚至并不能保证可得到一个解。

空间运筹学在过去的发展过程中,其算法向着更简单、更严密、精度更高的方向发展,使得其在社会国民经济中发挥了越来越重要的作用,并带来了巨大的社会经济效益。未来空间运筹学也会随着计算机、地理学以及其自身的发展而越发重要。

4自主体计算

自1970年代以来,多自主体系统(Multi-Agent System,MAS)融合了多个研究领域的成果,如分布式人工智能、智能机器人以及知识系统(knowledge-based system),成为一个新的科学领域(Multi-agent system application)。近年来,随着计算机科学和人工智能技术的不断发展,多自主体系统的研究也逐步成熟,其应用正不断深入各个学科领域,如生物学、经济学领域等正成为研究热点。在这种情况下地理学领域也兴起了自主体计算。可以认为,多自主体系统模拟已经成为地理学科学研究中除归纳和演绎之外的第三种重要研究方法。

在早期的地理模拟特别是城市模拟中,元胞自动机曾经是研究的重要手段,但是,由于元胞自动机的不可移动性,地理研究人员逐渐认识到元胞自动机在模拟地理现象中的不足,特别是在处理地理环境中可移动对象的活动,如行人、家庭搬迁、公司选址等时的不足。因此,1990年代后期,地理工作者开始将多自主体系统引入地理学研究中[26,27]。多自主体系统以较元胞自动机更优越的自主性、智能性、可移动性、动态性受到了学术界的青睐,现在多自主体模拟方法已经被用于模拟许多现象,特别是城市发展现象、人口地理现象和产业聚集现象。

在地理学研究中,多自主体系统的主要应用是进行城市模拟。城市系统是一个涉及个人、社会团体、公共设施、政治政策、经济行为、地理环境等组成元素的综合体,并且是一个时刻处于变化中的复杂系统。对照Bousquet和Le Page[28]关于多自主体系统的构造分析,可以看到多自主体系统中的环境、对象集、主体集、关系集合等均能在城市系统中找到对应的载体,它能真实反应城市社会体系中主体间交互的动态特性,因此,多自主体模拟被用于模拟城市的发展,如Portugali和Benenson[29]建立了用多自主体系统模拟的城市体系框架,来研究个人经济能力、文化取向在城市发展中的作用;Benenson[30]运用多自主体模拟了城市的住宅变动情况;Jiang[31]结合多自主体方法和GIS模拟了城市环境系统;Waddel[32]模拟了城市发展过程中的土地利用、交通和环境规划;Barros[33]模拟了拉丁美洲城市的发展情况;Loibl和Toetzer[34]运用空间自主体模拟了郊区的景观转变过程;Bonnefov[35]提出了关于城市居民房产选购的多自主体模型研究城市发展方向;美国华盛顿大学构造了URBANSIM城市仿真系统用于模拟城市区域发展;Sembolini et al[36]建立了基于网络的交互型多自主体城市模型。

在21世纪,随着产业集群问题的备受重视。自主体模拟被用于模拟产业集群。在这种模拟中,人口或者企业被识别为自主体,它们按照一定的规则定义自主体,自主体在这些规则下发生聚集或者分散,逼近了产业集群现象。这些规则就是我们试图寻求或者证实的地理学规律,或者是我们用于控制产业聚集的政策准则。例如,Zhang[37](2002)采用简单的Nelson & Winter模型在二维网格空间上模拟了硅谷高技术企业集群的形成,强调了在形成集群的过程中企业家先发优势的重要性。Marz et al[38](2006)结合了Nelson & Winter模型和Fagiollo & Dosi模型,模拟了企业之间创新和模仿形成的知识转移、知识溢出以及知识空间聚集的过程。

当前,对自主体地理学模拟的功能提出了批评。针对传统多自主体模拟在地理学应用中的不足,Torrens[39]提出了“地理自动机(Geographic Automata System,GAS)”的概念,它将元胞自动机、多自主体以及地理信息系统的研究方法结合起来,实现多自主体系统在地理学中的具体化、特殊化,为多自主体在地理学中的应用指明了新的发展方向。

5离散空间的定性计算

按照Roy and Stell[40]的观点,目前大部分现存地理信息系统的建立都采取一个连续的无限可分的空间,而有关地理空间的计算有必要建立在离散空间中,可以通过修改RCC以适应对离散空间的研究,弱化Stell关于RCC的布尔连接代数,把它修改为连接代数,同时在连接代数的前提下对RCC5和RCC8关系加以修改,用抽象的细胞复合体(Cell Complexes)来构建连接代数,通过展现以抽象cell complexes领域的理论模型为基础的离散空间的概念来提供对关系代数认识的合理证据。

在国际上,早在1995年Winter[41]研究了离散空间的拓扑关系,将矢量模型分解为超栅格,它是离散的,既能代表区域,曲线,也能代表点,同时保留了矢量的拓扑关系,通过对二进制影像的逻辑点我们能够简单的计算出两个物体的拓扑关系,而不需要扩充模型,并且还能计算出更深入的关系。Cohn et al.[42]基于区域对模型给出了一种不确定性区域的拓扑关系模型——蛋黄模型。Roy,Stell[40]将RCC空间关系扩展到不确定区域,对蛋黄模型进行了一般化扩展,将RCC理论和蛋黄模型联系起来。Roy,Stell[43](2003)进一步将凸面公理应用到离散空间中。

近年来,国内关于离散空间的定性计算的研究正在增多,虞强源,刘大有等[44]以不确定区域间拓扑关系的蛋黄模型为基础,给出了一种基于三元组谓词的扩展蛋黄模型,三个谓词的取值符合人们的认知习惯,能够根据具体问题和现有事实来分析可能的拓扑关系,实现在多层次上的拓扑分析。王生生,刘大有[45]提出了直接用RCC理论描述空间多维对象拓扑关系的MRCC理论,在保留RCC公理的前提下,MRCC增加了2条新公理,并由此推导出了36种MRCC基本关系,进而讨论了基于概念邻域图和复合表的推理,促进了RCC向实际应用的发展。何建华,刘耀林等[46]从两个方面对现有RCC5等模型的拓扑表达方法进行了改进研究,实现了离散空间实体间拓扑关系的表达,集成了空间拓扑和距离关系的定性表达及推理。

此外,Yagel,Cohen,and Kaufman[47](1992)研究了在3维离散空间中的正规估算,他们在分析了以前的对离散表面的估算方法不足的基础上,通过建立在物体和坡度不连续的基础上,利用分形和对有限部分的操作来对描述的物体进行更正规的估算,即使在空间中也能得到很高的精确性。但在这方面还有待提高,如在三维空间算法实现的各个阶段,不但把容量场景(volumetric scene)分为3维背景,而且也在三维空间过滤和正规估算。这种方法期待能发展成一种更有效的三维空间分形和三维精确估算的过程,这种方法能够挖掘更丰富的三维信息,超过现存的空间方法。

6本体论

地理计算的一个基本前沿是作为方法的本体论研究。从哲学上看,人类从诞生的那一刻开始,就从未停止探索所处的客观世界。人类自发对于客观世界的认识最终归结于对事物本质和规律的把握,这就是哲学中所提及的本体论(Ontology)。随着技术进步和理论的发展,本体论被计算机界所借用:通过把现实世界中某个领域抽象或概括成一组概念及概念间的关系,构造出这个领域的本体。本体理论研究一直处在发展中,它的定义也是不断变化的。如今对本体的分类主要有2种:哲学本体论与领域本体论[48]。在此我们推荐Studer[49]提出的认识:本体是共享的、概念化的、显式的与形式化的规范说明。

地理计算所以要发展本体论是地理信息科学乃至于整个地理学发展的需要。地理信息本身的复杂多样导致GIS数据具有信息含量丰富、数据量大的特点。地理事物的多学科性[50]导致了地理信息数据的采集往往按学科特定的需求进行。特别是不同单位部门按各自需求建立地理信息系统,形成了相互独立的“信息孤岛”[51]。这样的“孤岛”存在造成了不同学科,或者同一国家下不同部门,或不同国家同一部门之间对同样的地理现象有着不同的理解和不同的数据定义。这使得信息共享、数据使用、模型运用存在障碍,因为甲给出的某个数据,例如资源品质,与乙理解的完全是两个不同的东西。因此,地理信息科学迫切需要构建地理本体来解决信息共享、知识共享问题。在一般地理学模型分析中,这种本体认识更为重要。实际上物理学正是提出了质点这个本体才建立了经典物理学,提出了温度、熵这样的本体概念才发展了热力学,而能量子这个本体认识带来了物理学的新的革命。我们这里特别地提到温度和熵,就是说,本体不一定与实体对应甚至可以是熵那样不可直接测量的量。

在地理信息领域,目前虽还没有达成共识的地理本体的概念,但一致认为地理本体应该包含哲学本体和领域本体的内涵。现阶段对于地理本体的理论研究主要按照2个方向发展:一是从哲学的角度,即从地理真实世界角度去研究,如Smith和Mark[52,53],Bittner[54,55]和Frank[56]的研究均属此类,这类研究可以归为纯理论研究范畴,它们很少考虑地理本体在计算机中的实现。另外一种则是从人工智能意义上的本体论角度去研究,如Fonseca[57、Kokla 和Kavouras[58,59]的研究,这类研究可以算作本体的应用研究范畴,主要是对基于语义的地理信息集成和互操作给予了充分的关注,而对地理本体的理论方面考虑较少。

尽管本体论在哲学中存在有很长的历史,但是对于地理信息领域来讲,地理本体仍然是个新事物,对于其研究和应用还面临一些困难问题,综合上述学者们的意见,可以认为本体论研究的困难主要表现在以下3个方面:

1)地理本体的定义并不确定,单纯的将哲学和信息科学界对本体的定义移植到地理本体是不够的,这样仅仅关注了地理本体的属性特征,而忽视了其空间特性;

2)现今用来构建地理本体的形式化语言不能满足需求,仍旧存在技术缺陷。形式化理论的发展和应用衔接有延时,2004年2月10日W3C组织正式推荐标准的OWL语言虽受到大力推荐,但由于出现时间较短,基于OWL语言的研究还是很少;

3)地理信息中存在的语义异构问题,这使得构建地理本体存在一定的难度。

7结语

实际上地理计算有诸多问题,例如我们常规涉及的建模问题,一般建模问题是理论地理学研究的问题,因此牛津大学副校长著名地理学家威廉姆·D·麦克米伦(William D.Macmillan)教授称自己既是计算地理学家,也是理论地理学家。计算地理学与理论地理学是分不开的,在未来的发展中,计算地理学和理论地理学将会相辅相成。

在本文的主体中,主要讨论了地理计算的一些基本计算科学问题,实际上还有几个问题被忽视,其一是由web环境支撑的计算体系,蔡砥,滕丽,王铮[60]认为至少存在着两种计算模式,一种是协同计算,一种是汇集计算。前者出现在一般的网格计算中,后者更具有地理计算的特点,这些计算模式还要进一步探索,其二是地理计算中的空间计算复杂性问题,这个问题在空间运筹学中可能更为突出,例如:设施区位中的P-中心问题,计算复杂性程度高,当我们在考虑到这种P_中心可能是需要邻避环境,在它们与GIS结合时,网络计算随即出现了,大量的计算复杂性问题涌现出来。其三是图谱识别问题,这样的三个问题实际上需要地理学与计算机科学的紧密结合,在21世纪,这样的结合可能是地理学发展的动力。

地理计算是一个新兴的学科,它将在地理学中发挥着越来越大的作用,也将成为大量青年地理学家从事的领域。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

地理计算及其前沿问题_地理学论文
下载Doc文档

猜你喜欢