数据挖掘的技术系统【数据挖掘技术在WebGIS系统中的应用】

  摘 要:论述了WebGIS在数据处理方面面临的新问题,以及数据挖掘技术在WebGIS系统中的集成模式,给出了集成模式的体系结构。为了说明在WebGIS中运用数据挖掘技术的方法,选取了数据挖掘的聚类算法,将数据挖掘技术有效应用于现有WebGIS系统中的知识发现。最后通过一个实例来说明在WebGIS中进行数据挖掘的基本方法。
  �
  关键词:WebGIS;数据挖掘;知识发现;聚类算法 �
  中图分类号:TP391 文献标识码:A 文章编号:1672-7800(2012)003-0161-03��
  �
  作者简介:瞿小宁(1969-),女,湖南长沙人,长沙商贸旅游职业技术学院讲师,研究文秘为计算机网络、数据挖掘。
  
  0 引言�
  目前,WebGIS系统无法有效地发现大量的数据中存在的关系和规则,很难把握数据背后隐藏的重要规律,无法根据现有的数据对未来作出精确的预测,大量的地理数据还没有发挥应有的作用,在一定程度上阻碍了WebGIS的进一步发展。�
  随着计算机技术的飞速发展,人们对WebGIS的要求不断提高,不仅仅满足于WebGIS简单的查询功能和空间分析功能,而且要析取隐含图元间的逻辑结构和知识来解决复杂空间决策问题,特别是那些非结构化的问题。故WebGIS发展的速度已远远赶不上广大用户的需求,从而驱动人们探索新的技术手段来解决现在空间数据库知识发现面临的问题。针对此问题,本文利用数据挖掘技术从WebGIS中的大量空间数据中获取更多的知识,有望给予解决。 �
  1 数据挖掘与WebGIS系统的集成模式 �
  空间数据库中存储着WebGIS地图中图元间具有密切联系的空间和属性数据。作为数据挖掘技术与WebGIS的集成核心就是从庞大数据量的空间数据和属性数据以及表征它们之间关系的空间数据库中利用数据挖掘技术提取数据,因此其问题的核心是如何挖掘隐含在空间数据库中的知识。为了更好地对数据挖掘与WebGIS系统的进行研究,本文结合数据挖掘技术和WebGIS系统的各自特点,给出了以下3种集成模式: �
   (1)松耦合。这种模式把数据挖掘技术的应用和WebGIS系统看成两个完全独立的系统,相互间通过简单的文件信息进行交换,实现空间数据库与WebGIS系统间的信息交换与共享。�
   (2)紧耦合。这种模式利用数据库管理系统的数据挖掘或WebGIS系统的内置编程语言,或命令宏语言及应用程序接口,把WebGIS的部分功能模块扩充到数据挖掘算法中,或者把数据挖掘算法嵌入到WebGIS系统中。该模式的优点是能为用户提供统一的交互界面,缺点是不能充分挖掘空间数据库中的知识,或者WebGIS系统对空间数据的管理、处理及显示功能不能灵活运用。�
   (3)混合模式。这种模式采用嵌入或对象连接技术实现系统之间的相互操作。使用可嵌入或可进行二次开发功能的WebGIS软件或控件,可以利用高级编程语言如C#、C��++�等实现嵌入或对象交互,这样能将空间数据挖掘分析模块与WebGIS系统融合起来,这样该模式不仅完成对空间数据的挖掘任务,而且通过WebGIS控件的可视化展现技术对空间数据库挖掘后的知识进行可视化展示。该模式是将松、紧耦合模式的优点进行了整合,这样能很好的将WebGIS提供的可视化展示功能对空间数据挖掘的知识对用户进行展示,同时保持外部空间数据挖掘模块的灵活性,也最大限度地减少程序员开发的难度和工作量。该模式与前两种相比,具有扩展性强,灵活性好,集成度高等优点,给用户提供了相对统一的界面展示。该模式支持空间信息操作和空间推理决策分析的同步进行,查询推理分析的中间结果,用户能够控制正在进行中的推理分析进程等。但该模型实现起来相对比较复杂。�
  2 数据挖掘与WebGIS系统的集成体系结构�
  从以上数据挖掘与WebGIS系统3种集成模式可以看出,数据挖掘与WebGIS集成的最佳模式是混合模式。该集成模式是以通用空间数据库为核心,将空间数据库与概念层次库利用数据库管理系统的空间数据库的引擎对空间数据管理与空间分析,挖掘抽取大量空间数据中数据的空间知识,为WebGIS的图形用户界面提供底层数据源。WebGIS组件主要负责对空间数据挖掘的知识地图化显示及可视化展示任务。�
  采用这种集成模式的体系结构,不仅将空间信息大部分抽取过程直接在底层数据库上操作,而且可实现空间数据挖掘与WebGIS系统的完全融合,实现了数据挖掘与WebGIS系统的功能的增值,这样也可大大提高系统的运行效率和数据挖掘算法的计算效率。�
  
  图1 数据挖掘与WebGIS集成体系结构�
   从该集成体系结构可以看出,该集成体系机构分3大部分:WebGIS图形用户界面;通用空间数据库;数据挖掘模块。�
  (1)WebGIS图形用户界面。该部分实现了人机交互,系统通用空间数据库中的空间数据库、概念层次库中的空间分析作为源数据可以直接实现人机交互的界面,同时也实现了数据挖掘中间结果和知识发现的高层次知识通过图形用户界面可视化展示空间数据库中的知识向用户展示,用户也可以利用图形用户界面对挖掘过程进行实时控制和及时交互,例如,可以对用户进行解释挖掘结果,使得非计算机专业人员能够理解挖掘结果,用户也可以根据知识的主题选取恰当的挖掘算法等。�
  (2)通用空间数据库。系统根据WebGIS图形界面用户发出的数据挖掘命令,数据挖掘模块向通用空间数据库模块发出请求数据源的请求,同时也能根据用户的要求从空间数据库中选取与空间数据挖掘相关的数据,保存为一个单独的数据集,并且可以对源数据集作一些初步简单处理。例如,利用数据库管理系统来检查数据的一致性、完整性,对噪声数据以及缺失数据进行相应处理,并将处理后的数据集存储为数据挖掘算法可以识别的格式。�
  (3)数据挖掘模块。本模块是为了提高整个系统的效率和质量,此模块包含了数据准备、空间数据挖掘和结果分析与解释3部分,系统根据知识发现的任务以及挖掘算法的需求,对经过初步处理的数据集进行再处理,例如系统根据数据挖掘的算法要求对数据集进行适量的预处理或缩减等对准备好的数据集实现空间数据挖掘算法,并对数据挖掘算法得出的结果进行分析、解释的过程,此过程的终止条件是用户对挖掘出来的知识满意度。因此,用户需要对数据挖掘发现的知识进行筛选和判断。另外,可以把数据挖掘产生的知识经过一些表达处理,存入空间知识库,完善系统不具备的功能,从而为WebGIS系统提供真正的“智能”系统做数据源的准备。�
  3 数据挖掘聚类算法在WebGIS中的应用实例�
  根据以上数据挖掘与WebGIS系统的集成体系结构,本文利用聚类算法实现数据挖掘技术在WebGIS中的应用,具体聚类算法思想及步骤如下:�
  3.1 聚类算法的图元样本划分方法�
  在WebGIS系统中选取需要聚类的图元样本集合,并在其集合中随机选择与聚类图元数目相同的样本点作为聚类图元中心点,其余待聚类图元样本点根据距各个聚类图元中心点的可达距离,划分给最近的图元中心点,其图元样本划分方法可按公式(1)进行:
  
  3.4 WebGIS系统中图元聚类算法实现步骤�
  算法名称:基于空间聚类算法的WebGIS。�
  输入参数:确定需要图元聚类数目K,其中包含n个待聚类图元样本的空间数据库的数据(点和网络图层)。�
  输出结果:输出空间图元样本划分矩阵�U和聚类中心点集P�,使空间样本点间的可达成本总和最小。�
  图元聚类算法实现步骤如下:①设置聚类算法的相关参数,包括最大迭代次数、群体大小、交叉概率、变异概率;②群体初始化,按照染色体编码方案对染色体群体进行参数的初始化;③群体评价,对染色体进行解码,获得聚类中心点P,基于可达距离对样本集进行划分,采用空间样本点的可达成本总和数对染色体群体进行评价;④染色体的选择,依据评价结果,选择较优的染色体,并进行下一步操作;⑤染色体间的相互交叉;⑥染色体的变异;⑦染色体的保留;⑧中止条件检验,如果小于最大迭代次数,则转向c,否则停止迭代,输出空间样本划分矩阵U和聚类中心点集P。�
  3.5 算法测试�
  为了测试数据挖掘的图元聚类算法的有效性,本文以MapXtreme作为WebGIS控件,使用C#语言进行二次开发实现数据挖掘算法。以某地区的图元集为空间聚类样本点,以道路网络为空间样本点的联接关系,以地区间总人口为空间样本点的权重。使用地理信息系统MapXtreme软件建立空间信息系统,并将地区的总人口、地区间的直接可达矩阵输出为文本文件。使用C#语言编制相应的计算机程序,读取文本文件,并计算地区间的可达矩阵,进行空间聚类分析。最后利用聚类算法的结果通过MapXtreme软件进行可视化表达。聚类算法中参数设置:染色体群体大小为25;最大迭代次数为450次;交叉概率为0.6;变异概率为0.04。当聚类数目为4时,染色体群体在220代时达到最优值:4.357 1×109,空间聚类结果如图2所示。�
  4 结束语�
  本文论述了WebGIS在数据处理方面面临的新问题,以及数据挖掘技术在WebGIS系统中的集成模式,给出了集成模式的体系结构。为了说明在WebGIS中运用数据挖掘技术的方法,本文选取了数据挖掘的聚类算法,将数据挖掘技术有效利用现有WebGIS系统中的知识发现。
  
  图2 基于WebGIS的空间聚类结果
  �
  并通过一个实例来说明在WebGIS进行数据挖掘实现的有效性。
  
  参考文献:�
  \[1\] 吴信才.地理信息系统原理与方法\[M\].北京:电子工业出版社,2002.�
  \[2\] 李敏强,寇纪淞,林丹,等.遗传算法的基本理论与应用\[M\].北京:科学出版社,2002.�
  \[3\] JIAWEI HAB, MUCHLINE KAMBER.数据挖掘概念与技术\[M\].范明,孟小峰,译.北京:机械工业出版社,2001.�
  \[4\] A K H TUNG, J HOU, J HAN. Spatial clustering in the presence of obstacle\[C\].In: Proc 2001 Int. Conf. On Data Engineering ICDE,2001(1).�
  \[5\] 高新波.模糊聚类分析及其应用\[M\].西安:西安电子科技大学出版社,2004.�
  (责任编辑:杜能钢)
  
  ��
   The Application Reserch of Data Mining in WebGIS
  ��
  Abstract:This paper discusses the aspects of WebGIS in data processing faces the new questions, and data mining technology in the system integration mode WebGIS, gives the system structure of integration mode. To illustrate the WebGIS using data mining technology method, this article selects the data mining of clustering algorithm, the data mining technology effectively utilizing existing WebGIS system of knowledge discovery. Finally, a practical example is given to illustrate the basic WebGIS data mining method.�
  Key Words: WebGIS; Data Mining; Knowledge Discovery;Clustering Algorithm

推荐访问:数据挖掘 系统中的应用 技术 WebGIS