侵权投诉
当前位置:

OFweek物联网

智能计算

正文

空间数据挖掘认识及其思考

导读: 在这个大数据时代,空间数据正在从各个领域飞速累计。空间数据挖掘作为数据挖掘的一部分,现已成为人们研究空间数据的重点学科。

  摘 要: 在这个大数据时代,空间数据正在从各个领域飞速累计。空间数据挖掘作为数据挖掘的一部分,现已成为人们研究空间数据的重点学科。主要介绍了空间数据挖掘的基本概念、一般步骤及其最新的挖掘方法,表达了对当前空间数据挖掘的看法。最后对未来空间数据挖掘的研究方向进行了更加深入的探讨。

  0 引言

  空间数据挖掘(Spatial Data Mining,SDM)即找出开始并不知道但是却隐藏在空间数据中潜在的、有价值的规则的过程。具体来说,空间数据挖掘就是在海量空间数据集中,结合确定集、模糊集、仿生学等理论,利用人工智能、模式识别等科学技术,提取出令人相信的、潜在有用的知识,发现空间数据集背后隐藏的规律、联系,为空间决策提供理论技术上的依据[1]。

  1 空间数据挖掘的一般步骤

  空间数据挖掘系统大致可以分为以下步骤:

  (1)空间数据准备:选择合适的多种数据来源,包括地图数据、影像数据、地形数据、属性数据等。

  (2)空间数据预处理和特征提取:数据预处理目的是去除数据中的噪声,包括对数据的清洗、数据的转换、数据的集成等。特征提取是剔除掉冗余或不相关的特征并将特征转化为适合数据挖掘的新特征。

  (3)空间数据挖掘和知识评估:采用空间数据挖掘技术对空间数据进行分析处理和预测,从而发现数据背后的某种联系。然后结合具体的领域知识进行评估,看是否达到预期效果。

  2 空间数据挖掘的方法研究

  空间数据挖掘是一门综合型的交叉学科,结合了计算机科学、统计学、地理学等领域的很多特性,产生了大量处理空间数据的挖掘方法。

  2.1 空间关联规则

  关联规则挖掘是寻找数据项之间的联系,表达式形式是X→Y,其中X与Y是两种不相交的数据项集,即X∩Y=?覫。KOPERSKI K等人将关联规则与空间数据库相结合,提出了空间关联规则挖掘[2]。空间关联规则将数据项替换为了空间谓词,一般表达形式如下:

  A1∧A2∧…∧An→B1∧B2∧…∧Bm(3)

  令A=(A1,A2,…,An),B=(B1,B2,…,Bm),A和B分别表示Ai和Bj的谓词集合,A和B可以是空间谓词或非空间谓词,但是必须至少包含一个空间谓词且A∩B=?覫。SHEKHAR S和HUANG Y针对空间关联规则的特点提出了把关联规则的思想泛化成空间索引点集的空间同位规则的概念,在不违背空间相关性的同时用邻域替换掉了事务[3]。时空关联不仅涉及事件在空间中的关联,还考虑了空间位置和时间序列因素。国内的柴思跃、苏奋振和周成虎提出了基于周期表的时空关联规则挖掘方法[4]。

  2.2 空间聚类

  空间聚类分析是普通聚类分析的扩展,不能完全按照处理普通数据的聚类分析方法来处理空间数据。由于存在地理学第一定律,即空间对象之间都存在一定的相关性,因此在空间聚类分析中,对于簇内的定义,要考虑空间自相关这一因素。通过对空间数据进行自相关分析,可判断对象之间是否存在空间相关性,从而可合理判断出对象是否可以分为一簇。

  基本的聚类挖掘算法有:

  (1)划分聚类算法:存在n个数据对象,对于给定k个分组(k≤n),将n个对象通过基于一定目标划分规则,不停迭代、优化,直到将这n个对象分配到k个分组中,使得每组内部对象相似度大于组之间相似度。

  (2)层次聚类算法:通过将数据不停地拆分与重组,最终把数据转为一棵符合一定标准的具有层次结构的聚类树。

  (3)密度聚类算法:用低密度的区域对数据对象进行分割,最终将数据对象聚类成为若干高密度的区域。

  (4)图聚类算法:用空间结点表示每个数据对象,然后基于一定标准形成若干子图,最后把所有子图聚类成一个包含所有空间对象的整图,子图则代表一个个空间簇。

  (5)网格聚类算法:把空间区域分割成具有多重分辨率的和有网格结构特性的若干网格单元,在网格单元上对数据进行聚类。

  (6)模型聚类算法:借助一定的数学模型,使用最佳拟合数据的数学模型来对数据进行聚类,每一个簇用一个概率分布表示。

  仅采用一种算法通常无法达到令人满意的预期结果,王家耀、张雪萍、周海燕将遗传算法与K-均值算法结合提出了用于空间聚类分析的遗传K-均值算法[5]。现实空间环境中,存在很多像道路、桥梁、河流的障碍物,张雪萍、杨腾飞等人把K-Medoids算法与量子粒子群算法结合进行带有空间障碍约束的聚类分析[6]。

  2.3 空间分类

  分类,简单地说是通过学习得到一定的分类模型,然后把数据对象按照分类模型划分至预先给定类的过程。空间分类时,不仅考虑数据对象的非空间属性,还要顾及邻近对象的非空间属性对其类别的影响,是一种监督式的分析方法。

1  2  下一页>  
声明: 本文由入驻OFweek公众平台的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

我来说两句

(共0条评论,0人参与)

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号