首页软件基础教程ArcGIS【ArcGIS工具箱】85...

【ArcGIS工具箱】85.多元分析——Iso 聚类

系列配套练习数据下载链接:

链接:https://pan.baidu.com/s/1imKDcw9wZWk_ItR8fwugZw?pwd=mnsj 提取码:mnsj
如有需要请尽快下载。如若失效,我也会在最新发布文章中更新下载链接。




ArcGIS多元分析工具集专为处理多变量空间数据而设计,提供了一系列强大的工具,可用于探索数据中的复杂关系、识别模式和进行预测。该工具集涵盖了监督分类、非监督分类、主成分分析、聚类分析等多种统计方法,能够满足不同应用场景的需求。
多元分析工具集主要包含以下功能:
  • 数据准备: 提供用于清理、转换和标准化多变量数据的工具,例如波段集统计、创建特征文件工具
  • 降维: 通过主成分分析等方法降低数据维度,简化分析过程,例如主成分分析工具。
  • 分类: 支持监督分类和非监督分类,帮助您识别数据中的类别或模式,例如最大似然法分类、Iso 聚类非监督分类类别概率等工具。
  • 聚类: 将具有相似特征的数据聚类在一起,发现数据中的潜在分组,例如 Iso 聚类工具。
  • 探索性分析: 提供用于分析多变量数据之间关系的工具,例如树状图工具。
本次主要介绍Iso 聚类工具。
  • 1、概念:
ISO聚类工具是使用ISODATA(Interactive Self-organization data analysis and techniques algorithm)算法来确定多维属性空间中像元自然分组的特征,并将结果储存在ASCII文件(该文件用于存储感兴趣的每个类或聚类的多元统计信息)中,但不产生分类结果。
Isodata聚类算法的名称中的前缀“iso”是迭代自组织(Iterative Self-Organizing)方法的缩写,它描述了这个聚类算法的核心过程。这种方法通过迭代地更新聚类中心和重新分配样本来逐渐优化聚类的结果。
Isodata聚类算法的过程可以简要概括如下:
  • 初始化聚类中心:算法开始时,会为每个聚类指定一个初始的平均值。这些平均值可能是随机选择的,或者基于某种启发式方法确定。
  • 分配样本到聚类:在每次迭代中,算法会计算每个样本(在遥感影像中通常是像元)与当前所有聚类中心之间的欧氏距离。然后,每个样本被分配给距离最近的聚类中心。欧氏距离是衡量多维空间中两点之间“直线”距离的标准方法。
  • 重新计算聚类中心:一旦所有样本都被分配给聚类,算法就会基于每个聚类中样本的属性值重新计算聚类中心。这通常是通过计算聚类内所有样本的平均值来完成的。
  • 迭代优化:上述两个步骤(分配样本和重新计算聚类中心)会反复执行,直到达到预设的最大迭代次数。迭代次数应该足够大,才能确保执行指定次数的迭代后,像元从一个聚类迁移至另一个聚类的次数最少;从而,使所有聚类变为稳定状态。迭代次数应该随着聚类数的增加而增加。
  • 评估和调整聚类数:由于最佳的聚类数通常事先未知,因此可能需要进行多次聚类分析,每次使用不同的聚类数。用户可以根据生成的聚类结果的质量(例如通过目视检查或使用验证数据)来调整聚类数,并重新运行算法以获得更好的结果。
Isodata聚类算法是一种无监督学习方法,这意味着它不需要预先标记的训练数据。它特别适用于探索性数据分析,其中用户希望了解数据的内在结构和模式,而不是基于预先定义的类别进行分类。在遥感影像处理中,Isodata聚类常用于地物类型的自动识别和分类。
指定的类数目值是聚类过程可产生的最大聚类数。但是,输出特征文件中的聚类数可能与指定的类数不同。这种状况发生在下列情况下:
  • 数据值和初始聚类平均值分布不均匀。在某些像元值范围内,这些聚类的出现频率可能接近于零。因此,某些最初预定义的聚类平均值可能无法吸收足够多的像元成员。
  • 在迭代结束时,将消除由数量少于指定最小类大小值的像元组成的聚类。
  • 如果聚类稳定后统计值相似,则聚类将与邻近的聚类进行合并。某些聚类可能彼此间非常接近并且具有十分相似的统计数据,这使得将其分开会导致数据被不必要地分割开。
Iso 聚类工具所生成的特征文件可用作生成非监督分类栅格的分类工具(例如最大似然法分类)的输入。
特征文件是用于存储感兴趣的每个类或聚类的多元统计信息的 ASCII 文件。该文件包括每个类或聚类的平均值、类或聚类中像元的数目以及类或聚类的方差协方差矩阵。可以使用任何文本编辑器来显示特征文件。
  • 2、工具:
加载影像数据【影像.tif】,该数据有3个波段。
选择【系统工具箱→Spatial Analysis Tools→多元分析→ISO聚类】工具,进行相关设置,可以使用记事本工具打开生成的特征文件。
  • 类数目:是指聚类过程中可能产生的最大聚类数。类数的最小有效值为二。不存在最大聚类数。通常情况下,聚类越多,所需的迭代就越多
  • 迭代次数:是指系统迭代运算的次数,该值应该足够大,以保证像元从一个类迁移到另一类的次数最少,从而使所有的聚类变成稳定状态。迭代次数随着类数目的增加而增大。
  • 最小类大小:是指一个有效类多包含的最少像元数。要提供充足的必要统计数据,生成特征文件以供将来分类使用,每个聚类都应当含有足够的像元来准确地表示聚类。最小类大小输入的值应大约比输入栅格波段中的图层数大 10 倍
  • 采样间隔:是指相邻零次采样的空间间隔,若间距过大会造成重要信息的损失,若间距过小会增加系统计算量。

以下为 Iso 聚类创建的特征文件

  • 文件开头是一个添加注释的文件头,显示了执行 iso 聚类所使用的参数值。
  • 输出特征文件中的类 ID 值以一开始,然后按顺序增加至输入类的数量。
  • 类名称为可选名称,可以在创建文件后使用文本编辑器输入。输入的类名称必须为单个字符串,并且长度不得超过 14 个字母数字字符。


————————————————-

《ArcGIS工具箱》系列内容目录(持续更新):

……

73.叠加分析——模糊隶属度
74.叠加分析——模糊叠加
75.叠加分析——查找区域
76.栅格综合——聚合
77.栅格综合——扩展
78.栅格综合——收缩
79.栅格综合——蚕食
80.栅格综合——细化
81.栅格综合——边界清理
82.栅格综合——众数滤波
83.栅格综合——区域合并
84.多元分析——波段集统计
……


本篇文章来源于微信公众号: 码农设计师

RELATED ARTICLES

欢迎留下您的宝贵建议

Please enter your comment!
Please enter your name here

- Advertisment -

Most Popular

Recent Comments