【ArcGIS工具箱】128.聚类分布制图——聚类和异常值分析 (Anselin Local Moran's I)

2024年8月3日

193

本系列配套练习数据下载链接：

链接：https://pan.baidu.com/s/1imKDcw9wZWk_ItR8fwugZw?pwd=mnsj 提取码：mnsj

如有需要请尽快下载。如若失效，我也会在最新发布文章中更新下载链接。

聚类分布制图工具集可通过执行聚类分析来识别具有统计显著性的热点、冷点和空间异常值的位置。这些工具在需要根据一个或多个聚类的位置执行某些行动时特别有用，例如在需要分配更多的警力来处理一组集中出现的入室盗窃案时，或者需要确定疾病爆发的地点以找到疾病根源的线索时。

此外，与之前介绍的“分析模式”工具集只能回答“是否存在空间聚类”这样的问题不同，“聚类分布制图”工具可以更加直观地呈现聚类位置和范围，所解答的问题是“聚类（热点/冷点）的出现位置在哪里”、“空间异常值的出现位置在哪里”以及“哪些要素最相似”。

聚类分布制图工具集包含聚类和异常值分析、分组分析、热点分析、优化的热点分析、优化的异常值分析、相似搜索六个工具。

本次主要介绍聚类和异常值分析 (Anselin Local Moran’s I)工具。

1、概念：

聚类和异常值分析 (Anselin Local Moran’s I)工具用于识别数据中的空间聚类（即相似值的区域聚集）和空间异常值（与周边区域显著不同的值）。

Anselin Local Moran’s I统计量是一种局部空间自相关指标，它衡量的是每个空间单元与其邻近单元之间的相似性或差异性。通过计算每个空间单元的Local Moran’s I值，可以确定哪些区域的值是相似的（正空间自相关，表示聚类），哪些区域的值是相异的（负空间自相关，可能表示异常值或空间分散）。

该工具将计算每个输入要素的Local Moran’s I值，以及相应的z得分和p值，这些统计量有助于评估空间聚类的统计显著性。输出结果通常包括以下几个部分：

Local Moran’s I值：是一个局部空间自相关的度量指标。该指数衡量一个特定空间单元（如一个地理区域）与其相邻单元之间属性值的相似程度。正值表示该空间单元的属性值与相邻单元的属性值相似，即存在正的空间自相关，可能意味着聚类或集中现象。负值则表示该空间单元的属性值与相邻单元的属性值不同，即存在负的空间自相关，可能指示一个异常值或空间上的分散现象。绝对值大小反映了空间自相关的强度。
z得分：是Local Moran’s I指数的标准化形式，它表示Local Moran’s I值与期望值之间的差异，以标准差为单位来衡量。高的正z得分意味着观测到的Local Moran’s I值远高于随机模式下的期望值，指示强烈的空间聚类。低的负z得分则表示观测值远低于期望值，可能表示一个空间异常或分散的模式。
伪p值：用于评估Local Moran’s I统计量的统计显著性，即观察到的空间模式是否可能由随机过程产生。一个较小的伪 p 值（通常阈值设为0.05或更小）表明，观察到的Local Moran’s I值不太可能是随机的，因此该空间模式具有统计显著性。
聚类/异常值类型（COType）：根据Local Moran’s I值、z得分和p值，将每个空间单元分类为不同类型的聚类（如高值聚类HH或低值聚类LL）或异常值（如高值被低值围绕HL或低值被高值围绕LH）。COType 字段将始终指明置信度为 95% 的统计显著性聚类和异常值。只有统计显著性要素在 COType 字段中具有值。

对于线和面要素，距离计算中会使用要素的质心。对于多点、折线或由多部分组成的面，将会使用所有要素部分的加权平均中心来计算质心。点要素的加权项是 1，线要素的加权项是长度，而面要素的加权项是面积。

需要注意的是，此类分析的输入要素类至少包含 30 个要素，如果少于 30 个要素，则结果不可靠。

图片来源：ArcMap官方文档

—————-

空间关系的概念化参数的选择应反映要分析的要素之间的固有关系。对要素在空间中彼此交互方式构建的模型越逼真，结果就越准确。关于该参数的含义可以参考以下文章：

【ArcGIS工具箱】123.分析模式——空间自相关(Morans I)

通过该工具，可以更深入地理解数据的空间分布模式，识别出重要的热点、冷点和异常值，从而为决策制定提供有力支持。例如，在流行病学、城市规划、环境监测等领域，可以帮助发现疾病高发区、人口密度高的区域或污染源等关键信息。

2、工具：

加载【行政区划】面要素。属性表中的【2017】字段表示各省市生产总值数据。

选择【系统工具箱→Spatial Statistics Tools→聚类分布制图→聚类和异常值分析 (Anselin Local Moran’s I)】工具，在弹出的对话框中进行设置。

输入字段：用于计算的数值字段。输入字段应包含多种值。此统计数学方法要求待分析的变量存在一定程度的变化；例如，如果所有输入都是 1 便无法求解；
空间关系的概念化：指定要素空间关系的定义方式，即空间权重关系；
距离法：指定计算每个要素与邻近要素之间的距离的方式。选项包括欧氏距离以及曼哈顿距离；
距离范围或距离阈值：为“反距离”和“固定距离”选项指定中断距离。将在对目标要素的分析中忽略为该要素指定的中断之外的要素。但是，对于“无差别的区域”，指定距离之外的要素的影响会随距离的减小而变弱，而在距离阈值之内的影响则被视为是等同的；
标准化：当要素的分布由于采样设计或施加的聚合方案而可能偏离时，建议使用行标准化；
应用错误发现率(FDR)校正：指定在评估统计显著性时是否使用 FDR 校正。选中时，统计显著性将以置信度为 95% 的错误发现率校正为基础。未选中（默认设置）时， p 值小于 0.05 的要素将显示在 COType 字段中，反映置信度为 95% 的统计显著性聚类或异常值；
排列数：排列可用于确定找到您所分析值的实际空间分布的可能性。对于各个排列而言，各要素周围的邻域值将随机进行重新排列，并会计算出 Local Moran’s I 值。结果即为值的参考分布，随后会将该参考分布与实际观测到的 Moran’s I 进行比较，以确定在随机分布中查找到观测值的可能性。默认为 499 次排列；然而，随机样本分布会随着排列的增加而改进，进而提高伪 p 值的精度。如果将排列数参数设置为 0，则结果为传统 p 值而不是伪 p 值，z 得分基于随机化零假设进行计算。