【ArcGIS工具箱】132.聚类分布制图——相似搜索

2024年8月9日

188

本系列配套练习数据下载链接：

链接：https://pan.baidu.com/s/1imKDcw9wZWk_ItR8fwugZw?pwd=mnsj 提取码：mnsj

如有需要请尽快下载。如若失效，我也会在最新发布文章中更新下载链接。

聚类分布制图工具集可通过执行聚类分析来识别具有统计显著性的热点、冷点和空间异常值的位置。这些工具在需要根据一个或多个聚类的位置执行某些行动时特别有用，例如在需要分配更多的警力来处理一组集中出现的入室盗窃案时，或者需要确定疾病爆发的地点以找到疾病根源的线索时。

此外，与之前介绍的“分析模式”工具集只能回答“是否存在空间聚类”这样的问题不同，“聚类分布制图”工具可以更加直观地呈现聚类位置和范围，所解答的问题是“聚类（热点/冷点）的出现位置在哪里”、“空间异常值的出现位置在哪里”以及“哪些要素最相似”。

聚类分布制图工具集包含聚类和异常值分析、分组分析、热点分析、优化的热点分析、优化的异常值分析、相似搜索六个工具。

本次主要介绍相似搜索工具。

1、概念：

相似搜索工具用于根据要素属性来确定哪些候选要素与输入要素最相似或最不相似。

图片来源：ArcMap官方文档

—————-

相似搜索工具包含以下多个参数：

1、输入要素和候选要素：

使用工具时，需要提供一个包含要匹配的输入要素值的图层和另一个包含候选要素值的图层。通常，这些值将位于同一要素图层中。一种方法是创建两个单独的数据集。另一种方法是创建具有两个不同的选择集的图层，该方式会更容易，不过需要注意记切换选择内容，避免要匹配的输入要素值与候选要素值的要素完全相同。

2、感兴趣属性：

感兴趣属性用于相似性的比较的属性字段列表。

感兴趣属性值必须为数值，而且必须同时存在于要匹配的输入要素和候选要素数据集中（相同字段名和相同字段类型）。对于感兴趣属性参数，该工具将列出在要匹配的输入要素数据集中找到的所有数值字段。

3、最相似或最不相似：

用户可以选择搜索与输入要素最相似的候选要素，还是最不相似的要素，或者同时搜索两者。

MOST_SIMILAR：查找最相似的要素。
LEAST_SIMILAR：查找最不相似的要素。
BOTH：查找最相似的要素和最不相似的要素。

4、匹配方法：

该参数定义了如何计算要素之间的相似性。有以下三种不同的匹配方法：

ATTRIBUTE_VALUES(属性值)：

计算前工具首先标准化所有感兴趣属性。对于每个候选要素，将从目标要素中减去标准化值，求得平方差，然后再将每个平方差相加。相加的总和即为该候选要素的相似性指数。所有候选要素经处理后，按照指数从小（最相似）到大（最不相似）的顺序对候选要素进行分级。

RANKED_ATTRIBUTE_VALUES(等级属性值)：

工具首先为目标要素和所有候选要素对感兴趣属性进行分级排序。然后为每个候选要素对目标要素相关的每个属性平方差求和。例如，如果目标的属性值在所有候选要素中为第 10 大值，而所考虑的候选要素的属性值为第 15 大值，此候选要素的平方秩属性值差将为 (10 – 15)**2 = 25。所有感兴趣属性的平方秩属性值差的总和即为此候选要素的相似性指数。所有候选要素经处理后，按照指数从小（最相似）到大（最不相似）的顺序对候选要素进行分级。输出要素参数将在 SIMINDEX（等级平方差总和）字段中报告这些总和。

ATTRIBUTE_PROFILES(属性剖面)：

首先将所有感兴趣属性标准化（此方法需要最少两个感兴趣属性）。然后用余弦相似性数学方法比较每个候选要素的标准化属性矢量与所匹配目标要素的标准化属性矢量。余弦相似性指数范围为 1.0（完全相似）到 -1.0（完全不相似），并在 SIMINDEX字段中加以报告。两个矢量 A 和 B 的余弦相似性按照如下方式计算：

余弦相似性与属性量的匹配无关，此方法主要关注这些属性的关系。就像该选项名称一样，在比较目标与候选要素之一会创建标准化属性的剖面图（折线图），则可以看到非常相似或非常不同的剖面，上图标识的属性的剖面非常相似，而下图表示属性的剖面十分不同：

5、结果数：

定义工具应返回的相似或不相似的要素数量。

如果将结果数参数设定为 0，则工具将对所有候选要素进行分级排序。此分析的输出将显示相似性的空间模式。

所有要匹配的输入要素值和匹配的解决方案，以及感兴趣属性和追加到输出的字段参数都将写入输出要素参数。此外，下列字段也包含在输出要素中：

MATCH_ID：列出要匹配的输入要素图层中的所有目标要素，并将其 OID 或 FID 标识符写入该字段中。匹配解决方案在该字段的值为 NULL 。如果输出要素值为 shapefile，则 NULL 值将由很大的负数（例如 -21474836）来表示。
CAND_ID：列出所有的匹配解决方案，该值表示这些解决方案的 OID 或 FID 标识符。要匹配的输入要素图层中的目标要素在该字段的值为 NULL。如果输出要素值为 shapefile，则 NULL 值将由很大的负数（例如 -21474836）来表示。
SIMRANK(相似性等级)：如果为匹配方法参数选择了 MOST_SIMILAR 或 BOTH，则所有匹配的解决方案均按照从最相似到最不相似的顺序进行等级划分。最相似匹配解决方案的等级值为 1。
DSIMRANK(相异性等级)：如果为匹配方法参数选择了 LEAST_SIMILAR 或 BOTH，则所有匹配的解决方案均按照从最不相似到最相似的顺序进行等级划分。最不相似的解决方案的等级值为 1。
SIMINDEX(值平方差总和、等级平方差总和或余弦相似性)：该字段量化了每个匹配解决方案与目标要素的相似程度。
LABELRANK(渲染等级)：该字段仅用于显示。该工具使用该字段为分析结果提供默认渲染。

相似搜索工具不仅可以帮助用户发现数据中的隐藏模式，还可以提高决策效率和准确性。通过该工具，可以更加深入地了解数据之间的关系和特征，从而更好地应对复杂的现实问题。

该工具的应用场景非常广泛。例如，在城市规划中，可以使用相似搜索工具来查找与已知成功区域最相似的其他区域，以便进行进一步的开发或投资。在市场分析中，可以利用这个工具来查找与现有客户最相似的潜在客户群体，从而制定更精准的营销策略。在环境监测方面，可以使用相似搜索工具来识别与已知污染区域环境特征最相似的其他区域，以便进行重点监测和保护。

2、工具：

加载【山东省】以及【行政区划(去除山东省)】面要素。

两者的属性表中都含有表示各省市GDP、年末就业人口、固定资产投资、市场化指数的四个字段。

选择【系统工具箱→Spatial Statistics Tools→聚类分布制图→相似搜索】工具，在弹出的对话框中进行设置。

折叠输出转点：如果要匹配的输入要素和候选要素同时为线或面，可以选择是要将输出要素的几何折叠为点，还是使其与输入要素的原始几何（线或面）相匹配。选中时，线和面要素将表示为要素质心（点）。未选中时（默认设置），输出几何将与输入要素的线或面几何相匹配。
追加到输出的字段：包含输出要素的可选属性列表。可根据需要选择特定的字段（不用于确定相似性的字段），这些字段将在计算完成后添加到输出结果中。例如，包含名称标识符、分类字段或者日期字段。