首页软件基础教程ArcGIS【ArcGIS工具箱】13...

【ArcGIS工具箱】135.空间关系建模——探索性回归

系列配套练习数据下载链接:

链接:https://pan.baidu.com/s/1imKDcw9wZWk_ItR8fwugZw?pwd=mnsj 提取码:mnsj
如有需要请尽快下载。如若失效,我也会在最新发布文章中更新下载链接。




空间关系建模工具集可构建空间权重矩阵或利用回归分析建立空间关系模型,用于挖掘或量化要素间关系。
空间关系建模工具集包含地理加权回归、探索性回归、普通最小二乘法、生成网络空间权重、生成空间权重矩阵五个工具。
本次主要介绍探索性回工具。
  • 1、概念:

探索性回工具对输入的候选解释变量的所有可能组合进行评估,以便根据指定的指标找出能够最好地解释因变量的普通最小二乘法OLS模型。

具体来说,该工具将尝试输入候选解释变量的每一种组合,以寻找正确指定的 OLS 模型。仅当找到一个满足可接受的最小校正 R 平方、最大系数 p 值边界、最大 VIF 值边界和可接受的最小 Jarque Bera p 值阈值条件的模型时,工具才会对模型残差运行空间自相关 (Global Moran’s I) 工具,以了解偏低/偏高预计值是否会产生聚集。为了在全部模型均为通过所有这些条件的情况下至少提供一些有关残差聚类方面的信息,还会向具有最高校正 R2 值的三个模型和具有最大 Jarque-Bera p 值的三个模型的残差应用空间自相关 (Global Moran’s I) 测试。

图片来源:ArcMap官方文档

—————-

探索性回归工具的主要输出结果为报表文件以及一个可选表其中包含了满足指定条件的所有OLS模型的信息,这些信息可以帮助评估模型的拟合优度、变量的显著性以及是否存在多重共线性问题。输出内容的解释将在工具部分展开。
工具能够帮助理解哪些解释变量对因变量有显著影响,以及这些影响的方向和强度。对于揭示空间数据中的关系和模式非常有用,特别是在空间关系建模和预测分析中。
  • 2、工具:
加载【行政区划】面要素。属性表中有表示各省市GDP、年末就业人口、固定资产投资、市场化指数的四个字段。
GWR 通常用于处理包含数百个要素的数据集,以便获得最佳结果,不适用于小型数据集。因此本次数据仅用于操作展示。

选择【系统工具箱→Spatial Statistics Tools→空间关系建模探索性回】工具,在弹出的对话框中进行设置。
  • 权重矩阵文件:用于定义输入要素之间空间关系的空间权重的文件。此文件用于评估回归残差之间的空间自相关。可以使用生成空间权重矩阵文件工具来创建此文件。未提供空间权重矩阵文件的情况下,将根据每个要素的 8 个最相邻像元对残差的空间自相关进行评估。间权重矩阵文件仅用于分析模型残差中的空间结构,不用于构建或校准任何 OLS 模型

  • 解释变量的最大数量将对解释变量数不超过此处输入值的所有模型进行评估。例如,如果解释变量的最小数量是 2,解释变量的最大数量是 3,工具会对包含两个解释变量的任一组合的所有模型进行评估,还会对包含三个解释变量的任一组合的所有模型进行评估。

  • 解释变量的最小数量此值表示所评估模型的解释变量的最小数量。例如,如果解释变量的最小数量是 2,解释变量的最大数量是 3,探索性回归工具会对包含两个解释变量的任一组合的所有模型进行评估,还会对包含三个解释变量的任一组合的所有模型进行评估。

  • 可接受的最小校正 R 平方:视为合格模型的最小校正可决系数值。如果模型已通过所有其它搜索条件,但“校正可决系数”值小于此处输入的值,则不会在输出报表文件中将其显示为“合格模型”。此参数的有效值范围是 0.0 至 1.0。默认值为 0.5,表示合格模型将解释因变量中至少 50% 的变化。

  • 最大系数 p 值边界对于所评估的每个模型,OLS 会计算解释变量系数 p 值。此处输入的边界 p 值表示模型中所有系数所需的置信度,需要达到此置信度才能认为模型满足条件。p 值较小表示置信度较强。此参数有效值的范围是 1.0 至 0.0,默认值是 0.05,表示合格模型只包含其系数在统计学上处于 95% 置信度(p 值小于 0.05)的解释变量。要放宽此默认值,则应输入较大的 p 值边界,例如 0.1。如果得到的合格模型较多,则您可能希望使此搜索条件更为严格,那么可以将默认 p 值边界从 0.05 减小为 0.01 或者更小的值。

  • 最大 VIF 值边界此值表示可接受的模型解释变量之间的冗余(多重共线性)。当 VIF(方差膨胀因子)值高于 7.5 时,多重共线性会使模型变得不稳定;因此,此处的默认值是 7.5。如果您想让合格模型具有更少的冗余,则应为此参数输入较小的值,如 5.0。

  • 可接受的最小 Jarque Bera p 值Jarque-Bera 诊断检验所返回的 p 值将表示模型残差是否呈正态分布。如果 p 值在统计学上具有显著性(小),则模型残差不呈现正态分布,模型有偏差。合格模型应具有较大的 Jarque-Bera p 值。默认可接受的最小 p 值是 0.1。只有返回的 p 值大于此最小值的模型才被认为是合格的。如果查找无偏合格模型很困难,并决定放宽此条件,则可以输入更小的最小 p 值,如 0.05。

  • 可接受的最小空间自相关 p 值对于通过所有其他搜索条件的模型,探索性回归工具将使用 Global Moran’s I 对模型残差进行空间聚类检查。当此诊断检验的 p 值在统计学上具有显著性(p值小)时,表示该模型很可能缺少关键的解释变量(即不能说明整个情况)。对于此诊断检验,合格模型应具有较大的 p 值。默认的最小 p 值是 0.1,只有返回的 p 值大于此最小值的模型才被认为是合格的。如果对于此诊断检验,查找正确指定的模型很困难,并决定放宽此搜索条件,则可以输入更小的最小值,如 0.05。

输出结果包括以下两部分:
1)、报表文件:
报表的一个目的在于帮助判断备选的解释变量是否可生成任何正确指定的 OLS 模型。报表文件通常包含以下五个不同的部分:
  • 1. 基于解释变量数量的最佳模型

该部分将根据已检验模型中解释变量的数量进行分组。如果将解释变量的最小数量参数指定为 1,解释变量的最大数量参数指定为 5,则将包含 5 个汇总节。
每个汇总节将列出符合所有默认搜索条件(可接受的最小校正 R 平方、最大 p 值系数边界、最大 VIF 值边界、可接受的最小 Jarque Bera p 值和可接受的最小空间自相关 p 值参数)的R2 校正值最高的三个模型以及所有通过模型,列表中包含的所有模型都将成为正确指定的 OLS 模型。
另外,还包括各模型的诊断值:经过修正的 Akaike 信息准则-AICc、Jarque-Bera p 值- JB、Koenker 的标准化 Breusch-Pagan p 值-K(BP)、最大方差膨胀因子 -VIF 和残差空间自相关的测量(Global Moran’s I p 值)-SA这些诊断值便于了解模型预测的精确度(校正 R2),以及模型是否通过指定的所有诊断条件。
  • 2. 探索性回归全局汇总:

最好从探索性回归全局汇总节开始,尤其是在未找到任何通过模型的情况下,因为该汇总将显示无模型通过的原因。该节列出五项诊断检验以及通过这些检验的模型的百分比。

3. 变量显著性的汇总:

该部分提供变量关系的相关信息,并说明这些关系的一致性的情况。各备选解释变量与其统计显著性的次数比例一同列出。
可以通过检查 % 负数和 % 正数列查看变量关系的稳定性。较强的预测因子始终具有显著性(% 显著),且变量关系稳定(主要为负数或主要为正数)。
当存在大量备选解释变量(超过 50 个),但是只希望使用少量的解释变量来预测模型时,该部分可帮助提高效率。但是,需要注意的是具有量解释变量并对多种组合进行检验时,计算可能需要花费很长时间,在某些情况下,工具能会由于内存错误而无法完成该过程。此时,逐渐增加要检验的模型的数量是一个不错的方法:最初,将解释变量的最小数量和解释变量的最大数量都设置为 2、然后设置为 3、4,依此类推每次运行时,移除检验模具有统计显著性的变量。

  • 4. 多重共线性的汇总:

报表的多重共线性的汇总节可与变量显著性的汇总节结合使用,以便了解为改善性能可将哪些备选解释变量从分析中移除。多重共线性的汇总节说明了具备较高多重共线性的模型中各解释变量出现的次数,以及同时包含在这些模型中的其他解释变量。若两个(或更多)解释变量经常同时出现在多重共线性较高的模型中,则表示这些变量的作用可能相同。

5. 其他诊断的汇总:

最终的诊断汇总显示最高 Jarque-Bera p 值(残差正态的汇总)和最高 Global Moran’s I p 值(残差自相关的汇总)。

2)、可选表

如果提供了输出结果表的值,则将创建包含符合最大 p 值系数边界和最大 VIF 值边界条件的所有模型的表格。即使没有通过模型,输出表中也可能包含一些模型。

表中各行表示符合系数和 VIF 值条件的模型。各列提供模型诊断和解释变量。



本篇文章来源于微信公众号: 码农设计师

RELATED ARTICLES

欢迎留下您的宝贵建议

Please enter your comment!
Please enter your name here

- Advertisment -

Most Popular

Recent Comments