还记得a long long time ago 的青葱岁月……作为学渣的虾神最怕的就是各种(不擅长)的考试,虾神读书时候有个习惯,就拿到试卷之后,第一时间会把试卷翻到最后一页,去看最后一道大题。然后以最后一题来评判整个试卷的难度——具体的评判方法就是最后一题会不会做,如果会,说明这次考试及格应该木问题了,要是不会做,那么回去竹笋炒肉跑不掉了……
但是,大部分时候,同一份试卷,不同的梦想:
从虾神个人的惨痛经验来看,预先对某件事情进行总体性的判断,是灰常重要的。
那么作为一个分析人员,拿到数据的时候,肯定会给一个整体性的评价,比如每次虾神拿到一份数据,首先要干的事情自然就是把所能知道的统计方法都丢一遍上去:
然后,对于这份数据,领导问我的时候,虾神一般会给出一个概括性的描述,比如:
额……上面那张图片放错了,下面这个才是:
如果说,对一份属性数据进行整体性的聚合描述,用的是个各种“统计值”,那么对于空间数据要进行整体的描述,应该描述什么呢?
答案:首先是扩展自经典统计学中的各种中心、均值神马的,上篇文章已经说过了。
其次,就是空间统计学自身一个非常重要的概念:空间分布模式。什么叫分布模式,空间分布模式通常指的是带有位置属性的数据在一定的空间范围内的分布规律,如下所示:
最早的空间分布的研究方法,通常是采用样方分析来实现的——这个方法一度在各种空间统计学教程里面成为了hello world级的杀手锏。但时至今日,为什么在各种分析里面,很少出现样方分析的例子了呢,有的仅仅是用做入门说明。
样方分析的案例请看历史文章:
空间统计史话:元首的黑科技
不再使用样方分析来做空间分布模式的识别,主要是因为目前做空间模式的识别用了更好的方法,就是所谓的空间自相关的各种指数来对空间分布模式进行识别,最著名的,自然就是所谓的莫兰指数(moran‘s I)。
关于莫兰指数的文章,我写过很多,大家有兴趣去翻以前的内容:
白话空间统计之一:空间自相关
白话空间统计之三:Moran's I(莫兰指数)
白话空间统计番外:再谈莫兰指数(Moran's I)
当然,还有其他的方法,比如join count,查看以下文章:
全局空间自相关:Join Count
还有就是Geary's C这种和moran's I差不多的东西,主要来说,这些指数都是对一份数据进行全局性质的描述,如下:
那么如何来解读一份数据的空间分布模式呢?
下面还是用中国的数据来说问题:
这是虾神从国家统计局网站上获取的2000年-2016年,16年间中国各省GDP的分布情况,大致上来看,17年间各省的排名和区间,基本上没有多大变化,基本上是广东长期霸占No.1……(原谅我为了显目,用了辣眼睛的rainbow配色……大家将就着看吧)
我们怎么通过莫兰指数来揭示中国发展在空间分布上的变化呢?在ArcGIS里面很简单,直接采用全局空间自相关工具即可:
好吧,我截图的是ArcGIS Pro,大家有兴趣可以试用……很强大的东西。
接下去,对17年的moran's I进行计算……计算过程对于要重复点击17次鼠标这种事,虾神一般敬谢不敏,所以就直接采用Python实现了,代码如下:
结果如下:
解读莫兰指数的方法,以前已经说过了步骤如下:
首先,解读p-value——万恶的,被千万统计学家唾弃的P值……but,否定一个东西容易,但是要提出一个替代的理论,就千难万难了,所以到现在为止,大家一边骂,还得一边用。
p值代表随机的可能性,小于0.05,可以表示拒绝零假设了(说人话就是:不是瞎蒙的)。这里看起来,所有的年度数据,都拒绝零假设,表示都具有统计学意义,然后我们再来看莫兰指数的变化:
首先从整体上来看,中国各省份的GDP都呈现的是空间正相关,也就是说,出现了明显的聚集现象,GDP高的省份周边同样出现GDP高的省份的概率很大,有钱的省和有钱的省,穷省和穷省出现的是区域性聚集情况。套用新闻联播的术语,叫做“连片贫困区域”或者“连片发达区域”,这也是各省经济发展不均衡的主要表现。
其次,从2000年开始,中国各省GDP在空间分布上面的变化,整体是呈现下降的趋势,即这种区域性的聚集情况正在下降,但是从2015年开始,又重新开始上升……
从经济发展的理论上说,随机分布才是最完美的分布,随机表示每个区域的发展都是均衡的,所以从2000年到2014年这14年间,总体趋势下降是很有意义的,表示虽然依旧表现为严重的区域发展不平衡性,但是这种不平衡性确是逐年下降的
但是,大部分时候,同一份试卷,不同的梦想:
从虾神个人的惨痛经验来看,预先对某件事情进行总体性的判断,是灰常重要的。
那么作为一个分析人员,拿到数据的时候,肯定会给一个整体性的评价,比如每次虾神拿到一份数据,首先要干的事情自然就是把所能知道的统计方法都丢一遍上去:
然后,对于这份数据,领导问我的时候,虾神一般会给出一个概括性的描述,比如:
额……上面那张图片放错了,下面这个才是:
如果说,对一份属性数据进行整体性的聚合描述,用的是个各种“统计值”,那么对于空间数据要进行整体的描述,应该描述什么呢?
答案:首先是扩展自经典统计学中的各种中心、均值神马的,上篇文章已经说过了。
其次,就是空间统计学自身一个非常重要的概念:空间分布模式。什么叫分布模式,空间分布模式通常指的是带有位置属性的数据在一定的空间范围内的分布规律,如下所示:
最早的空间分布的研究方法,通常是采用样方分析来实现的——这个方法一度在各种空间统计学教程里面成为了hello world级的杀手锏。但时至今日,为什么在各种分析里面,很少出现样方分析的例子了呢,有的仅仅是用做入门说明。
样方分析的案例请看历史文章:
空间统计史话:元首的黑科技
不再使用样方分析来做空间分布模式的识别,主要是因为目前做空间模式的识别用了更好的方法,就是所谓的空间自相关的各种指数来对空间分布模式进行识别,最著名的,自然就是所谓的莫兰指数(moran‘s I)。
关于莫兰指数的文章,我写过很多,大家有兴趣去翻以前的内容:
白话空间统计之一:空间自相关
白话空间统计之三:Moran's I(莫兰指数)
白话空间统计番外:再谈莫兰指数(Moran's I)
当然,还有其他的方法,比如join count,查看以下文章:
全局空间自相关:Join Count
还有就是Geary's C这种和moran's I差不多的东西,主要来说,这些指数都是对一份数据进行全局性质的描述,如下:
那么如何来解读一份数据的空间分布模式呢?
下面还是用中国的数据来说问题:
这是虾神从国家统计局网站上获取的2000年-2016年,16年间中国各省GDP的分布情况,大致上来看,17年间各省的排名和区间,基本上没有多大变化,基本上是广东长期霸占No.1……(原谅我为了显目,用了辣眼睛的rainbow配色……大家将就着看吧)
我们怎么通过莫兰指数来揭示中国发展在空间分布上的变化呢?在ArcGIS里面很简单,直接采用全局空间自相关工具即可:
好吧,我截图的是ArcGIS Pro,大家有兴趣可以试用……很强大的东西。
接下去,对17年的moran's I进行计算……计算过程对于要重复点击17次鼠标这种事,虾神一般敬谢不敏,所以就直接采用Python实现了,代码如下:
结果如下:
解读莫兰指数的方法,以前已经说过了步骤如下:
首先,解读p-value——万恶的,被千万统计学家唾弃的P值……but,否定一个东西容易,但是要提出一个替代的理论,就千难万难了,所以到现在为止,大家一边骂,还得一边用。
p值代表随机的可能性,小于0.05,可以表示拒绝零假设了(说人话就是:不是瞎蒙的)。这里看起来,所有的年度数据,都拒绝零假设,表示都具有统计学意义,然后我们再来看莫兰指数的变化:
首先从整体上来看,中国各省份的GDP都呈现的是空间正相关,也就是说,出现了明显的聚集现象,GDP高的省份周边同样出现GDP高的省份的概率很大,有钱的省和有钱的省,穷省和穷省出现的是区域性聚集情况。套用新闻联播的术语,叫做“连片贫困区域”或者“连片发达区域”,这也是各省经济发展不均衡的主要表现。
其次,从2000年开始,中国各省GDP在空间分布上面的变化,整体是呈现下降的趋势,即这种区域性的聚集情况正在下降,但是从2015年开始,又重新开始上升……
从经济发展的理论上说,随机分布才是最完美的分布,随机表示每个区域的发展都是均衡的,所以从2000年到2014年这14年间,总体趋势下降是很有意义的,表示虽然依旧表现为严重的区域发展不平衡性,但是这种不平衡性确是逐年下降的