然北水浮城市与坏境学院 89 College of Urban and Environmental sciences 地理数学方法配套教材 基于Exce的地理数据分析 (2008年) 陈彦光◎编著 北京大学城市与环境学院
地理数学方法配套教材 基于 Excel 的地理数据分析 (2008 年) 陈彦光 ◎编著 北京大学城市与环境学院
研究生地理数学方法(实习) Part1电子表格 Excel 摘要 本书面向地理问题,基于Excl软件,讲述了大量数学方法的应用思路和过程。教学内 容涉及回归分析、主成分分析、聚类分析、判别分析、时(空)间序列分析、 Markov链 RS分析、线性规划、层次分析法、灰色系统GM(1,M建模和预测方法,如此等等。通过模 仿本书讲授的计算过程,读者可以加深对有关数学方法的认识和理解,并且掌握很多 Excel 的应用技巧。本书最初以北京大学研究生地理数学方法的辅助教材身份出现,但实际上是作 者对 Excel计算功能深度开发的一系列试验成果的集合。书中绝大多数计算过程设计为作者 首创,在国内外其他教科书中不能见到。这本书的初稿和修改稿先后在北京大学城市与环境 专业研究生中试用七年,获得学生的广泛好评。书中内容曾经被其他高校和研究所的学生多 次拷贝。 这本书虽然是以地理数据为分析对象展开论述,但所涉及的内容绝大多数为通用方 只要改变数据的来源,书中论述的计算流程可以完全可以应用到其他领域。本书可以供地理 学、生态学、环境科学、地质学、经济学、城市规划学乃至医学、生物学等诸多领域的学生 研究人员以至工程技术人员学习或参考
研究生地理数学方法(实习) Part1 电子表格 Excel 摘 要 本书面向地理问题,基于 Excel 软件,讲述了大量数学方法的应用思路和过程。教学内 容涉及回归分析、主成分分析、聚类分析、判别分析、时(空)间序列分析、Markov 链、 R/S 分析、线性规划、层次分析法、灰色系统 GM(1, N)建模和预测方法,如此等等。通过模 仿本书讲授的计算过程,读者可以加深对有关数学方法的认识和理解,并且掌握很多 Excel 的应用技巧。本书最初以北京大学研究生地理数学方法的辅助教材身份出现,但实际上是作 者对 Excel 计算功能深度开发的一系列试验成果的集合。书中绝大多数计算过程设计为作者 首创,在国内外其他教科书中不能见到。这本书的初稿和修改稿先后在北京大学城市与环境 专业研究生中试用七年,获得学生的广泛好评。书中内容曾经被其他高校和研究所的学生多 次拷贝。 这本书虽然是以地理数据为分析对象展开论述,但所涉及的内容绝大多数为通用方法。 只要改变数据的来源,书中论述的计算流程可以完全可以应用到其他领域。本书可以供地理 学、生态学、环境科学、地质学、经济学、城市规划学乃至医学、生物学等诸多领域的学生、 研究人员以至工程技术人员学习或参考
研究生地理数学方法(实习) Part1电子表格 Excel 前言 要想成功地掌握一门数学方法,至少要熟悉如下几个环节。一是基本原理,即一种方法 的理论基础和逻辑过程;二是应用范围,任何一种方法都有其自身的特长和功能局限,认识 其优势和不足,才能真正有效地运用;三是算法或者运算规则系统,即一种为在有限步骤内 解决数学问题而建立的可重复应用的计算流程体系;四是计算过程,即在一种方法的适用范 围内,给定一组观测数据,如何借助一定的算法获取所要求的计算结果:五是典型实例,亦 即一种数学方法应用于现实问题的具体案例。如果还想进一步加深对一种数学方法的了解, 还有第六个环节,那就是不同方法的融会贯通。 目前我们用到的绝大多数数学方法的基本原理要求具备良好的高等数学知识,包括微积 分、线性代数和概率与数理统计。不过,高等数学知识仅仅是掌握一门数学方法的必要条件。 有了高等数学知识,我们就可以比较透彻地了解一种数学方法的逻辑结构,从而明确其内在 原理。掌握了一种方法的基本原理,大体上可以懂得其适用范围和功能局限。可是,所有这 些,仅仅限于理论层面。要想借助相应的算法,将一种数学原理有效地应用于现实问题,学 会计算过程是非常的关键的一个环节。任何一个数学方法的应用者,只有打通这一个环节, 才能在方法的运用方面尽可能地扬长避短。计算过程和典型实例是相辅相成的,典型实例是 计算过程的结果,计算过程通常借助典型实例来显示其技术线路。 以最基本的数学方法——回归分析为例,学习该方法涉及如下过程。在基本思想方面 回归建模就是用数学语言刻画一组变量与某个变量之间的相关关系或者因果关系。关系的强 弱通过回归系数表现出来,回归分析的核心问题就是模型参数值的估计。为此,需要一种有 效的算法。目前的回归分析算法主要采用误差平方和最小的方法,即所谓最小二乘法。在这 个过程中,首先要采用线性方程组进行描述,理论上用到线性代数的知识:其次寻求误差平 方和最小时的参数估计结果,理论上用到微积分的条件极值方法;在回归结果检验过程中, 涉及误差的正态分布思想,这在理论上又用到大量的概率论和统计学原理。可是,虽然很多 读者明白上述道理,但在具体应用过程中依然觉得似是而非。究其原因,主要在于不了解计 算过程,没有掌握简明易懂的计算范例 作者编著本书的目的,就是帮助读者循序渐进地掌握一些数学方法的计算过程和简明范 例,通过这个过程进一步加深对有关数学原理和方法的理解以及应用领域的认识,进而将不 同的方法有机联系起来。全书的内容分为四大部分,一是相关分析和回归分析,主要讲述线 性回归和逐步回归的计算过程;二是多元统计分析,主要讲述主成分分析、聚类分析和判别 分析的计算过程;三是时空过程分析,包括时(空)间序列分析和时空随机过程分析,主要 讲述自相关分析、自回归分析、周期图分析、功率(波)谱分析、 Markov链分析和RS分 析;四是系统分析,主要讲述层次(AHP)分析法、线性规划求解和灰色系统的建模与预测 分析方法。 虽然书中讲到大量的有关 Excel的应用技巧,但这不是一本关于 Excel应用方法的教科 书,而是基于Excl软件的数据处理和数学方法应用的教科书。每一章的写作都采用相同的 模式,即围绕一个或者若干个简明的例子,全方位地讲解一种数学方法的计算过程。书中讲 述的有些数学方法处理过程是很实用的,如一元和多元回归分析方法、非线性回归建模方法、 自回归分析方法、功率谱分析方法、 Markov链方法、AHP法、线性规划求解方法、GM(1,1) 和GM(1,M)建模与预测方法,如此等等。也就是说,通过上述内容的学习,读者可以直接 借助 Excel处理实际工作中遇到的有关数学问题。另有一部分方法的讲述并不实用,而是纯 粹教学性质的。逐步回归分析方法、主成分分析方法、聚类分析方法、判别分析方法、自相 关分析方法,如此等等,属于此类。这些方法的计算过程繁琐,当数据量较大的时候,在
研究生地理数学方法(实习) Part1 电子表格 Excel i 前 言 要想成功地掌握一门数学方法,至少要熟悉如下几个环节。一是基本原理,即一种方法 的理论基础和逻辑过程;二是应用范围,任何一种方法都有其自身的特长和功能局限,认识 其优势和不足,才能真正有效地运用;三是算法或者运算规则系统,即一种为在有限步骤内 解决数学问题而建立的可重复应用的计算流程体系;四是计算过程,即在一种方法的适用范 围内,给定一组观测数据,如何借助一定的算法获取所要求的计算结果;五是典型实例,亦 即一种数学方法应用于现实问题的具体案例。如果还想进一步加深对一种数学方法的了解, 还有第六个环节,那就是不同方法的融会贯通。 目前我们用到的绝大多数数学方法的基本原理要求具备良好的高等数学知识,包括微积 分、线性代数和概率与数理统计。不过,高等数学知识仅仅是掌握一门数学方法的必要条件。 有了高等数学知识,我们就可以比较透彻地了解一种数学方法的逻辑结构,从而明确其内在 原理。掌握了一种方法的基本原理,大体上可以懂得其适用范围和功能局限。可是,所有这 些,仅仅限于理论层面。要想借助相应的算法,将一种数学原理有效地应用于现实问题,学 会计算过程是非常的关键的一个环节。任何一个数学方法的应用者,只有打通这一个环节, 才能在方法的运用方面尽可能地扬长避短。计算过程和典型实例是相辅相成的,典型实例是 计算过程的结果,计算过程通常借助典型实例来显示其技术线路。 以最基本的数学方法——回归分析为例,学习该方法涉及如下过程。在基本思想方面, 回归建模就是用数学语言刻画一组变量与某个变量之间的相关关系或者因果关系。关系的强 弱通过回归系数表现出来,回归分析的核心问题就是模型参数值的估计。为此,需要一种有 效的算法。目前的回归分析算法主要采用误差平方和最小的方法,即所谓最小二乘法。在这 个过程中,首先要采用线性方程组进行描述,理论上用到线性代数的知识;其次寻求误差平 方和最小时的参数估计结果,理论上用到微积分的条件极值方法;在回归结果检验过程中, 涉及误差的正态分布思想,这在理论上又用到大量的概率论和统计学原理。可是,虽然很多 读者明白上述道理,但在具体应用过程中依然觉得似是而非。究其原因,主要在于不了解计 算过程,没有掌握简明易懂的计算范例。 作者编著本书的目的,就是帮助读者循序渐进地掌握一些数学方法的计算过程和简明范 例,通过这个过程进一步加深对有关数学原理和方法的理解以及应用领域的认识,进而将不 同的方法有机联系起来。全书的内容分为四大部分,一是相关分析和回归分析,主要讲述线 性回归和逐步回归的计算过程;二是多元统计分析,主要讲述主成分分析、聚类分析和判别 分析的计算过程;三是时空过程分析,包括时(空)间序列分析和时空随机过程分析,主要 讲述自相关分析、自回归分析、周期图分析、功率(波)谱分析、Markov 链分析和 R/S 分 析;四是系统分析,主要讲述层次(AHP)分析法、线性规划求解和灰色系统的建模与预测 分析方法。 虽然书中讲到大量的有关 Excel 的应用技巧,但这不是一本关于 Excel 应用方法的教科 书,而是基于 Excel 软件的数据处理和数学方法应用的教科书。每一章的写作都采用相同的 模式,即围绕一个或者若干个简明的例子,全方位地讲解一种数学方法的计算过程。书中讲 述的有些数学方法处理过程是很实用的,如一元和多元回归分析方法、非线性回归建模方法、 自回归分析方法、功率谱分析方法、Markov 链方法、AHP 法、线性规划求解方法、GM(1,1) 和 GM(1, N)建模与预测方法,如此等等。也就是说,通过上述内容的学习,读者可以直接 借助 Excel 处理实际工作中遇到的有关数学问题。另有一部分方法的讲述并不实用,而是纯 粹教学性质的。逐步回归分析方法、主成分分析方法、聚类分析方法、判别分析方法、自相 关分析方法,如此等等,属于此类。这些方法的计算过程繁琐,当数据量较大的时候,在
研究生地理数学方法(实习) Part1电子表格 Excel Excel里开展工作速度缓慢而且容易出错。还有一些方法是介于上述两种情形之间的,包括 周期图分析方法、R/S分析方法等。当数据量较小的时候,可以采用这些方法在Exce里解 决问题;但当数据量较大时,就得借助其他大型的数学计算软件(如 Matlab、 Mathcad)或 者统计分析软件(如SAS、SPSS)了。 读者可能产生疑问:既然一些方法在 Excel里面并不实用,为什么还要不厌其烦地讲述 它们?这就回到前面提到的、数学方法应用中的计算过程问题。作者撰写本书的初衷不在于 实用,大部分内容的实用性仅仅是本书内容的附带功能。作者真正希望的,是借助本书实现 如下教学目标:读者通过模仿一些计算过程,掌握有关模型建设的实例,进而理解有关数学 方法的技术路线。以主成分分析方法为例,采用大型统计分析软件SPSS,可以很方便地获 得全面的计算结果。但是,SPSS是一个“傻瓜”型软件,其计算过程对读者而言完全是 个“黑箱”。按照固定程序的操作该软件,不需要多少数学知识,就可以完成有关的统计计 算。但是,如果不了解一种方法的计算过程,不知道这些方法的基本原理,即便SPSS输出 结果,读者也没有办法给出准确的计算结果解释。如果读者首先在Excl里完成一个简明例 子的计算,通过这个过程熟悉主成分分析的数学运算过程,然后再利用SPSS开展有关的数 据整理和分析,就会主动和透明多了。当然,在阅读本书的过程中,读者会掌握 Excel的很 多功能和应用技巧,这些功能和技巧在未来的数据处理和分析过程中将会非常实用 需要特别强调的是线性回归分析方法。这种方法非常简单而且基本,以致很多读者不重 视该方法的深入学习和广泛练习。实际上,越是简单和基本的数学方法使用频率越高,应用 范围越是广阔。一些复杂的数学方法,如果主成分分析、判别分析、自回归分析、功率谱分 析、小波分析、神经网络分析、灰色系统建模和预测分析,如此等等,都可以借助线性回归 分析快速入门。本书讲述了基于回归分析的判别分析建模、自回归建模、周期图建模、RS 分析建模、GM(1,1)和GM(1M)建模和预测等等,并且在主成分分析中应用了回归分析。这 样,采用一种简明易懂的数学方法将多种数学方法贯通起来,读者可以通过回归分析了解多 种数学方法的理论建设要点。 这部著作最初是作为北京大学研究生地理数学方法辅助教材出现的,先后在北京大学城 市与环境学系、环境学院、城市与环境学院试用了七年。这不是简单的编写成果,而是带有 很强的著作成分。实际上,在写作过程中,作者参考的图书非常有限。最频繁使用的一部参 考书是一本关于 Excel函数的工具书—《Exce2000函数图书馆》,当然还有 Excel自身附 带的“帮助”内容。了解了Excl的数据分析、规划求解和数值拷贝功能之后,作者所作的 工作就是寻找合适的教学案例,根据相关的数学原理,在 Excel中一步一步展开计算,并且 详细地记录了这些计算和分析过程。现在献给读者的,就是作者对这些计算过程记录的整理 结果。 Excel的常用函数功能、数值拷贝功能、数据分析和规划求解功能,加上作者有关的 数学方法原理方面的知识,以及相关案例的数据,就是这本书的主要写作源泉 本书的写作特点是,借助简单的例子,从头到尾完整地演示各种数学方法的计算过程和 分析思路。读者学习本书的方法则是,静下心来,从前到后重复一下作者的计算过程,然后 寻找一个类似的例子,自己亦步亦趋模仿一遍。在模仿中学习,在思考中消化。通过阅读和 操作,可以打开一些数学方法的“黑箱”,了解其内部结构,从而更好地进行运算结果解读 然后,就可以借助 Excel或者有关统计/数学软件处理自己研究的现实问题了。原则上,本 书的每一章都相对独立,如果读者对Excl的基本功能比较熟悉,从任何一个部分都可以开 始学习。但是,如果读者对 Excel的基本功能不太熟悉,那就建议先系统学习第1章(一元 线性回归分析)和第2章(多元线性回归分析)。然后再任选其他章节阅读。特别是本书第 1章,作者对 Excel的有关功能和用法交代得非常详尽,对回归分析结果解释得相当细致, 通过前面两章的学习和思考,读者基本上可以掌握 Excel的常用数据分析操作技能。 【作者2008年8月】
研究生地理数学方法(实习) Part1 电子表格 Excel ii Excel 里开展工作速度缓慢而且容易出错。还有一些方法是介于上述两种情形之间的,包括 周期图分析方法、R/S 分析方法等。当数据量较小的时候,可以采用这些方法在 Excel 里解 决问题;但当数据量较大时,就得借助其他大型的数学计算软件(如 Matlab、Mathcad)或 者统计分析软件(如 SAS、SPSS)了。 读者可能产生疑问:既然一些方法在 Excel 里面并不实用,为什么还要不厌其烦地讲述 它们?这就回到前面提到的、数学方法应用中的计算过程问题。作者撰写本书的初衷不在于 实用,大部分内容的实用性仅仅是本书内容的附带功能。作者真正希望的,是借助本书实现 如下教学目标:读者通过模仿一些计算过程,掌握有关模型建设的实例,进而理解有关数学 方法的技术路线。以主成分分析方法为例,采用大型统计分析软件 SPSS,可以很方便地获 得全面的计算结果。但是,SPSS 是一个“傻瓜”型软件,其计算过程对读者而言完全是一 个“黑箱”。按照固定程序的操作该软件,不需要多少数学知识,就可以完成有关的统计计 算。但是,如果不了解一种方法的计算过程,不知道这些方法的基本原理,即便 SPSS 输出 结果,读者也没有办法给出准确的计算结果解释。如果读者首先在 Excel 里完成一个简明例 子的计算,通过这个过程熟悉主成分分析的数学运算过程,然后再利用 SPSS 开展有关的数 据整理和分析,就会主动和透明多了。当然,在阅读本书的过程中,读者会掌握 Excel 的很 多功能和应用技巧,这些功能和技巧在未来的数据处理和分析过程中将会非常实用。 需要特别强调的是线性回归分析方法。这种方法非常简单而且基本,以致很多读者不重 视该方法的深入学习和广泛练习。实际上,越是简单和基本的数学方法使用频率越高,应用 范围越是广阔。一些复杂的数学方法,如果主成分分析、判别分析、自回归分析、功率谱分 析、小波分析、神经网络分析、灰色系统建模和预测分析,如此等等,都可以借助线性回归 分析快速入门。本书讲述了基于回归分析的判别分析建模、自回归建模、周期图建模、R/S 分析建模、GM(1,1)和 GM(1,N)建模和预测等等,并且在主成分分析中应用了回归分析。这 样,采用一种简明易懂的数学方法将多种数学方法贯通起来,读者可以通过回归分析了解多 种数学方法的理论建设要点。 这部著作最初是作为北京大学研究生地理数学方法辅助教材出现的,先后在北京大学城 市与环境学系、环境学院、城市与环境学院试用了七年。这不是简单的编写成果,而是带有 很强的著作成分。实际上,在写作过程中,作者参考的图书非常有限。最频繁使用的一部参 考书是一本关于 Excel 函数的工具书——《Excel2000 函数图书馆》,当然还有 Excel 自身附 带的“帮助”内容。了解了 Excel 的数据分析、规划求解和数值拷贝功能之后,作者所作的 工作就是寻找合适的教学案例,根据相关的数学原理,在 Excel 中一步一步展开计算,并且 详细地记录了这些计算和分析过程。现在献给读者的,就是作者对这些计算过程记录的整理 结果。Excel 的常用函数功能、数值拷贝功能、数据分析和规划求解功能,加上作者有关的 数学方法原理方面的知识,以及相关案例的数据,就是这本书的主要写作源泉。 本书的写作特点是,借助简单的例子,从头到尾完整地演示各种数学方法的计算过程和 分析思路。读者学习本书的方法则是,静下心来,从前到后重复一下作者的计算过程,然后 寻找一个类似的例子,自己亦步亦趋模仿一遍。在模仿中学习,在思考中消化。通过阅读和 操作,可以打开一些数学方法的“黑箱”,了解其内部结构,从而更好地进行运算结果解读。 然后,就可以借助 Excel 或者有关统计/数学软件处理自己研究的现实问题了。原则上,本 书的每一章都相对独立,如果读者对 Excel 的基本功能比较熟悉,从任何一个部分都可以开 始学习。但是,如果读者对 Excel 的基本功能不太熟悉,那就建议先系统学习第 1 章(一元 线性回归分析)和第 2 章(多元线性回归分析)。然后再任选其他章节阅读。特别是本书第 1 章,作者对 Excel 的有关功能和用法交代得非常详尽,对回归分析结果解释得相当细致。 通过前面两章的学习和思考,读者基本上可以掌握 Excel 的常用数据分析操作技能。 【作者 2008 年 8 月】
研究生地理数学方法(实习) Part1电子表格 Excel 目录 第1章一元线性回归分析 §11模型的初步估计 §12详细的回归过程. 12.1回归建模 1.3.2模型的统计检验 558 §13回归结果详解 1.3.1数据表的解读 13.2残差图的解析 §14预测分析 第2章多元线性回归分析 §2.1多元回归过程 2.1.1常规分析 2.1.2偏相关系数的计算和分析 §22多重共线性分析 221共线性判断 33 222剔除异常变量 223剔除VIF最大变量 §23借助线性回归函数快速拟合 2.3.1直接的公式运算 232利用线性回归函数对话框 §24统计检验临界值的査询 24lF检验的临界值查询 242t检验的临界值查询 243相关系数检验的临界值查询 第3章逐步回归分析 §3.1数据预备工作 §32变量引入的计算过程 3.21第一轮计算. 3.22第二轮计算 3.23第三轮计算 §3.3参数估计和模型建设 §34模型参数的进一步验证 §3.5模型检验 351相关系数检验 3.52标准误差检验 3.5.3F一检验 3.54—检验 3.55DW检验 第4章非线性回归分析……
研究生地理数学方法(实习) Part1 电子表格 Excel iii 目 录 前 言........................................................................................................................................i 第 1 章 一元线性回归分析.....................................................................................................1 §1.1 模型的初步估计......................................................................................................1 §1.2 详细的回归过程......................................................................................................5 1.2.1 回归建模.........................................................................................................5 1.3.2 模型的统计检验.............................................................................................8 §1.3 回归结果详解........................................................................................................10 1.3.1 数据表的解读...............................................................................................10 1.3.2 残差图的解析...............................................................................................17 §1.4 预测分析................................................................................................................22 第 2 章 多元线性回归分析.................................................................................................. 26 §2.1 多元回归过程....................................................................................................... 26 2.1.1 常规分析...................................................................................................... 26 2.1.2 偏相关系数的计算和分析.......................................................................... 30 §2.2 多重共线性分析................................................................................................... 33 2.2.1 共线性判断.................................................................................................. 33 2.2.2 剔除异常变量.............................................................................................. 35 2.2.3 剔除 VIF 最大变量 ..................................................................................... 38 §2.3 借助线性回归函数快速拟合............................................................................... 39 2.3.1 直接的公式运算.......................................................................................... 39 2.3.2 利用线性回归函数对话框.......................................................................... 40 §2.4 统计检验临界值的查询....................................................................................... 42 2.4.1 F 检验的临界值查询.................................................................................... 42 2.4.2 t 检验的临界值查询..................................................................................... 42 2.4.3 相关系数检验的临界值查询...................................................................... 43 第 3 章 逐步回归分析...........................................................................................................45 §3.1 数据预备工作........................................................................................................45 §3.2 变量引入的计算过程............................................................................................47 3.2.1 第一轮计算...................................................................................................47 3.2.2 第二轮计算...................................................................................................51 3.2.3 第三轮计算...................................................................................................54 §3.3 参数估计和模型建设............................................................................................55 §3.4 模型参数的进一步验证........................................................................................57 §3.5 模型检验................................................................................................................62 3.5.1 相关系数检验...............................................................................................62 3.5.2 标准误差检验...............................................................................................63 3.5.3 F-检验 .........................................................................................................63 3.5.4 t-检验...........................................................................................................63 3.5.5 DW 检验........................................................................................................64 第 4 章 非线性回归分析.......................................................................................................66