第四章地理信息系统数据采集和数据质量4.1地理信息系统的数据质量地理信息系统是一个基于计算机软件、硬件和数据的集成系统,该系统主要通过空间及非空间数据的操作,实现空间检索、编辑及分析功能。在GIS的几个主要因素中,数据是一个极为重要的因素。在计算机软件、硬件环境选定之后,GIS中数据质量的优劣,决定着系统分析质量以及整个应用的成败。GIS提供的空间数据的分析方法被广泛用于各种领域,用于决策领域的数据,其质量要求应该是可知的或可预测的。4.1.1数据质量的基本概念一、准确性(Accuracy)即一个记录值(测量或观察值)与它的真实值之间的接近程度。这个概念是相当抽象的,似乎人们已经知道存在这样的事实。在实际中,测量的知识可能依赖于测量的类型和比例尺。一般而言,单个的观察或测量的准确性的估价仅仅是通过与可获得的最准确的测量或公认的分类进行比较。空间数据的准确性经常是根据所指的位置、拓扑或非空间属性来分类的。它可用误差(Error)来衡量。二、精度(Precision)即对现象描述的详细程度。如对同样的两点,精度低的数据并不一定准确度也低。精度要求测量能以最好的准确性来记录,但是这可能误导提供了较大的精度,因为超出一个测量仪器的已知准确度的数字在效率上是允于的。因此,如果手工操作的数字化板所返回的坐标不可能依赖于比0.1mm还要准确的一个“真正的”数值,那么就不存在任何的点,在十分之一的地方是以mm表示的。三、空间分辨率(SpatialResolution)分辨率是两个可测量数值之间最小的可辩识的差异。那么空间分辨率可以看作记录变化的最小距离。在一张用肉眼可读的地图上,假设一条线用来记录一个边界,分辨率通常由最小线的宽度来确定。地图上的线很少以小于0.1mm的宽度来画。在一个图形扫描仪中最细的物理分辨率从理论上讲是由设施的像元之间的分离来确定的。在一个激光打印机上这是一英寸的300分之一,而且在高质量的
第四章 地理信息系统数据采集和数据质量 4.1 地理信息系统的数据质量 地理信息系统是一个基于计算机软件、硬件和数据的集成系统,该系统主要 通过空间及非空间数据的操作,实现空间检索、编辑及分析功能。在 GIS 的几个 主要因素中,数据是一个极为重要的因素。在计算机软件、硬件环境选定之后, GIS 中数据质量的优劣,决定着系统分析质量以及整个应用的成败。GIS 提供的 空间数据的分析方法被广泛用于各种领域,用于决策领域的数据,其质量要求应 该是可知的或可预测的。 4.1.1 数据质量的基本概念 一、准确性(Accuracy) 即一个记录值(测量或观察值)与它的真实值之间的接近程度。这个概念是 相当抽象的,似乎人们已经知道存在这样的事实。在实际中,测量的知识可能依 赖于测量的类型和比例尺。一般而言,单个的观察或测量的准确性的估价仅仅是 通过与可获得的最准确的测量或公认的分类进行比较。空间数据的准确性经常是 根据所指的位置、拓扑或非空间属性来分类的。它可用误差(Error)来衡量。 二、精度(Precision) 即对现象描述的详细程度。如对同样的两点,精度低的数据并不一定准确度 也低。精度要求测量能以最好的准确性来记录,但是这可能误导提供了较大的精 度,因为超出一个测量仪器的已知准确度的数字在效率上是冗于的。因此,如果 手工操作的数字化板所返回的坐标不可能依赖于比 0.1mm 还要准确的一个“真正 的”数值,那么就不存在任何的点,在十分之一的地方是以 mm 表示的。 三、空间分辨率(Spatial Resolution) 分辨率是两个可测量数值之间最小的可辩识的差异。那么空间分辨率可以看 作记录变化的最小距离。在一张用肉眼可读的地图上,假设一条线用来记录一个 边界,分辨率通常由最小线的宽度来确定。地图上的线很少以小于 0.1mm 的宽度 来画。在一个图形扫描仪中最细的物理分辨率从理论上讲是由设施的像元之间的 分离来确定的。在一个激光打印机上这是一英寸的 300 分之一,而且在高质量的
激光扫描仪上,这会细化十倍。如果没有放大,最细的激光扫描仪的线是看不到的,尽管这依赖于背景颜色的对照。因此,在人的视觉分辨率和设备物理分辨率之间存在着一个差异。一个相似的区别可以存在于两个最小距离之间,即当人操作者操作数字化仪时所区别的最小距离和数字化仪硬件可以不断地报告的最小距离。四、比例尺(Scale)比例尺是地图上一个记录的距离和它所表现的“真实世界的”距离之间的一个比例。地图的比例尺将决定地图上一条线的宽度所表现的地面的距离。例如,在一个1:10000比例尺的地图上,一条0.5mm宽度的线对应着5m的地面距离。如果这是线的最小的宽度,那么就不可能表示小于5m的现象。五、误差(Error)定义出一个所记录的测量和它的事实之间的准确性以后,很明显对于大多数目的而言,它的数值是不准确的。误差研究包括:位置误差,即点的位置的误差、线的位置的误差和多边形的位置的误差;属性误差;位置和属性误差之间的关系。六、不确定性(Uncertainty)地理信息系统的不确定性包括空间位置的不确定性、属性不确定性、时域不确定性、逻辑上的不一致性及数据的不完整性。空间位置的不确定性指GIS中某一被描述物体与其地面上真实物体位置上的差别;属性不确定性是指某一物体在GIS中被描述的属性与其真实的属性之差别;时域不确定性是指在描述地理现象时,时间描述上的差错;逻辑上的不一致性指数据结构内部的不一致性,尤其是指拓扑逻辑上的不一致性;数据的不完整性指对于给定的目标,GIS没有尽可能完全地表达该物体。4.1.2空间数据质量问题的来源从空间数据的形式表达到空间数据的生成,从空间数据的处理变换到空间数据的应用,在这两个过程中都会有数据质量问题的发生。下面按照空间数据自身存在的规律性,从几个方面来阐述空间数据质量问题的来源。4.1.3空间现象自身存在的不稳定性空间数据质量问题首先来源于空间现象自身存在的不稳定性。空间现象自身
激光扫描仪上,这会细化十倍。如果没有放大,最细的激光扫描仪的线是看不到 的,尽管这依赖于背景颜色的对照。因此,在人的视觉分辨率和设备物理分辨率 之间存在着一个差异。一个相似的区别可以存在于两个最小距离之间,即当人操 作者操作数字化仪时所区别的最小距离和数字化仪硬件可以不断地报告的最小 距离。 四、比例尺(Scale) 比例尺是地图上一个记录的距离和它所表现的“真实世界的”距离之间的一 个比例。地图的比例尺将决定地图上一条线的宽度所表现的地面的距离。例如, 在一个 1:10000 比例尺的地图上,一条 0.5mm 宽度的线对应着 5m 的地面距离。 如果这是线的最小的宽度,那么就不可能表示小于 5m 的现象。 五、误差(Error) 定义出一个所记录的测量和它的事实之间的准确性以后,很明显对于大多数 目的而言,它的数值是不准确的。误差研究包括:位置误差,即点的位置的误差、 线的位置的误差和多边形的位置的误差;属性误差;位置和属性误差之间的关系。 六、不确定性(Uncertainty) 地理信息系统的不确定性包括空间位置的不确定性、属性不确定性、时域不 确定性、逻辑上的不一致性及数据的不完整性。空间位置的不确定性指 GIS 中某 一被描述物体与其地面上真实物体位置上的差别;属性不确定性是指某一物体在 GIS 中被描述的属性与其真实的属性之差别;时域不确定性是指在描述地理现象 时,时间描述上的差错;逻辑上的不一致性指数据结构内部的不一致性,尤其是 指拓扑逻辑上的不一致性;数据的不完整性指对于给定的目标,GIS 没有尽可能 完全地表达该物体。 4.1.2 空间数据质量问题的来源 从空间数据的形式表达到空间数据的生成,从空间数据的处理变换到空间数 据的应用,在这两个过程中都会有数据质量问题的发生。下面按照空间数据自身 存在的规律性,从几个方面来阐述空间数据质量问题的来源。 4.1.3 空间现象自身存在的不稳定性 空间数据质量问题首先来源于空间现象自身存在的不稳定性。空间现象自身
存在的不稳定性包括空间特征和过程在空间、专题和时间内容上的不确定性。空间现象在空间上的不确定性指其在空间位置分布上的不确定性变化:空间现象在时间上的不确定性表现为其在发生时间段上的游移性:空间现象在属性上的不确定性表现为属性类型划分的多样性,非数值型属性值表达的不精确性。因此,空间数据存在质量问题是不可避免的。4.2空间现象的表达数据采集中的测量方法以及量测精度的选择等受到人类自身的认识和表达的影响,这对于数据的生成会出现误差。如在地图投影中,由椭球体到平面的投影转换必然产生误差;用于获取各种原始数据的各种测量仪器都有一定的设计精度,如GPS提供的地理位置数据都有用户要求的一定设计精度,因而数据误差的产生不可避免。4.2.1空间数据处理中的误差在空间数据处理过程中,容易产生的误差有以下几种:投影变换:地图投影是开口的三维地球椭球面到二维场平面的拓扑变换。在不同投影形式下,地理特征的位置、面积和方向的表现会有差异。地图数字化和扫描后的失量化处理:数字化过程采点的位置精度、空间分辨率、属性赋值等都可能出现误差。数据格式转换:在失量格式和栅格格式之间的数据格式转换中,数据所表达的空间特征的位置具有差异性。数据抽象:在数据发生比例尺变换时,对数据进行的聚类、归并、合并等操作时产生的误差,如知识性误差和数据所表达的空间特征位置的变化误差。建立拓扑关系:拓扑过程中伴随有数据所表达的空间特征的位置坐标的变化。与主控数据层的匹配:一个数据库中,常存储同一地区的多层数据面,为保证各数据层之间空间位置的协调性,一般建立一个主控数据层以控制其它数据层的边界和控制点。在与主控数据层匹配的过程中也会存在空间位移,导致误差。数据叠加操作和更新:数据在进行叠加运算以及数据更新时,会产生空间位
存在的不稳定性包括空间特征和过程在空间、专题和时间内容上的不确定性。空 间现象在空间上的不确定性指其在空间位置分布上的不确定性变化;空间现象在 时间上的不确定性表现为其在发生时间段上的游移性;空间现象在属性上的不确 定性表现为属性类型划分的多样性,非数值型属性值表达的不精确性。因此,空 间数据存在质量问题是不可避免的。 4.2 空间现象的表达 数据采集中的测量方法以及量测精度的选择等受到人类自身的认识和表达 的影响,这对于数据的生成会出现误差。如在地图投影中,由椭球体到平面的投 影转换必然产生误差;用于获取各种原始数据的各种测量仪器都有一定的设计精 度,如 GPS 提供的地理位置数据都有用户要求的一定设计精度,因而数据误差的 产生不可避免。 4.2.1 空间数据处理中的误差 在空间数据处理过程中,容易产生的误差有以下几种: 投影变换:地图投影是开口的三维地球椭球面到二维场平面的拓扑变换。在 不同投影形式下,地理特征的位置、面积和方向的表现会有差异。 地图数字化和扫描后的矢量化处理:数字化过程采点的位置精度、空间分辨 率、属性赋值等都可能出现误差。 数据格式转换:在矢量格式和栅格格式之间的数据格式转换中,数据所表达 的空间特征的位置具有差异性。 数据抽象:在数据发生比例尺变换时,对数据进行的聚类、归并、合并等操 作时产生的误差,如知识性误差和数据所表达的空间特征位置的变化误差。 建立拓扑关系:拓扑过程中伴随有数据所表达的空间特征的位置坐标的变 化。 与主控数据层的匹配:一个数据库中,常存储同一地区的多层数据面,为保 证各数据层之间空间位置的协调性,一般建立一个主控数据层以控制其它数据层 的边界和控制点。在与主控数据层匹配的过程中也会存在空间位移,导致误差。 数据叠加操作和更新:数据在进行叠加运算以及数据更新时,会产生空间位
置和属性值的差异。数据集成处理:指在来源不同、类型不同的各种数据集的相互操作过程中所产生的误差。数据集成是包括数据预处理、数据集之间的相互运算、数据表达等过程在内的复杂过程,其中位置误差、属性误差都会出现。数据的可视化表达:数据在可视化表达过程中为适应视觉效果,需对数据的空间特征位置、注记等进行调整,由此产生数据表达上的误差。数据处理过程中误差的传递和扩散:在数据处理的各个过程中,误差是累计和扩散的,前一过程的累计误差可能成为下一个阶段的误差起源,从而导致新的误差的产生。4.2.2空间数据使用中的误差在空间数据使用的过程中也会导致误差的出现,主要包括两个方面:一是对数据的解释过程,二是缺少文档。对于同一种空间数据来说,不同用户对它的内容的解释和理解可能不同,处理这类问题的方法是随空间数据提供各种相关的文档说明,如元数据。另外,缺少对某一地区不同来源的空间数据的说明,如缺少投影类型、数据定义等描述信息,这样往往导致数据用户对数据的随意性使用而使误差扩散。表1:数据的主要误差来源数据处理过误差来源程数据搜集野外测量误差:仪器误差、记录误差遥感数据误差:辐射和几何纠正误差、信息提取误差地图数据误差:原始数据误差、坐标转换、制图综合及印刷数据输入数字化误差:仪器误差、操作误差不同系统格式转换误差:栅格-失量转换、三角网-等值线转换数值精度不够数据存储空间精度不够:每个格网点太大、地图最小制图单元
置和属性值的差异。 数据集成处理:指在来源不同、类型不同的各种数据集的相互操作过程中所 产生的误差。数据集成是包括数据预处理、数据集之间的相互运算、数据表达等 过程在内的复杂过程,其中位置误差、属性误差都会出现。 数据的可视化表达:数据在可视化表达过程中为适应视觉效果,需对数据的 空间特征位置、注记等进行调整,由此产生数据表达上的误差。 数据处理过程中误差的传递和扩散:在数据处理的各个过程中,误差是累计 和扩散的,前一过程的累计误差可能成为下一个阶段的误差起源,从而导致新的 误差的产生。 4.2.2 空间数据使用中的误差 在空间数据使用的过程中也会导致误差的出现,主要包括两个方面:一是对 数据的解释过程,二是缺少文档。对于同一种空间数据来说,不同用户对它的内 容的解释和理解可能不同,处理这类问题的方法是随空间数据提供各种相关的文 档说明,如元数据。另外,缺少对某一地区不同来源的空间数据的说明,如缺少 投影类型、数据定义等描述信息,这样往往导致数据用户对数据的随意性使用而 使误差扩散。 表 1:数据的主要误差来源 数 据 处 理 过 程 误差来源 数据搜集 野外测量误差:仪器误差、记录误差 遥感数据误差:辐射和几何纠正误差、信息提取误差 地图数据误差:原始数据误差、坐标转换、制图综合 及印刷 数据输入 数字化误差:仪器误差、操作误差 不同系统格式转换误差:栅格-矢量转换、三角网-等 值线转换 数据存储 数值精度不够 空间精度不够:每个格网点太大、地图最小制图单元
太大数据处理分类间隔不合理多层数据叠合引起的误差传播:插值误差、多源数据综合分析误差比例尺太小引起的误差数据输出输出设备不精确引起的误差输出的媒介不稳定造成的误差数据使用对数据所包含的信息的误解对数据信息使用不当4.2.3常见空间数据的误差分析GIS中的误差是指GIS中数据表示与其现实世界本身的差别。数据误差的类型可以是随机的,也可以是系统的。归纳起来,数据的误差主要有四大类,即几何误差、属性误差、时间误差和逻辑误差。在这几种误差中,属性误差和时间误差与普通信息系统中的误差概念是一致的,几何误差是地理信息系统所特有的,而几何误差、属性误差和时间误差都会造成逻辑误差,因此下面主要讨论逻辑误差和几何误差。4.2.4误差的类型1)逻辑误差数据的不完整性是通过上述四类误差反映出来的。事实上检查逻辑误差,有助于发现不完整的数据和其他三类误差。对数据进行质量控制或质量保证或质量评价,一般先从数据的逻辑性检查入手。如图1所示,其中桥或停车场等与道路是相接的,如果数据库中只有桥或停车场,而没有与道路相连,则说明道路数据被遗漏,使数据不完整
太大 数据处理 分类间隔不合理 多层数据叠合引起的误差传播:插值误差、多源数据 综合分析误差 比例尺太小引起的误差 数据输出 输出设备不精确引起的误差 输出的媒介不稳定造成的误差 数据使用 对数据所包含的信息的误解 对数据信息使用不当 4.2.3 常见空间数据的误差分析 GIS 中的误差是指 GIS 中数据表示与其现实世界本身的差别。数据误差的类 型可以是随机的,也可以是系统的。归纳起来,数据的误差主要有四大类,即几 何误差、属性误差、时间误差和逻辑误差。在这几种误差中,属性误差和时间误 差与普通信息系统中的误差概念是一致的,几何误差是地理信息系统所特有的, 而几何误差、属性误差和时间误差都会造成逻辑误差,因此下面主要讨论逻辑误 差和几何误差。 4.2.4 误差的类型 1)逻辑误差 数据的不完整性是通过上述四类误差反映出来的。事实上检查逻辑误差,有 助于发现不完整的数据和其他三类误差。对数据进行质量控制或质量保证或质量 评价,一般先从数据的逻辑性检查入手。如图 1 所示,其中桥或停车场等与道路 是相接的,如果数据库中只有桥或停车场,而没有与道路相连,则说明道路数据 被遗漏,使数据不完整