第五章空间数据采集与处理 第一节数据源种类 地理信息系统的数据源是指建立地理信息系统数据库所需要的各种类型数据的来源 地理信息系统的数据源是多种多样的,并随系统功能的不同而不同,主要包括以下各种: 地图 各种类型的地图是GIS最主要的数据源,因为地图是地理数据的传统描述形式,是具 有共同参考坐标系统的点、线、面的二维平面形式的表示,内容丰富,图上实体间的空间 关系直观,而且实体的类别或属性可以用各种不同的符号加以识别和表示。我国大多数的 GIS系统其图形数据大部分都来自地图。但由于地图以下的特点,对其应用时须加以注意 1、地图存储介质的缺陷由于地图多为纸质,由于存放条件的不同,都存在不同程度 的变形,具体应用时,须对其进行纠正 2、地图现势性较差由于传统地图更新需要的周期较长,造成现存地图的现势性不能 完全满足实际的需要。 3、地图投影的转换由于地图投影的存在,使得对不同地图投影的地图数据进行交流 前,须先进行地图投影的转换 二、遥感影象数据 遥感影象是GIS中一个极其重要的信息源 通过遥感影象可以快速、准确地获得大面积的、综合的各种专题信息,航天遥感影象 还可以取得周期性的资料,这些都为GIS提供了丰富的信息。但是因为每种遥感影象都有 其自身的成像规律、变形规律,所以对其的应用要注意影象的纠正、影象的分辨率、影象 的解译特征等方面的问题 三、统计数据 国民经济的各种统计数据常常也是GIS的数据源。如人口数量、人口构成、国民生产 总值等等 四、实测数据 各种实测数据特别是一些GPS点位数据、地籍测量数据常常是GIS的一个很准确和很
53 第五章 空间数据采集与处理 第一节 数据源种类 地理信息系统的数据源是指建立地理信息系统数据库所需要的各种类型数据的来源。 地理信息系统的数据源是多种多样的,并随系统功能的不同而不同,主要包括以下各种: 一、 地图 各种类型的地图是 GIS 最主要的数据源,因为地图是地理数据的传统描述形式,是具 有共同参考坐标系统的点、线、面的二维平面形式的表示,内容丰富,图上实体间的空间 关系直观,而且实体的类别或属性可以用各种不同的符号加以识别和表示。我国大多数的 GIS 系统其图形数据大部分都来自地图。但由于地图以下的特点,对其应用时须加以注意。 1、 地图存储介质的缺陷 由于地图多为纸质,由于存放条件的不同,都存在不同程度 的变形,具体应用时,须对其进行纠正。 2、 地图现势性较差 由于传统地图更新需要的周期较长,造成现存地图的现势性不能 完全满足实际的需要。 3、 地图投影的转换 由于地图投影的存在,使得对不同地图投影的地图数据进行交流 前,须先进行地图投影的转换。 二、 遥感影象数据 遥感影象是 GIS 中一个极其重要的信息源。 通过遥感影象可以快速、准确地获得大面积的、综合的各种专题信息,航天遥感影象 还可以取得周期性的资料,这些都为 GIS 提供了丰富的信息。但是因为每种遥感影象都有 其自身的成像规律、变形规律,所以对其的应用要注意影象的纠正、影象的分辨率、影象 的解译特征等方面的问题。 三、 统计数据 国民经济的各种统计数据常常也是 GIS 的数据源。如人口数量、人口构成、国民生产 总值等等。 四、 实测数据 各种实测数据特别是一些 GPS 点位数据、地籍测量数据常常是 GIS 的一个很准确和很
现势的资料。 五、数字数据 目前,随着各种专题图件的制作和各种GIS系统的建立,直接获取数字图形数据和属 性数据的可能性越来越大。数字数据也成为GIS信息源不可缺少的一部分。但对数字数据 的采用需注意数据格式的转换和数据精度、可信度的问题 六、各种文字报告和立法文件 各种文字报告和立法文件在一些管理类的GIS系统中,有很大的应用,如在城市规划 管理信息系统中,各种城市管理法规及规划报告在规划管理工作中起着很大的作用。 对于一个多用途的或综合型的系统,一般都要建立一个大而灵活的数据库,以支持其 非常广泛的应用范围。而对于专题型和区域型统一的系统,则数据类型与系统功能之间具 有非常密切的关系。 第二节空间数据采集 、属性数据的采集 属性数据即空间实体的特征数据,一般包括名称、等级、数量、代码等多种形式,属 性数据的内容有时直接记录在栅格或矢量数据文件中,有时则单独输入数据库存储为属性 文件,通过关键码与图形数据相联系。 对于要输入属性库的属性数据,通过键盘则可直接键入。 对于要直接记录到栅格或矢量数据文件中的属性数据,则必须先对其进行编码,将各 种属性数据变为计算机可以接受的数字或字符形式,便于GIS存储管理。 下面,主要从属性数据的编码原则、编码内容、编码方法方面作以说明 1、编码原则 属性数据编码一般要基于以下三个原则 (1)编码的系统性和科学性。编码系统在逻辑上必须满足所涉及学科的科学分类方法, 以体现该类属性本身的自然系统性。另外,还要能反映出同一类型中不同的级别特点。 个编码系统能否有效运作其核心问题就在于此。 (2)编码的一致性。一致性是指对象的专业名词、术语的定义等必须严格保证一致 对代码所定义的同一专业名词、术语必须是唯一的。 (3)编码的标准化和通用性。为满足未来有效的信息传输和交流,所制定的编码系统
54 现势的资料。 五、 数字数据 目前,随着各种专题图件的制作和各种 GIS 系统的建立,直接获取数字图形数据和属 性数据的可能性越来越大。数字数据也成为 GIS 信息源不可缺少的一部分。但对数字数据 的采用需注意数据格式的转换和数据精度、可信度的问题。 六、 各种文字报告和立法文件 各种文字报告和立法文件在一些管理类的 GIS 系统中,有很大的应用,如在城市规划 管理信息系统中,各种城市管理法规及规划报告在规划管理工作中起着很大的作用。 对于一个多用途的或综合型的系统,一般都要建立一个大而灵活的数据库,以支持其 非常广泛的应用范围。而对于专题型和区域型统一的系统,则数据类型与系统功能之间具 有非常密切的关系。 第二节 空间数据采集 一、属性数据的采集 属性数据即空间实体的特征数据,一般包括名称、等级、数量、代码等多种形式,属 性数据的内容有时直接记录在栅格或矢量数据文件中,有时则单独输入数据库存储为属性 文件,通过关键码与图形数据相联系。 对于要输入属性库的属性数据,通过键盘则可直接键入。 对于要直接记录到栅格或矢量数据文件中的属性数据,则必须先对其进行编码,将各 种属性数据变为计算机可以接受的数字或字符形式,便于 GIS 存储管理。 下面,主要从属性数据的编码原则、编码内容、编码方法方面作以说明。 1、 编码原则 属性数据编码一般要基于以下三个原则: (1)编码的系统性和科学性。编码系统在逻辑上必须满足所涉及学科的科学分类方法, 以体现该类属性本身的自然系统性。另外,还要能反映出同一类型中不同的级别特点。一 个编码系统能否有效运作其核心问题就在于此。 (2)编码的一致性。一致性是指对象的专业名词、术语的定义等必须严格保证一致, 对代码所定义的同一专业名词、术语必须是唯一的。 (3)编码的标准化和通用性。为满足未来有效的信息传输和交流,所制定的编码系统
必须在有可能的条件下实现标准化 我国目前正在研究编码的标准化问题,并对某些项目作了规定。如中华人民共和国行 政区划代码使用国家颁布的GB-2260-80编码,其中有省(市、自治区)三位,县(区)三位 其余三位由用户自己定义,最多为十位。编码的标准化就是拟定统一的代码内容、码位长 度、码位分配和码位格式为大家所采用。因此,编码的标准化为数据的通用性创造了条件。 当然,编码标准化的实现将经历一个分步渐进的过程,并且只能是适度的,这是由于地理 对象的复杂性和区域差异性所决定的。 (4)编码的简捷性。在满足国家标准的前提下、每一种编码应该是以最小的数据量载 负最大的信息量,这样,既便于计算机存贮和处理,又具有相当的可读性。 (5)编码的可扩展性。虽然代码的码位一般要求紧凑经济、减少冗余代码,但应考虑 到实际使用时往往会出现新的类型需要加入到编码系统中,因此编码的设置应留有扩展的 余地,避免新对象的出现而使原编码系统失效、造成编码错乱现象 2、编码内容 属性编码一般包括三个方面的内容: (1)登记部分,用来标识属性数据的序号,可以是简单的连续编号,也可划分不同层 次进行顺序编码; (2)分类部分,用来标识属性的地理特征,可采用多位代码反映多种特征 (3)控制部分,用来通过一定的查错算法,检査在编码、录入和传输中的错误,在属 性数据量较大情况下具有重要意义 3、编码方法 编码的一般方法是 (1)列出全部制图对象清单 (2)制定对象分类,分级原则和指标将制图对象进行分类、分级 (3)拟定分类代码系统。 (4)设定代码及其格式。设定代码使用的字符和数字、码位长度、码位分配等 (5)建立代码和编码对象的对照表.这是编码最终成果档案,是数据输人计算机进行 编码的依据。 属性的科学分类体系无疑是GlS中属性编码的基础。目前,较为常用的编码方法有层 次分类编码法与多源分类编码法两种基本类型 1)层次分类编码法: 是按照分类对象的从属和层次关系为排列顺序的一种代码,它的优点是能明确表示出 分类对象的类别,代码结构有严格的隶属关系
55 必须在有可能的条件下实现标准化。 我国目前正在研究编码的标准化问题,并对某些项目作了规定。如中华人民共和国行 政区划代码使用国家颁布的 GB—2260—80 编码,其中有省(市、自治区)三位,县(区)三位。 其余三位由用户自己定义,最多为十位。编码的标准化就是拟定统一的代码内容、码位长 度、码位分配和码位格式为大家所采用。因此,编码的标准化为数据的通用性创造了条件。 当然,编码标准化的实现将经历一个分步渐进的过程,并且只能是适度的,这是由于地理 对象的复杂性和区域差异性所决定的。 (4)编码的简捷性。在满足国家标准的前提下、每一种编码应该是以最小的数据量载 负最大的信息量,这样,既便于计算机存贮和处理,又具有相当的可读性。 (5)编码的可扩展性。虽然代码的码位一般要求紧凑经济、减少冗余代码,但应考虑 到实际使用时往往会出现新的类型需要加入到编码系统中,因此编码的设置应留有扩展的 余地,避免新对象的出现而使原编码系统失效、造成编码错乱现象。 2、编码内容 属性编码一般包括三个方面的内容: (1)登记部分,用来标识属性数据的序号,可以是简单的连续编号,也可划分不同层 次进行顺序编码; (2)分类部分,用来标识属性的地理特征,可采用多位代码反映多种特征; (3)控制部分,用来通过一定的查错算法,检查在编码、录入和传输中的错误,在属 性数据量较大情况下具有重要意义。 3、编码方法 编码的一般方法是: (1)列出全部制图对象清单。 (2)制定对象分类,分级原则和指标将制图对象进行分类、分级。 (3)拟定分类代码系统。 (4)设定代码及其格式。设定代码使用的字符和数字、码位长度、码位分配等。 (5)建立代码和编码对象的对照表.这是编码最终成果档案,是数据输人计算机进行 编码的依据。 属性的科学分类体系无疑是 GIS 中属性编码的基础。目前,较为常用的编码方法有层 次分类编码法与多源分类编码法两种基本类型。 1)层次分类编码法: 是按照分类对象的从属和层次关系为排列顺序的一种代码,它的优点是能明确表示出 分类对象的类别,代码结构有严格的隶属关系
2)多源分类编码法 又称独立分类编码法。是指对于一个特定的分类目标,根据诸多不同的分类依据分别 进行编码,各位数字代码之间并没有隶属关系 由此可见,该种编码方法一般具有较大的信息载量,有利于对于空间信息的综合分析。 在实际工作中,也往往将以上两种编码方法结合使用,以达到更理想的效果。 图形数据的采集 图形数据的输入实际上就是图形的数字化过程。一般有两种方法: 1、手扶跟踪数字化仪输入 (1)手扶跟踪数字化仪 手扶跟踪数字化仪,根据其采集数据的方式分为机械式、超声波式和全电子式三种,其 中全电子式数字化仪精度最高,应用最广。按照其数字化版面的大小可分为AO、A1、A2 数字化仪由电磁感应板、游标和相应的电子电路组成。这种设备利用电磁感应原理:在 电磁感应板的x,y方向上有许多平行的印刷线,每隔200μm一条。游标中装有一个线圈。 当使用者在电磁感应板上移动游标到图件的指定位置,并将十字叉丝的交点对准数字化的 点位,按动相应的按钮时,线圈中就会产生交流信号,十字叉丝的中心也便产生了一个电 磁场,当游标在电磁感应板上运动时,板下的印制线上就会产生感应电流。印制板周围的 多路开关等线路可以检测出最大信号的位置,即十字叉线中心所在的位置,从而得到该点 的坐标值。 (2)数字化过程 把待数字化的图件固定在图形输入板上,首先用鼠标器输入图幅范围和至少四个控制 点的坐标,随后即可输入图幅内各点、曲线的坐标 通过数字化仪采集数据数据量小,数据处理的软件也比较完备,但由于数字化的速度 比较慢,工作量大,自动化程度低,数字化的精度与作业员的操作有很大关系,所以,目 前很多单位在大批量数字化时,已不再采用它 2、扫描仪输入 (1)扫描仪简介 扫描仪直接把图形(如地形图)和图象(如遥感影象、照片)扫描输入到计算机中,以象 素信息进行存储表示的设备。按其所支持的颜色分类,可分为单色扫描仪和彩色扫描仪 按所采用的固态器件又分为电荷耦合器件(αCD)扫描仪、MOS电路扫描仪、紧贴型扫描仪等; 按扫描宽度和操作方式分为大型扫描仪、台式扫描仪和手动式扫描仪
56 2)多源分类编码法 又称独立分类编码法。是指对于一个特定的分类目标,根据诸多不同的分类依据分别 进行编码,各位数字代码之间并没有隶属关系。 由此可见,该种编码方法一般具有较大的信息载量,有利于对于空间信息的综合分析。 在实际工作中,也往往将以上两种编码方法结合使用,以达到更理想的效果。 二、图形数据的采集 图形数据的输入实际上就是图形的数字化过程。一般有两种方法: 1、手扶跟踪数字化仪输入 (1)手扶跟踪数字化仪 手扶跟踪数字化仪,根据其采集数据的方式分为机械式、超声波式和全电子式三种, 其 中全电子式数字化仪精度最高,应用最广。按照其数字化版面的大小可分为 A0、A1、A2、 A3、A4 等。 数字化仪由电磁感应板、游标和相应的电子电路组成。这种设备利用电磁感应原理:在 电磁感应板的 x,y 方向上有许多平行的印刷线,每隔 200μm 一条。游标中装有一个线圈。 当使用者在电磁感应板上移动游标到图件的指定位置,并将十字叉丝的交点对准数字化的 点位,按动相应的按钮时,线圈中就会产生交流信号,十字叉丝的中心也便产生了一个电 磁场,当游标在电磁感应板上运动时,板下的印制线上就会产生感应电流。印制板周围的 多路开关等线路可以检测出最大信号的位置,即十字叉线中心所在的位置,从而得到该点 的坐标值。 (2)数字化过程 把待数字化的图件固定在图形输入板上,首先用鼠标器输入图幅范围和至少四个控制 点的坐标,随后即可输入图幅内各点、曲线的坐标。 通过数字化仪采集数据数据量小,数据处理的软件也比较完备,但由于数字化的速度 比较慢,工作量大,自动化程度低,数字化的精度与作业员的操作有很大关系,所以,目 前很多单位在大批量数字化时,已不再采用它。 2、 扫描仪输入 (1) 扫描仪简介 扫描仪直接把图形(如地形图)和图象(如遥感影象、照片)扫描输入到计算机中,以象 素信息进行存储表示的设备。按其所支持的颜色分类,可分为单色扫描仪和彩色扫描仪; 按所采用的固态器件又分为电荷耦合器件(CCD)扫描仪、MOS 电路扫描仪、紧贴型扫描仪等; 按扫描宽度和操作方式分为大型扫描仪、台式扫描仪和手动式扫描仪
CCD扫描仪的工作原理是:用光源照射原稿,投射光线经过一组光学镜头射到CCD器件 上,再经过模/数转换器,图象数据暂存器等,最终输入到计算机。CCD感光元件阵列是逐 行读取原稿的。为了使投射在原稿上的光线均匀分布,扫描仪中使用的是长条形光源。对 于黑白扫描仪,用户可以选择黑白颜色所对应电压的中间值作为阈值,凡低于阈值的电压 就为0(黑色),反之为1(白色)。而在灰度扫描仪中,每个象素有多个灰度层次。彩色扫 描仪的工作原理与灰度扫描仪的工作原理相似,不同之处在于彩色扫描仪要提取原稿中的 彩色信息。扫描仪的幅面有A,A,A,A等。扫描仪的分辨率是指在原稿的单位长度(英 寸)上取样的点数,单位是dpi,常用的分辨率有300-1000dpi之间。扫描图象的分辨率越 高,所需的存储空间就越大。现在多数扫描仪都提供了可选择分辨率的功能。对于复杂图 象,可选用较高的分辨率:对于较简单的图象,就选择较低的分辨率。 (2)扫描过程 扫描时,必须先进行扫描参数的设置,包括 a、扫描模式的设置,(分二值、灰度、百万种彩色),对地形图的扫描一般采用二值扫 描,或灰度扫描。对彩色航片或卫片采用百万种彩色扫描,对黑白航片或卫片采用 灰度扫描。 、扫描分辨率的设置,根据扫描要求,对地形图的扫描一般采用300dpi或更高的分 辨率。 C、针对一些特殊的需要,还可以调整亮度、对比度、色调、GAMA曲线等 d、设定扫描范围 扫描参数设置完后,即可通过扫描获得某个地区的栅格数据 通过扫描获得的是栅格数据,数据量比较大。如一张地形图采用300dpi灰度扫描其数 据量就有20兆左右。除此之外,扫描获得的数据还存在着噪声和中间色调像元的处理问题。 噪声是指不属于地图内容的斑点污渍和其它模糊不清的东西形成的像元灰度值。噪音范围 很广,没有简单有效的方法能加以完全消除,有的软件能去除一些小的脏点,但有些地图 内容如小数点等和小的脏点很难区分。对于中间色调像元,则可以通过选择合适的阈值选 用一些软件如 Photoshop等来处理 一般对获得的栅格数据还要进行一些后续处理如图象纠正、矢量化等 扫描输入因其输入速度快、不受人为因素的影响、操作简单而越来越受到大家的欢迎, 再加之计算杋运算速度、存储容量的提高和矢量化软件的踊跃出现,使得扫描输入已成为 图形数据输入的主要方法
57 CCD 扫描仪的工作原理是:用光源照射原稿,投射光线经过一组光学镜头射到 CCD 器件 上,再经过模/数转换器,图象数据暂存器等,最终输入到计算机。CCD 感光元件阵列是逐 行读取原稿的。为了使投射在原稿上的光线均匀分布,扫描仪中使用的是长条形光源。对 于黑白扫描仪,用户可以选择黑白颜色所对应电压的中间值作为阈值,凡低于阈值的电压 就为 0(黑色),反之为 1(白色)。而在灰度扫描仪中,每个象素有多个灰度层次。彩色扫 描仪的工作原理与灰度扫描仪的工作原理相似,不同之处在于彩色扫描仪要提取原稿中的 彩色信息。扫描仪的幅面有 A0,A1,A3,A4 等。扫描仪的分辨率是指在原稿的单位长度(英 寸)上取样的点数,单位是 dpi,常用的分辨率有 300-1000 dpi 之间。扫描图象的分辨率越 高,所需的存储空间就越大。现在多数扫描仪都提供了可选择分辨率的功能。对于复杂图 象,可选用较高的分辨率;对于较简单的图象,就选择较低的分辨率。 (2)扫描过程 扫描时,必须先进行扫描参数的设置,包括: a、扫描模式的设置,(分二值、灰度、百万种彩色),对地形图的扫描一般采用二值扫 描,或灰度扫描。对彩色航片或卫片采用百万种彩色扫描,对黑白航片或卫片采用 灰度扫描。 b、扫描分辨率的设置,根据扫描要求,对地形图的扫描一般采用 300dpi 或更高的分 辨率。 c、针对一些特殊的需要,还可以调整亮度、对比度、色调、GAMMA 曲线等。 d、设定扫描范围。 扫描参数设置完后,即可通过扫描获得某个地区的栅格数据。 通过扫描获得的是栅格数据,数据量比较大。如一张地形图采用 300dpi 灰度扫描其数 据量就有 20 兆左右。除此之外,扫描获得的数据还存在着噪声和中间色调像元的处理问题。 噪声是指不属于地图内容的斑点污渍和其它模糊不清的东西形成的像元灰度值。噪音范围 很广,没有简单有效的方法能加以完全消除,有的软件能去除一些小的脏点,但有些地图 内容如小数点等和小的脏点很难区分。对于中间色调像元,则可以通过选择合适的阈值选 用一些软件如 Photoshop 等来处理。 一般对获得的栅格数据还要进行一些后续处理如图象纠正、矢量化等。 扫描输入因其输入速度快、不受人为因素的影响、操作简单而越来越受到大家的欢迎, 再加之计算机运算速度、存储容量的提高和矢量化软件的踊跃出现,使得扫描输入已成为 图形数据输入的主要方法