博士学位论文 第1章绪论 第1章 绪论 熵作为概率分布的数字特征之一,与分布的形式和分布的范围密切相关, 测量数据处理离不开数据在一定观测条件下所对应的误差分布,本章将阐述熵 在测量数据处理中的研究意义,指出了熵用于测量数据不确定性研究的优点和 当前研究存在的问题,并综合分析了国内外相关研究现状,构建了论文研究的 整体组织框架。 1.1研究背景与意义 随着经济和科技的飞速发展,测量不论从狭义上的专业区分还是从广义上 的公共测度都有先进的数据获取方法不断呈现,数据特性由原来的单一变得复 杂,数据数量由原来的有限变得海量,测量数据处理理论与方法也随之不断进 步和发展。测量数据的获取离不开-…定的观测条件,在不同的观测条件下获取 的测量数据必然对应着不同的误差分布,因此,测量数据处理理论的基础一误 差理论建立在对测量数据误差分布的一定的假设前提下,比如最早创立最小二 乘法的高斯(Guss,C.E.)在对数据处理时施以最小二乘的前提假设是获取的 测量数据误差为偶然误差:在计量等研究领域对一般系统误差处理时,则根据 系统误差的性质和变化规律分常量和变量,认为常量系统误差仅影响观测数据 的均值,不改变数据误差的形态,而变量系统误差既使得测量数据的概率分布 平移,又会改变其概率分布的原有形态,并扩大其分布范围,且使得数据列具 有自相关性。虽然最小二乘理论自18世纪末创立至今经历了200多年的发展, 并逐步形成了完整的误差理论体系,在数据处理领域有不可撼动的基础地位和 作用,但随着测量数据采集方式的日新月异、测量数据应用范围的扩大及数据 处理理论方法发展的不断创新需求,经典误差理论凸显了与其不相适应的问题, 主要体现在以下方面: (1)误差描述不确定性问题的局限性 传统的误差概念既用于表征测量工具的质量,也用于表征测量过程的质量, 还用于表征测量结果的质量,是一个十分泛化的概念,一般理解为量值与真值 之差的大小。由于真值在实际应用中绝大多数不可确知,因此误差本身存在一 定的不确定性,这已是普遍认知的性质,数据处理领域的学者们虽然已经挖掘 万方数据
博士学位论文 第l章绪论 第1章绪论 熵作为概率分布的数字特征之一,与分布的形式和分布的范围密切相关, 测量数据处理离不开数据在一定观测条件下所对应的误差分布,本章将阐述熵 在测量数据处理中的研究意义,指出了熵用于测量数据不确定性研究的优点和 当前研究存在的问题,并综合分析了国内外相关研究现状,构建了论文研究的 整体组织框架。 1.1研究背景与意义 随着经济和科技的飞速发展,测量不论从狭义上的专业区分还是从广义上 的公共测度都有先进的数据获取方法不断呈现,数据特性由原来的单一变得复 杂,数据数量由原来的有限变得海量,测量数据处理理论与方法也随之不断进 步和发展。测量数据的获取离不开一定的观测条件,在不同的观测条件下获取 的测量数据必然对应着不同的误差分布,因此,测量数据处理理论的基础一误 差理论建立在对测量数据误差分布的一定的假设前提下,比如最早创立最d'- 乘法的高斯(Gauss,C.E)在对数据处理时施以最小二乘的前提假设是获取的 测量数据误差为偶然误差;在计量等研究领域对一般系统误差处理时,则根据 系统误差的性质和变化规律分常量和变量,认为常量系统误差仅影响观测数据 的均值,不改变数据误差的形态,而变量系统误差既使得测量数据的概率分布 平移,又会改变其概率分布的原有形态,并扩大其分布范围,且使得数据列具 有自相关性。虽然最小二乘理论自18世纪末创立至今经历了200多年的发展, 并逐步形成了完整的误差理论体系,在数据处理领域有不可撼动的基础地位和 作用,但随着测量数据采集方式的日新月异、测量数据应用范围的扩大及数据 处理理论方法发展的不断创新需求,经典误差理论凸显了与其不相适应的问题, 主要体现在以下方面: (1)误差描述不确定性问题的局限性 传统的误差概念既用于表征测量工具的质量,也用于表征测量过程的质量, 还用于表征测量结果的质量,是一个十分泛化的概念,一般理解为量值与真值 之差的大小。由于真值在实际应用中绝大多数不可确知,因此误差本身存在一 定的不确定性,这已是普遍认知的性质,数据处理领域的学者们虽然已经挖掘 万方数据
博士学位论文 第1章绪论 出了很多用于估计最佳真值的方法,但无法摆脱误差本身存在的不确定性。同 时误差描述不确定性的局限性还表现在误差不能表征某些测量现象所反映的偏 差问题,例如,地理数据中的语义模糊,地形要素分类的边界线含混等,李德 仁院士曾在《对空间数据不确定性研究的思考》一文中指出,对空间数据不确 定性研究,要区分GIS中确定性目标和不确定性目标(李德仁,2006),并列举 认为诸如海岸线、河流岸线、地表形态、火山口的边界、天然林与草地的边界 等自然目标是不确定目标,它们的共同点是有分形特征,表现为不满足处处连 续光滑和各向同性,呈现处处不可微分的特征。同时指出对于这些不确定性目 标几何特性的研究除了近似地用统计数学方法外,也可以用分形数学、模糊数 学、粗集理论和云模型理论等数学方法处理(李德仁,2006),这从侧面说明对 于不确定目标几何特性数据处理中不能单独依赖经典测量数据处理理论和误差 评价方法,新的数据处理理论和误差评定方式亟待开发应用。 (2)误差表示方式的不唯一性 测量数据误差在表示方式上有多种形式,测绘领域最为常用的是中误差, 即标准差,这只是其中的一种,在计量、电工、物理、化学、机械等测量技术 领域还存在其它类型的误差表示方式,以具体实例说明,例如用标称精度为 2mm+2ppm*D的全站仪重复8次测量了某一段距离S4B,其数据d,(m)分别为: 316.556,316.555,316.559,316.556,316.557,316.556,316.554,316.557, 为获取S的最佳估值,不同的数据处理者可能采用不同的数据处理方法和误差 表示方式,列举如下: 方法一:S的最佳估值取用测量数据d,的平均值d,误差以中误差o表示, 则有: Sa=a=d==316.55625m 2(a-a 0=0= =1.4mm 方法二:认为316.559是粗差,予以剔除,再采用方法一的估计,则有: 2 万方数据
博士学位论文 第1章绪论 出了很多用于估计最佳真值的方法,但无法摆脱误差本身存在的不确定性。同 时误差描述不确定性的局限性还表现在误差不能表征某些测量现象所反映的偏 差问题,例如,地理数据中的语义模糊,地形要素分类的边界线含混等,李德 仁院士曾在《对空间数据不确定性研究的思考》一文中指出,对空间数据不确 定性研究,要区分GIS中确定性目标和不确定性目标(李德仁,2006),并列举 认为诸如海岸线、河流岸线、地表形态、火山口的边界、天然林与草地的边界 等自然目标是不确定目标,它们的共同点是有分形特征,表现为不满足处处连 续光滑和各向同性,呈现处处不可微分的特征。同时指出对于这些不确定性目 标几何特性的研究除了近似地用统计数学方法外,也可以用分形数学、模糊数 学、粗集理论和云模型理论等数学方法处理(李德仁,2006),这从侧面说明对 于不确定目标几何特性数据处理中不能单独依赖经典测量数据处理理论和误差 评价方法,新的数据处理理论和误差评定方式亟待开发应用。 (2)误差表示方式的不唯一性 测量数据误差在表示方式上有多种形式,测绘领域最为常用的是中误差, 即标准差,这只是其中的一种,在计量、电工、物理、化学、机械等测量技术 领域还存在其它类型的误差表示方式,以具体实例说明,例如用标称精度为 2mm+2ppm丰D的全站仪重复8次测量了某一段距离邑。,其数据谚(m)分别为: 316.556,316.555,316.559,316.556,316.557,316.556,316.554,316.557, 为获取S。。的最佳估值,不同的数据处理者可能采用不同的数据处理方法和误差 表示方式,列举如下: 方法一:S。。的最佳估值取用测量数据Z的平均值d,误差以中误差盯表示, 则有: .一∑谚 sAB=d=d=生=316.55625m 门 O-=仃2 =1.4mm 方法二:认为316.559是粗差,予以剔除,再采用方法一的估计,则有: 2 万方数据
博士学位论文 第1章绪论 Sa=a=a=白=316.55586m 2(d- 0==1 =1.0mm 方法三:SB的最佳估值取用测量数据d,的中位数d,误差以平均误差B表 示,则有: SB =d=dimd Med =316.556m Ela.-al =1.1mm 方法四:S4的最佳估值取用测量数据d,的众数dd,误差以极限误差△限表 示,则有: S4B=d=dnm=316.556m △w=3o=5.2mm 还可组合罗列出很多方法,这里不再赘述。 以上例子说明不同数据处理方式和误差表达方式所得数据最佳估值和数据 质量评价结果各不相同,尤其是误差表示方式不同数值明显存在差异,体现了 误差表示方式的不唯一性。 测量数据误差表示方式的不唯一性在行业间、专业领域间、国别间因其采 用原则和标准不同容易形成误解,缺乏共识,这一问题国际计量界在上世纪90 年代给予了高度关注并对测量结果评定构建了相应的适用指南,在设计、制造、 检测、计量确认及产品质量认证等方面发挥了重要作用(林洪桦,2010),其它 典型测量领域,数据处理仍旧采用本专业范围习惯性用法,新的测量质量评定 概念和理论方法处于研究和半应用状态,笔者认为这种局面一方面来自经典误 差理论对测量数据处理的深远影响,另一方面源于新理论方法研究进展缺乏系 统性,这也正是本文立题的原因之一。 (3)误差分类的纠缠性 经典误差理论早期为了有效处理因误差来源不同造成的各异影响,按误差 影响性质的不同将误差分为随机误差(偶然误差)、系统误差和粗差三种类型。 3 万方数据
博士学位论文 第1章绪论 ,、一∑Z SAB=d=d=L=316.55586m ,? 盯=仃2 =1.Omm 7撤--.SA口的最佳估值取用测量数据Z的中位数以d,误差以平均误差臼表 示,则有: SAB 2d2吒耐2M。eld=316·556m .芝旷孑l 口=秒=』=L二_———二=1.1mm 方法四:S。B的最佳估值取用测量数据Z的众数矾,耐,误差以极限误差△限表 示,则有: 』%=a=以耐=316.556m 【A限=30-=5.2ram 还可组合罗列出很多方法,这里不再赘述。 以上例子说明不同数据处理方式和误差表达方式所得数据最佳估值和数据 质量评价结果各不相同,尤其是误差表示方式不同数值明显存在差异,体现了 误差表示方式的不唯一性。 测量数据误差表示方式的不唯一性在行业间、专业领域问、国别问因其采 用原则和标准不同容易形成误解,缺乏共识,这一问题国际计量界在上世纪90 年代给予了高度关注并对测量结果评定构建了相应的适用指南,在设计、制造、 检测、计量确认及产品质量认证等方面发挥了重要作用(林洪桦,2010),其它 典型测量领域,数据处理仍旧采用本专业范围习惯性用法,新的测量质量评定 概念和理论方法处于研究和半应用状态,笔者认为这种局面一方面来自经典误 差理论对测量数据处理的深远影响,另一方面源于新理论方法研究进展缺乏系 统性,这也正是本文立题的原因之一。 (3)误差分类的纠缠性 经典误差理论早期为了有效处理因误差来源不同造成的各异影响,按误差 影响性质的不同将误差分为随机误差(偶然误差)、系统误差和粗差三种类型。 万方数据
博士学位论文 第1章绪论 随着科技发展和对测量误差的深入研究,出现了对误差更为细致的分类和理解, 尤其是系统误差和粗差,在测绘科学研究领域,归纳提出了模型误差、随机系 统误差等概念,并将模型误差分为函数模型误差和随机模型误差,认为经典意 义下的系统误差和粗差实际上都是模型误差的一种,对模型误差不同方面的研 究分别导出了现代测量数据处理理论研究中不同的新理论、新方法,诸如以模 型误差的观点研究系统误差时,导出了附加系统参数的平差方法;以函数模型 误差的观点研究粗差,建立了粗差探测理论与可靠性理论;以随机模型误差的 观点研究粗差,发展形成了稳健估计理论:以一般随机模型误差的观点则形成 了方差估计理论。随机系统误差是指系统误差有时存在随机性,因此也称为半 系统误差,在测量平差中因其传播性质和规律等同于偶然误差,在这种情况下, 系统误差的问题可同样当做偶然误差处理。在计量科学等研究领域,出现了常 量系统误差、变量系统误差、半系统误差、双向系统误差、随机性系统误差等 概念(林洪桦,2010),这在一定程度上促进了误差理论和数据处理理论的发展, 但其概念的界定和理解并不像早期单纯的随机误差(偶然误差)、系统误差和粗 差三种类型那样明确,比如随机性系统误差如何界定在实际操作中十分困难, 笔者认为诸如此类的概念最终会导致误差分类纠缠不清。另外在测量数据误差 分析与处理中,有些误差并不能单纯地按性质分类那样分辨出来,往往一组测 量数据,即使经过了系统误差处理和粗差的剔除,笔者认为也只是消除了显性 的系统误差和粗差而已,数据中包含的误差还是呈现纠缠状,只不过随机误差 占主要成分。随着测量手段的更新,获取的测量数据误差来源多而复杂,并非 现有的数据处理方法都能将其误差分离和估算。因此,测量数据误差分类具有 纠缠性。 (4)误差合成估算的复杂性 误差合成方法一般存在两大难点:①根据各误差分量的已知区间估值求出 各误差分量的均方根值;②根据计算结果得到的总误差的均方根值确定总误差 的区间估值(诺维茨基,1990)。由于这两个过程都需要知道误差分布的形式, 当对结果准确度要求不高时,-一般做法是把误差分布形式估计建立在假设或者 先验基础上,比如通常认为或假定总误差分布形式一定是渐近正态分布的,绝 大多数是没有问题的,因为这一假定符合测量数据本身存在的规律,然而风险 也是明显的,而越来越多的测量数据误差并不符合这一规律,误差呈现非正态 分布性状。并且进行误差合成时要把所有误差分量都看成随机变量,这显然与 实际情况是不相符的。另外对误差理论及数据处理方法掌握程度的不同也会导 致误差合成估算的巨大差异。 鉴于误差分析在测量数据处理中存在的问题,国际计量界取用“测量不确 4 万方数据
博士学位论文 第l章绪论 随着科技发展和对测量误差的深入研究,出现了对误差更为细致的分类和理解, 尤其是系统误差和粗差,在测绘科学研究领域,归纳提出了模型误差、随机系 统误差等概念,并将模型误差分为函数模型误差和随机模型误差,认为经典意 义下的系统误差和粗差实际上都是模型误差的一种,对模型误差不同方面的研 究分别导出了现代测量数据处理理论研究中不同的新理论、新方法,诸如以模 型误差的观点研究系统误差时,导出了附加系统参数的平差方法;以函数模型 误差的观点研究粗差,建立了粗差探测理论与可靠性理论;以随机模型误差的 观点研究粗差,发展形成了稳健估计理论;以一般随机模型误差的观点则形成 了方差估计理论。随机系统误差是指系统误差有时存在随机性,因此也称为半 系统误差,在测量平差中因其传播性质和规律等同于偶然误差,在这种情况下, 系统误差的问题可同样当做偶然误差处理。在计量科学等研究领域,出现了常 量系统误差、变量系统误差、半系统误差、双向系统误差、随机性系统误差等 概念(林洪桦,2010),这在一定程度上促进了误差理论和数据处理理论的发展, 但其概念的界定和理解并不像早期单纯的随机误差(偶然误差)、系统误差和粗 差三种类型那样明确,比如随机性系统误差如何界定在实际操作中十分困难, 笔者认为诸如此类的概念最终会导致误差分类纠缠不清。另外在测量数据误差 分析与处理中,有些误差并不能单纯地按性质分类那样分辨出来,往往一组测 量数据,即使经过了系统误差处理和粗差的剔除,笔者认为也只是消除了显性 的系统误差和粗差而已,数据中包含的误差还是呈现纠缠状,只不过随机误差 占主要成分。随着测量手段的更新,获取的测量数据误差来源多而复杂,并非 现有的数据处理方法都能将其误差分离和估算。因此,测量数据误差分类具有 纠缠性。 (4)误差合成估算的复杂性 误差合成方法一般存在两大难点:①根据各误差分量的已知区问估值求出 各误差分量的均方根值;②根据计算结果得到的总误差的均方根值确定总误差 的区间估值(诺维茨基,1990)。由于这两个过程都需要知道误差分布的形式, 当对结果准确度要求不高时,一般做法是把误差分布形式估计建立在假设或者 先验基础上,比如通常认为或假定总误差分布形式一定是渐近正态分布的,绝 大多数是没有问题的,因为这一假定符合测量数据本身存在的规律,然而风险 也是明显的,而越来越多的测量数据误差并不符合这一规律,误差呈现非正态 分布性状。并且进行误差合成时要把所有误差分量都看成随机变量,这显然与 实际情况是不相符的。另外对误差理论及数据处理方法掌握程度的不同也会导 致误差合成估算的巨大差异。 鉴于误差分析在测量数据处理中存在的问题,国际计量界取用“测量不确 万方数据
博士学位论文 第1章绪论 定度”,即海森堡(Heisenberg)提出的“测不准原理”为测量结果准确度评估 指标,发布了测量不确定度评定的技术性指导文件《测量不确定度表示指南》。 该指南总结和归纳了各国专家公认成熟的误差分析与数据处理可用于测量不确 定度表示的见解与方法,摒弃了误差理论中容易混淆和不一致的方法观点,且 集中反映了国际上关于测量结果评定的最新研究成果和数据处理方法(林洪桦, 2010:刘智敏等,1995)。该成果第一次对测量不确定度进行了全面释义,将测 量不确定度定义为:与测量结果相关联的参数,表征合理地赋予测量值的分散 性(林洪桦,2010:刘智敏等,1995),并且说明此参数可以是标准差,或者是 给定置信水平的区间半宽度。该定义相对于测量误差有以下显著优点:①在理 念上避开了误差,不再使用“真值”,将不确定度与误差概念区分开来,弱化了 本身概念上的不确定性:②对不确定度不实施实质性分类,避免了误差分类出 现的纠缠不清现象;③评定方法都是基于数理统计,尽量避开主观定性评价: ④灵活的可操作性,测量不确定度自身无正负之分,可用标准差表示,也可用 标准差的倍数或者置信区间的半宽度表示,它的意义在于不必是测量结果接近 被测量值的相似性指标,而是与现实可用知识一致的最佳值想接近的似然估计 (林洪桦,2010)。因此,测量不确定度的应用在计量领域近15年形成了统一 而广泛的执行体系,然而在其它涉及测量数据处理的领域目前还未形成规模应 用,测绘领域也是如此,但这一问题已引起了很多学者的关注,尤其是G$空 间数据处理领域,研究成果不断涌现,有望在未来形成新的测量数据处理与评 价新的标准化体系。 测量数据的不确定性实质是一种广义的误差(武汉大学测绘学院测量平差 学科组,2003),它不仅包含经典误差理论中所指的在数值上可度量的误差,即 传统按误差性质分类的随机误差、系统误差和粗差,而且包含在数值和概念上 不可度量的误差,即数据误差概念上的不完整性、模糊性及其本身的随机性等 等。因此,测量数据的不确定性研究不能割裂其与误差的关系,并且不确定性 研究必须借助经典误差理论研究中采用的各种已被实践证明有效且可靠的理论 与方法。 测量不确定度是测量数据不确定性度量的一种有效指标,既有测量不确定 度估计采用的基本尺度参数为标准差(中误差)σ,并称为标准不确定度。按 定义测量不确定度是用于表征测量数据分散性的参数,在有多余测量或重复测 量的情况下,因各种随机影响反映到测量数据的误差上依旧表现出随机性,因 此采用标准差(中误差)σ度量其分散性有其合理的一面。在实际操作和应用 中测量不确定度评定的关键是要己知测量数据误差的概率分布,通过随机变量 与其取值概率之间的依存关系,即在一定的置信概率下,对不确定度进行估计 5 万方数据
博士学位论文 第l章绪论 定度”,即海森堡(Heisenberg)提出的“测不准原理”为测量结果准确度评估 指标,发布了测量不确定度评定的技术性指导文件《测量不确定度表示指南》。 该指南总结和归纳了各国专家公认成熟的误差分析与数据处理可用于测量不确 定度表示的见解与方法,摒弃了误差理论中容易混淆和不一致的方法观点,且 集中反映了国际上关于测量结果评定的最新研究成果和数据处理方法(林洪桦, 2010;刘智敏等,1995)。该成果第一次对测量不确定度进行了全面释义,将测 量不确定度定义为:与测量结果相关联的参数,表征合理地赋予测量值的分散 性(林洪桦,2010:刘智敏等,1995),并且说明此参数可以是标准差,或者是 给定置信水平的区间半宽度。该定义相对于测量误差有以下显著优点:①在理 念上避开了误差,不再使用“真值”,将不确定度与误差概念区分开来,弱化了 本身概念上的不确定性;②对不确定度不实施实质性分类,避免了误差分类出 现的纠缠不清现象;⑨评定方法都是基于数理统计,尽量避开主观定性评价; ④灵活的可操作性,测量不确定度自身无正负之分,可用标准差表示,也可用 标准差的倍数或者置信区间的半宽度表示,它的意义在于不必是测量结果接近 被测量值的相似性指标,而是与现实可用知识一致的最佳值想接近的似然估计 (林洪桦,2010)。因此,测量不确定度的应用在计量领域近15年形成了统一 而广泛的执行体系,然而在其它涉及测量数据处理的领域目前还未形成规模应 用,测绘领域也是如此,但这一问题已引起了很多学者的关注,尤其是GIS空 间数据处理领域,研究成果不断涌现,有望在未来形成新的测量数据处理与评 价新的标准化体系。 测量数据的不确定性实质是一种广义的误差(武汉大学测绘学院测量平差 学科组,2003),它不仅包含经典误差理论中所指的在数值上可度量的误差,即 传统按误差性质分类的随机误差、系统误差和粗差,而且包含在数值和概念上 不可度量的误差,即数据误差概念上的不完整性、模糊性及其本身的随机性等 等。因此,测量数据的不确定性研究不能割裂其与误差的关系,并且不确定性 研究必须借助经典误差理论研究中采用的各种已被实践证明有效且可靠的理论 与方法。 测量不确定度是测量数据不确定性度量的一种有效指标,既有测量不确定 度估计采用的基本尺度参数为标准差(中误差)盯,并称为标准不确定度。按 定义测量不确定度是用于表征测量数据分散性的参数,在有多余测量或重复测 量的情况下,因各种随机影响反映到测量数据的误差上依旧表现出随机性,因 此采用标准差(中误差)仃度量其分散性有其合理的一面。在实际操作和应用 中测量不确定度评定的关键是要已知测量数据误差的概率分布,通过随机变量 与其取值概率之问的依存关系,即在一定的置信概率下,对不确定度进行估计 万方数据