如果每帧图中的基元是短线段,那么可应用附加的规则,对短线段来说,对应关系不 仅取决于基元之间的距离,而且跟它们的相对长度和方向有关。在其他参数相同时,给定 的线段优先跟另一根有相似长度和方向的线段相匹配,这就要规定线段之间的相似性矩 阵。相似性矩阵是相似性、方位、长度和对比度的函数。每个基元倾向于跟最相似的基元 匹配。这种选择性的简单和著名的例子是运动图象中马车车轮现象,在这样的图中,带辐 条的车轮的表观运动跟车轮的实际方向相反。这种现象是视觉系统从两个相竞争的运动中 优先选择其中距离和角度变化量小的那个的结果 形体( figure)和基元组之间的对应关系不是只以相似性为基础。还存在着在一对一的 基础上匹配基元组这样的倾向,一个基元可能不跟最相似的基元匹配,因为这个基元已经 找到它的对应物,而通常二对一的匹配是要避免的。 标记匹配方案的两个常见的问题跟生理系统和跟计算机视觉系统都有关系。 第一个问题涉及在怎样的水平上建立对应关系。这就是处理的程度和分解标记的复杂 程度。可以在象点、斑点( blobs)、边缘段或短线段这样的简单标记之间建立匹配,也可 以在具有结构形式的甚至已识别物体的图象这样的复杂标记之间建立匹配。应用复杂的标 记可以简化对应过程,因此通常复杂的标记在后续的那帧图象中只有唯一的对应物。与此 相反,原始的标记象短的边缘段通常存在许多相互竞争的可能匹配。但是应用原始标记具 有两个突出的优点。首先是降低了对预处理的要求。这在运动感觉中是非常重要的,因为 这时对计算时间的限制很严格。第二,原始标记允许在各种物体作复杂外形变化的运动时 进行对应关系的匹配。这是因为复杂形体的对应关系是通过构成形体的基元组之间的匹配 来建立的。因此,似乎对应关系应该建立在相当原始的水平上,可能在Mar的完全初始简 图水平。 第二个问题涉及在视觉运动分析的集成系统中基于灰度的方案和基于标记匹配方案可 能起的作用。基于灰度的方案一般比较快和灵敏。例如,人类视觉系统可以探测低到每秒 一视觉弧分( one minute of visual are)的速度。这个速度仅为太阳径过天空速度的4倍。 猫的视觉皮层中的方向选择单元能可靠地对小到0.87弧分的偏离作出响应(大约4米距离 上1毫米)。人类甚至可探测更小的偏离。但另一方面,局部测量的不确定性使得单独地 以灰度为基础的方案来准确求得速度场很困难。从原理上讲,基于标记匹配的方案可以在 长距离范围内跟踪明确定位的标记(象线段的端点),因此可达到高的准确性,这样做的 代价是需要比较费时的标记定位和解决对应问题的过程 根据它们的基本特性,这两种运动测量方案可以完成不同的视觉任务。基于灰度的方 案一般用作为外围的,吸引注意力的和早期警报系统和用于把运动的物体跟背景相分割的 系统。在根据运动发现物体三维结构的任务中标记匹配方案可能起主要作用。在发现三维 结构的任务中要进行在相当长的距离范围内准确跟踪。某个最新的心理物理学的证据说明 在人的视觉系统中长范围过程对根据运动发现结构来说是关键的。第二种可能性是这两种 方案相互作用以便相互补充。例如,长范围对应关系的计算可以由通过短范围方案提供的 附加约束来导引的。 712视觉运动的解释 生理的和基于计算机的运动分析系统有三种用途。这些用途按其复杂性排列如下 1)周围物体的分割 (2)发现三维形状 (3)基于运动的识别 135
135 如果每帧图中的基元是短线段,那么可应用附加的规则,对短线段来说,对应关系不 仅取决于基元之间的距离,而且跟它们的相对长度和方向有关。在其他参数相同时,给定 的线段优先跟另一根有相似长度和方向的线段相匹配,这就要规定线段之间的相似性矩 阵。相似性矩阵是相似性、方位、长度和对比度的函数。每个基元倾向于跟最相似的基元 匹配。这种选择性的简单和著名的例子是运动图象中马车车轮现象,在这样的图中,带辐 条的车轮的表观运动跟车轮的实际方向相反。这种现象是视觉系统从两个相竞争的运动中 优先选择其中距离和角度变化量小的那个的结果。 形体(figure)和基元组之间的对应关系不是只以相似性为基础。还存在着在一对一的 基础上匹配基元组这样的倾向,一个基元可能不跟最相似的基元匹配,因为这个基元已经 找到它的对应物,而通常二对一的匹配是要避免的。 标记匹配方案的两个常见的问题跟生理系统和跟计算机视觉系统都有关系。 第一个问题涉及在怎样的水平上建立对应关系。这就是处理的程度和分解标记的复杂 程度。可以在象点、斑点(blobs)、边缘段或短线段这样的简单标记之间建立匹配,也可 以在具有结构形式的甚至已识别物体的图象这样的复杂标记之间建立匹配。应用复杂的标 记可以简化对应过程,因此通常复杂的标记在后续的那帧图象中只有唯一的对应物。与此 相反,原始的标记象短的边缘段通常存在许多相互竞争的可能匹配。但是应用原始标记具 有两个突出的优点。首先是降低了对预处理的要求。这在运动感觉中是非常重要的,因为 这时对计算时间的限制很严格。第二,原始标记允许在各种物体作复杂外形变化的运动时 进行对应关系的匹配。这是因为复杂形体的对应关系是通过构成形体的基元组之间的匹配 来建立的。因此,似乎对应关系应该建立在相当原始的水平上,可能在 Marr 的完全初始简 图水平。 第二个问题涉及在视觉运动分析的集成系统中基于灰度的方案和基于标记匹配方案可 能起的作用。基于灰度的方案一般比较快和灵敏。例如,人类视觉系统可以探测低到每秒 一视觉弧分(one minute of visual are)的速度。这个速度仅为太阳径过天空速度的 4 倍。 猫的视觉皮层中的方向选择单元能可靠地对小到 0.87 弧分的偏离作出响应(大约 4 米距离 上 1 毫米)。人类甚至可探测更小的偏离。但另一方面,局部测量的不确定性使得单独地 以灰度为基础的方案来准确求得速度场很困难。从原理上讲,基于标记匹配的方案可以在 长距离范围内跟踪明确定位的标记(象线段的端点),因此可达到高的准确性,这样做的 代价是需要比较费时的标记定位和解决对应问题的过程。 根据它们的基本特性,这两种运动测量方案可以完成不同的视觉任务。基于灰度的方 案一般用作为外围的,吸引注意力的和早期警报系统和用于把运动的物体跟背景相分割的 系统。在根据运动发现物体三维结构的任务中标记匹配方案可能起主要作用。在发现三维 结构的任务中要进行在相当长的距离范围内准确跟踪。某个最新的心理物理学的证据说明 在人的视觉系统中长范围过程对根据运动发现结构来说是关键的。第二种可能性是这两种 方案相互作用以便相互补充。例如,长范围对应关系的计算可以由通过短范围方案提供的 附加约束来导引的。 7.1.2 视觉运动的解释 生理的和基于计算机的运动分析系统有三种用途。这些用途按其复杂性排列如下: (1) 周围物体的分割 (2) 发现三维形状 (3).基于运动的识别
3器游 吧吧 图7-5(a)中的中心方块比(b)中的中心方块略微右移。这两幅图象中的背景是不相关 的。当把这两幅图顺序地让观察者观察时,就可感觉到用线条勾划出方块在噪声背景上移 动。(c)是a)用V2G算子滤波后的过零点轮廓。(d)中过零点的运动是沿亮点的方向。(e)根 据运动信息就可以发现中心方块,在此区域中的亮点被删去 1.周围物体的分割 人类视觉系统可以只根据运动信息把运动物体跟它的背景分割开。图7-5表示可从 对随机点模式中探测一个运动的子形体的例子。图7-5a中的中心方块比5b中的中心方块 略微向右位移。这两幅图象中的背景是不相关的。当把这两幅图顺序地让观察者观察时, 就可感觉到用线条勾划出的方块在噪声背景上移动。这个子形体在这两个静止图象中都探 测不出来,因为这些子形体仅仅由帧对帧的偏离来定义的。这种实验证明视觉系统利用运 动甚至在没有灰度边缘或在边界处没有纹理变化时,能描述运动物体的边界 研究表明视觉运动可对周围物体的分离提供有用的线索。然而,可靠的基于运动的分 割比预想的要困难。从以上叙述的基于灰度的方法可理解某些这样的困难。在把局部测量 综合起来时,经常要假设速度场是连续的。因此在物体边界处就会产生显著的误差,因为 在边界处连续性假设不成立。合乎理想的是在测量运动以前就探测出速度场的不连续性, 而不是根据速度测量。 克服这种困难的一种方法是利用探测运动不连续性不要求准确的速度场测量,粗略估 计方向和速度就足够了。所以,分两阶段进行局部的基于灰度的运动测量被证明是有利 的。在第一阶段,对运动作粗略估计,并用于定位速度场中的不连续点。第二阶段,在建 立速度场时不把平滑性约束传播过不连续点的边界 2根据运动发现三维结构 人类视觉系统甚至能从不熟悉物体的景物图象序列发现运动物体的三维形状。而其中 的每个静图象并不包含三维信息,在实验中不熟悉的物体在透明的屏幕后面旋转,从屏幕 的另一边看到物体垂直投影的阴影。在大多数情况下,观察者可以正确地描述被挡住物体 的三维结构和在空间的运动,甚至当每个静止观察是不能识别和不包含三维信息时也可以 做到这点。原始运动深度效应主要利用线框物体,这些物体投影成一组相连的线。最近的 研究显示根据包含在运动中的不连接的基元可建立三维结构 136
136 图 7-5 (a) 中的中心方块比(b)中的中心方块略微右移。这两幅图象中的背景是不相关 的。当把这两幅图顺序地让观察者观察时,就可感觉到用线条勾划出方块在噪声背景上移 动。(c)是(a)用 2G 算子滤波后的过零点轮廓。(d)中过零点的运动是沿亮点的方向。(e)根 据运动信息就可以发现中心方块,在此区域中的亮点被删去。 1. 周围物体的分割 人类视觉系统可以只根据运动信息把运动物体跟它的背景分割开。图 7-5 表示可从一 对随机点模式中探测一个运动的子形体的例子。图 7-5a 中的中心方块比 5b 中的中心方块 略微向右位移。这两幅图象中的背景是不相关的。当把这两幅图顺序地让观察者观察时, 就可感觉到用线条勾划出的方块在噪声背景上移动。这个子形体在这两个静止图象中都探 测不出来,因为这些子形体仅仅由帧对帧的偏离来定义的。这种实验证明视觉系统利用运 动甚至在没有灰度边缘或在边界处没有纹理变化时,能描述运动物体的边界。 研究表明视觉运动可对周围物体的分离提供有用的线索。然而,可靠的基于运动的分 割比预想的要困难。从以上叙述的基于灰度的方法可理解某些这样的困难。在把局部测量 综合起来时,经常要假设速度场是连续的。因此在物体边界处就会产生显著的误差,因为 在边界处连续性假设不成立。合乎理想的是在测量运动以前就探测出速度场的不连续性, 而不是根据速度测量。 克服这种困难的一种方法是利用探测运动不连续性不要求准确的速度场测量,粗略估 计方向和速度就足够了。所以,分两阶段进行局部的基于灰度的运动测量被证明是有利 的。在第一阶段,对运动作粗略估计,并用于定位速度场中的不连续点。第二阶段,在建 立速度场时不把平滑性约束传播过不连续点的边界。 2. 根据运动发现三维结构 人类视觉系统甚至能从不熟悉物体的景物图象序列发现运动物体的三维形状。而其中 的每个静图象并不包含三维信息,在实验中不熟悉的物体在透明的屏幕后面旋转,从屏幕 的另一边看到物体垂直投影的阴影。在大多数情况下,观察者可以正确地描述被挡住物体 的三维结构和在空间的运动,甚至当每个静止观察是不能识别和不包含三维信息时也可以 做到这点。原始运动深度效应主要利用线框物体,这些物体投影成一组相连的线。最近的 研究显示根据包含在运动中的不连接的基元可建立三维结构
对根据运动发现三维结构的计算问题已进行了许多研究。其中所探索的主要问题是什 么条件下从运动得到结构的问题有唯一解,以及研究根据运动发现结构的算法。这些研究 的主要结果列出在表1中。如表中所示,对问题的离散形式和连续形式都进行了研究。第 个形式在空间和时间上都是离散的。计算是以若干离散的帧,每帧包含许多孤立的点 已经证明为了从运动中得到结构的唯一解释只要少数帧和点数就足够了:对包含至少四个 不共面点的运动刚体而言,用三帧就可以确定空间运动和点的三维坐标 唯一性的证明是很有价值的,因为这将导致根据运动发现结构的可能方案。景物被分 成大约每组包含4个基元的组。每组结构是独立地求取的,最后局部的结果在一个附加的 步骤中被组合起来。这样的方案是基于垂直投影,通过用发现方案的局部化来处理透视投 影。这就是说,对四邻域点,两种类型的投影是相似的。可也能直接利用透视投影。有迹 象表明在透视情况下,对唯一的解释来说,可能需要两帧图和5个点就足够了,但这种情 况的证明还不知道 也可以不是只考虑在若干离散观察中点的位置,而是把点的位置和速度同时作为输入 (表中第二栏)。这可能被考虑为两帧问题,帧间的时间间隔趋于零时的极限情况。这时 问题就取以下形式:给出图象中N点的位置和速度,确定这些点是否属于单个运动物体和寻 找在空间中的运动和这些点的三维坐标。 先期的理论问题是确定能发现问题的唯一解时的最少点数N,从数学观点来看,这个 问题仍然没解决。计算方程式的变量和未知数的数目揭示5个点就足够了,一个证明是由 progeny执行的计算机程序。因为计算机程序对输入中的误差很敏感,特别是当被察的物体 很小时,似乎强有力的发现算法应需要多于5个点 离散点和离散观察帧离散点及其速度 速度场和速度场的空间导数 3个垂直投影中4个点单个透视观察投影中5 对纯平移的运动有唯一解 (ullman 1979) 点和它们的速度 (clock SIN 1980) 两个透视投影中的5个点 对一般的运动最多可有三个解 (ullman 1979) (longuet-higgins and prageny 1980) 问题的第三种形式是利用速度场和速度场的空间导数。这可被看作是前面形式当点之 间的距离趋于零时的特殊情况。在这种问题的简化类型中,空间的运动被限于纯粹平移 在这样的假设下,解的唯一性很容易建立。根据所在点的速度和速度场的空间导数可求得 每个图象点的表面方位。 在包含旋转分量的更为一般的情况则要复杂得多。有一种分析方法认为某一点的速度 最多时有三种解释。更准确地说,已被证明对非平面的表面(在点上给出速度和它的一阶 和二阶导数)。对这个点上表面方位最多存在三个解。 上述的方案是为了根据运动到结构问题的完全解。这就是说,这些方法试图发现所有 的运动参数和可见环境的三维结构。与此相反,部分描述要有选择地抽取出某些运动参 数。例如若干数学和心理研究试图在图象速度场中孤立出以下这样的变量:这些变量允许 分离和独立地发现运动的旋转和平移分量中的每一个。一般来说,这样地分解问题是不可 能的。因为图象中的速度场是由所有的运动参数跟可见的物体三维形状的内在相互作用所 决定的。因此,似乎不可能在运动场中孤立出一个变量。譬如说跟平移分量无关的旋转运 动分量,然而在象纯粹平移这样的特定情况下的部分解变成有吸引力的 3.基于运动的识别 人类观察者可单独根据特性运动模式识别某些物体。由 Johansson进行的研究为这种 能力提供了强有力的证明。通过对在黑暗中运动的,在其主要关节上装有小光源的演员摄 影可提供这样的证明。每个演员由多达13个运动光点来表示。所得到的点的动态模式为运 动着的演员造成一种生动的印象。以后的研究已经证明,经常可以把男演员跟女演员相区 分,在某些情况下,熟人可以单独根据运动的光点被识出。 研究这个问题的策略可把问题分成两步:第一步组织和描述运动模式;第二步把得到 的表达跟存在内存中的相似描述比较。第一步被认为是自动的。也就是由通用结构成份 137
137 对根据运动发现三维结构的计算问题已进行了许多研究。其中所探索的主要问题是什 么条件下从运动得到结构的问题有唯一解,以及研究根据运动发现结构的算法。这些研究 的主要结果列出在表 1 中。如表中所示,对问题的离散形式和连续形式都进行了研究。第 一个形式在空间和时间上都是离散的。计算是以若干离散的帧,每帧包含许多孤立的点。 已经证明为了从运动中得到结构的唯一解释只要少数帧和点数就足够了:对包含至少四个 不共面点的运动刚体而言,用三帧就可以确定空间运动和点的三维坐标。 唯一性的证明是很有价值的,因为这将导致根据运动发现结构的可能方案。景物被分 成大约每组包含 4 个基元的组。每组结构是独立地求取的,最后局部的结果在一个附加的 步骤中被组合起来。这样的方案是基于垂直投影,通过用发现方案的局部化来处理透视投 影。这就是说,对四邻域点,两种类型的投影是相似的。可也能直接利用透视投影。有迹 象表明在透视情况下,对唯一的解释来说,可能需要两帧图和 5 个点就足够了,但这种情 况的证明还不知道。 也可以不是只考虑在若干离散观察中点的位置,而是把点的位置和速度同时作为输入 (表中第二栏)。这可能被考虑为两帧问题,帧间的时间间隔趋于零时的极限情况。这时 问题就取以下形式:给出图象中 N 点的位置和速度,确定这些点是否属于单个运动物体和寻 找在空间中的运动和这些点的三维坐标。 先期的理论问题是确定能发现问题的唯一解时的最少点数 N,从数学观点来看,这个 问题仍然没解决。计算方程式的变量和未知数的数目揭示 5 个点就足够了,一个证明是由 progeny 执行的计算机程序。因为计算机程序对输入中的误差很敏感,特别是当被察的物体 很小时,似乎强有力的发现算法应需要多于 5 个点。 表1 离散点和离散观察帧 离散点及其速度 速度场和速度场的空间导数 3 个垂直投影中 4 个点 (ullman 1979) 两个透视投影中的 5 个点 (ullman 1979) 单个透视观察投影中 5 点和它们的速度 对纯平移的运动有唯一解 (clock SIN 1980) 对一般的运动最多可有三个解 (longuet-higgins and prageny 1980) 问题的第三种形式是利用速度场和速度场的空间导数。这可被看作是前面形式当点之 间的距离趋于零时的特殊情况。在这种问题的简化类型中,空间的运动被限于纯粹平移。 在这样的假设下,解的唯一性很容易建立。根据所在点的速度和速度场的空间导数可求得 每个图象点的表面方位。 在包含旋转分量的更为一般的情况则要复杂得多。有一种分析方法认为某一点的速度 最多时有三种解释。更准确地说,已被证明对非平面的表面(在点上给出速度和它的一阶 和二阶导数)。对这个点上表面方位最多存在三个解。 上述的方案是为了根据运动到结构问题的完全解。这就是说,这些方法试图发现所有 的运动参数和可见环境的三维结构。与此相反,部分描述要有选择地抽取出某些运动参 数。例如若干数学和心理研究试图在图象速度场中孤立出以下这样的变量:这些变量允许 分离和独立地发现运动的旋转和平移分量中的每一个。一般来说,这样地分解问题是不可 能的。因为图象中的速度场是由所有的运动参数跟可见的物体三维形状的内在相互作用所 决定的。因此,似乎不可能在运动场中孤立出一个变量。譬如说跟平移分量无关的旋转运 动分量,然而在象纯粹平移这样的特定情况下的部分解变成有吸引力的。 3. 基于运动的识别 人类观察者可单独根据特性运动模式识别某些物体。由 Johansson 进行的研究为这种 能力提供了强有力的证明。通过对在黑暗中运动的,在其主要关节上装有小光源的演员摄 影可提供这样的证明。每个演员由多达 13 个运动光点来表示。所得到的点的动态模式为运 动着的演员造成一种生动的印象。以后的研究已经证明,经常可以把男演员跟女演员相区 分,在某些情况下,熟人可以单独根据运动的光点被识出。 研究这个问题的策略可把问题分成两步:第一步组织和描述运动模式;第二步把得到 的表达跟存在内存中的相似描述比较。第一步被认为是自动的。也就是由通用结构成份
( principle)、而不是由关于特定物体的知识所导引。不少心理学研究已证明在人类视觉 系统中存在这样的组织成份,但对其细节还远远不清楚。最近已有人提出一种方法,根据 平面性假设,四肢的运动可被用于求得对运动着的光的显式的三维解释。当这些原理用于 Johansson类型的结果结构时,组织成份将在主要关节之间建立连接,产生正在运动的棒状 图形的表达形式。这些棒状图形在以后的步骤中可能用Mar和 Nishiara所提出的方案进行 分析 经验证明在这个领域中的进步取决于计算研究跟实验心理学研究的结合 72运动的检测和测量 721以灰度为基础的方法 1.速度场和光流( motion field and optical flow) 当物体从摄象机前面移过或摄象机移过固定的环境时,图象中会产生相应的变化,这 些变化可用于发现相对运动以及物体的形状 图象中各点的速度矢量构成了速度场。在某一特定时刻,图象中的p2点与物体表面上 的某点P0对应。这两点之间的关系符合投影方程。在透视投影的情况下,从图象点出发经 过透镜中心的射线一直伸展到与不透明物体相交(图7.6) po 图76景物中点的位移造成图象中相应点的位移 设物体上的点P0相对于摄象机的速度为V,P0点的运动造成图象中的对应点P;以 V的速度运动。6t的时间间隔里P点移动Vo1,对应的图象点p移动vot。速度分别 其中后和的关系是 其中z是Z轴方向的单位矢量。对此透视投影方程作微分可得 1G6·2)0-0·2_G×)×z G·2) 在这里并不想去求解这个方程,重要的是说明可用这种方式对图象中各点赋予一个速度矢 量。这些矢量构成速度场。 物体上相邻点的速度相近。因此,可以认为在多数场合下图象中的速度场也是连续 点。在物体成象的外轮廓处,由于那里的运动场是不连续的将作为例外
138 (principle)、而不是由关于特定物体的知识所导引。不少心理学研究已证明在人类视觉 系统中存在这样的组织成份,但对其细节还远远不清楚。最近已有人提出一种方法,根据 平面性假设,四肢的运动可被用于求得对运动着的光的显式的三维解释。当这些原理用于 Johansson 类型的结果结构时,组织成份将在主要关节之间建立连接,产生正在运动的棒状 图形的表达形式。这些棒状图形在以后的步骤中可能用 Marr 和 Nishiara 所提出的方案进行 分析。 经验证明在这个领域中的进步取决于计算研究跟实验心理学研究的结合。 7.2 运动的检测和测量 7.2.1 以灰度为基础的方法 1. 速度场和光流(motion field and optical flow) 当物体从摄象机前面移过或摄象机移过固定的环境时,图象中会产生相应的变化,这 些变化可用于发现相对运动以及物体的形状。 图象中各点的速度矢量构成了速度场。在某一特定时刻,图象中的 pi 点与物体表面上 的某点 p0 对应。这两点之间的关系符合投影方程。在透视投影的情况下,从图象点出发经 过透镜中心的射线一直伸展到与不透明物体相交(图 7.6)。 V t 0 p0 0 r ' f Z pi i r 图 7.6 景物中点的位移造成图象中相应点的位移 设物体上的点 p0 相对于摄象机的速度为 V0 , p0 点的运动造成图象中的对应点 pi 以 Vi 的速度运动。 t 的时间间隔里 p0 点移动 V t 0 ,对应的图象点 pi 移动 V t i 。速度分别 为: dt dr V 0 0 = 和 dt dr V i i = 其中 r0 和 ri 的关系是 0 0 1 1 r r Z r f i = 其中 Z 是 Z 轴方向的单位矢量。对此透视投影方程作微分可得 ( ) ( ) ( ) ( ) ( ) 2 0 0 0 2 0 1 0 0 0 0 r Z r V Z r Z r Z V V Z r V f i = − = 在这里并不想去求解这个方程,重要的是说明可用这种方式对图象中各点赋予一个速度矢 量。这些矢量构成速度场。 物体上相邻点的速度相近。因此,可以认为在多数场合下图象中的速度场也是连续 点。在物体成象的外轮廓处,由于那里的运动场是不连续的将作为例外
2光流( optical flow) 当成象物体运动时,图象中的亮度图案也随之移动。光流是可看得到的亮度图案的运 动或称为表观运动( apparent motion)。希望光流能相应于运动场,但以下将会看到不一定 是这样的 先研究一下在成象系统前旋转的绝对均匀的圆球。由于球面是曲面,所以球的图象中 会有亮度的空间分布即影调。但这样的影调不随表面运动,所以图象不随时间变化。这时 各处的光流都为零,尽管这时运动不为零。其次,看一下由运动的光源照明的固定球面 随光源的运动,图象的影调将随之变化。这时光流显然不为零,而运动场则到处都是零 虚象和阴影是使光流和运动场不相同的其它的原因。 我们可以观察得到的是光流。此外除了上述的些特殊情况外,一般情况下光流与运动 场相差不大。这使我们能利用光流信息来估计相对运动 图77亮度图案的表观运动是个不便于使用的概念 亮度图案的表观运动是什么含义呢?试考虑图象中在时刻t时亮度为E的p点(图 77)。在t+δt时刻图象中与p点对应的点是p'。在此时间间隔中亮度图案是如何运动 的?通常在p点附近有许多亮度都为E的点。如果亮度连续变化,那么p点将位于等亮度 线C上。在t+δt时刻在附近将会有一条亮度相同的等亮度线C′。但C与C上的点是如 何对应的?因为通常这两条线的形状都不相同,所以这个问题难以回答。由此可知,根据 时变图象( changing image)中的局部信息不能唯一地确定光流 设,在t时刻图象点(x,y)处的辐照度是E(x,y,l)。如该点光流在x和y轴的分量分 别为(x,y)和v(x,y),那么在t+61时刻相同亮度的点将会在(x+δx,y+δy)。其中 x=lt和δy=vt,即对小的时间间隔可有 E(x+u8,y+v8t,t+6)=E(x,y,) 单有这一个约束不足以唯一地确定u和v。这里显然我们也可以利用各处的运动场是连续 的这个事实 如果亮度随x,y和t平滑变化,可把上式按泰勒级数展开得到 E E(x,y, 0)+8xoexs dr dtcE+e=E(x,y, 其中e包括在δx,y和bt中的二次以上的项。上式中约去E(x,y),并用δt除等式 两端和取δt→0的极限后可求得: ae dx Be dy E 0 Ox dt y dt ot 此式实际上是等式=0的展开形式。用以下形式简写 dx 139
139 2. 光流(optical flow) 当成象物体运动时,图象中的亮度图案也随之移动。光流是可看得到的亮度图案的运 动或称为表观运动(apparent motion)。希望光流能相应于运动场,但以下将会看到不一定 是这样的。 先研究一下在成象系统前旋转的绝对均匀的圆球。由于球面是曲面,所以球的图象中 会有亮度的空间分布即影调。但这样的影调不随表面运动,所以图象不随时间变化。这时 各处的光流都为零,尽管这时运动不为零。其次,看一下由运动的光源照明的固定球面。 随光源的运动,图象的影调将随之变化。这时光流显然不为零,而运动场则到处都是零。 虚象和阴影是使光流和运动场不相同的其它的原因。 我们可以观察得到的是光流。此外除了上述的些特殊情况外,一般情况下光流与运动 场相差不大。这使我们能利用光流信息来估计相对运动。 图 7.7 亮度图案的表观运动是个不便于使用的概念 亮度图案的表观运动是什么含义呢?试考虑图象中在时刻 t 时亮度为 E 的 p 点(图 7.7)。在 t + t 时刻图象中与 p 点对应的点是 p 。在此时间间隔中亮度图案是如何运动 的?通常在 p 点附近有许多亮度都为 E 的点。如果亮度连续变化,那么 p 点将位于等亮度 线 C 上。在 t + t 时刻在附近将会有一条亮度相同的等亮度线 C 。但 C 与 C 上的点是如 何对应的?因为通常这两条线的形状都不相同,所以这个问题难以回答。由此可知,根据 时变图象(changing image)中的局部信息不能唯一地确定光流。 设,在 t 时刻图象点 (x, y) 处的辐照度是 E(x, y, t) 。如该点光流在 x 和 y 轴的分量分 别为 u(x, y) 和 v(x, y) ,那么在 t + t 时刻相同亮度的点将会在 (x + x, y + y) 。其中 x = u t 和 y = v t ,即对小的时间间隔可有: E(x + u t, y + v t, t + t) = E(x, y, t) 单有这一个约束不足以唯一地确定 u 和 v 。这里显然我们也可以利用各处的运动场是连续 的这个事实。 如果亮度随 x, y 和 t 平滑变化,可把上式按泰勒级数展开得到: E(x y t) x ( ) E x y E y t E t , , + + + + e = E x, y, t 其中 e 包括在 x , y 和 t 中的二次以上的项。上式中约去 E(x, y, t) ,并用 t 除等式 两端和取 t → 0 的极限后可求得: E x dx dt E y dy dt E t + + = 0 (7-1) 此式实际上是等式 dE dt = 0 的展开形式。用以下形式简写: u dx dt v dy dt = , =