·398· 智能系统学报 第14卷 图6是一个高度简化了的乡镇级地图和地市 两个国家级地图和国内航空信息网站上找到最佳 级地图,图中仍然用5个结点代表有限n个观察 航线和最佳航班信息;最后,根据两个底层子任 结点,不同的是它们都是有内部结构的分子结 务“从西北工业大学到西安市咸阳机场”和“从匹 点,仍然用全互连图代表分子结点之间的连通状 兹堡机场到匹兹堡大学”,分别在两个城市级地图 况,不同的是,内部可能存在复杂的分子结构, 上根据当地实时发布的道路交通状况找到最佳的 不是简单的通或不通关系。这样就把一个在原子 开车路线。 层面十分复杂的最佳路径规划问题,转化成几个 这种通过多层规划来解决复杂问题的聪明做 相对简单得多的3个不同层面内部和层面之间的 法本质上是一种主动引入和合理利用不确定性的 最佳路径规划子问题进行求解,整体的复杂度可 方法,它突破了传统问题求解观念的约束。传统 以大大降低。请读者注意:图6里的分子结点 问题求解观念认为,在解决问题时应努力消除各 “d'村”有两层含义,对内讲它包含村落里的全部 种不确定性,实在不能消除也要尽可能地避免不 内容,对外讲它是一个代表本村落与其他村落的 确定性推理,以便使用有可靠数学基础的刚性逻 联通结点(如村政府、公交车站、水运码头等), 辑或二值神经网络解决。但是随着问题复杂度的 d"镇的含义也与此类似。利用图6来分层求解最 不断增长,其时空开销会迅速达到无法实际操作 佳路径的过程:首先在地市级地图上解决“从 的程度,人们不得不适时地进行分类、归纳和抽 d"镇到a"镇”的最佳路径规划问题,然后分别去 象,主动离开具有最细粒度和确定性的原子信息 到两个乡镇级地图上解决“从d'村到d"镇”的最 状态,果断进入具有较粗粒度和不确定性的分子 信息状态。图7从时空开销(即易操作性)的角度 佳路径规划问题和“从a"镇到a'村”的最佳路径规 给出了详细解释。通过归纳不难发现,n原子信 划问题,最后再分别到两个村落级地图上解决 息系统会形成由N=2”个不同状态组成的偏序空 “从d家离开d'村”的最佳路径规划问题和“从 间,其复杂度会迅速增加到天文数字。如果忽略 a'村进人a家”的最佳路径规划问题。 这些精确的偏序关系,用统计原子信息出现数目 当今社会每天都在成亿次地产生制定国际国 的方法把它映射到全序空间,其状态数可立即降 内旅游路径规划问题,对人类社会来讲这个过程 低为N=1+n的线性复杂度(信息压缩了2”1+n)倍)。 已经十分轻松,没有太大的困难。这是如何做到 所以,在众多原子信息组成的系统中,除了特殊 的呢?首先是因为各国已经事先准备好了各个地 需要外,人们会主动离开过度精细的偏序空间, 区不同层面的交通路线图备客户使用,其次是因 大胆进入到比较实用的全序空间,而不在乎它带 为各个业务部门都有实时更新的交通工具运行时 来的不确定性,这是人类智慧的高度体现,深度神 间和价格等信息发布。有这些背景知识和信息的 经网络忽略了这个重要的人类智慧。 存在,即可快速支持任意范围内任意两点之间的 为让读者增强对主动引入和合理利用不确定 旅游路径规划问题。例如:有人要从中国西安市 性意义的认识,图8给出了学生们十分熟悉的“理 西北工业大学去美国匹兹堡市匹兹堡大学讲学, 想试卷模型”。设卷中有100道原子状态的是/非 其旅游路径规划不必从包含每家每户的世界地图 题(答对一道题得1分,否则得0分,没有中间过 上(当今世界每一个自然村落都有详细的地图, 渡分数存在),用具有确定性的刚性逻辑来描述 只要你不计成本和时空开销,一定可把它们全部 这个试卷,它是一个100维的二值逻辑,可精确 拼接在一张世界地图上)去寻找,因为这个“最佳 描述到每一道题的得分情况,排列组合共有2= 解”即使你用深度神经网络和云计算不计成本地 1267650600228229401496703205376≈ 找到了,它肯定是人类难以理解和解释清楚的“黑 1.26765×100种不同的答题状态,它们组成了一 箱解”,在这个“黑箱解”的某个小环节突然出现异 个100维的偏序空间。在现实生活中需要知道如 常时,更无法知道如何调整这个最佳路径规划。 此精准状态描述的只有阅卷老师和学生本人,其 人类的做法不会如此愚钝,首先,他会根据顶层 他人只需要知道他在101种不同状态组成的全序 子任务“从中国到美国”在世界级地图和国际航空 空间中的某个分数状态(图中是90分)即可,信息 信息网站上找到从中国到美国的最佳航线和最佳 压缩比是(1.26765×1030)/101=1.255099×108倍。 航班信息,比如选择了某日某某航班从北京市的 而且就是这个90分本身也包含不确定性,因为尽 首都国际机场飞美国纽约市的纽瓦克机场;其 管你确切知道他有10道题答错了,但仍然不知道 次,根据两个中层子任务“从西安市到北京市首都 错的是哪10道题,只知道它是2°-1024种不同 国际机场”和“从纽瓦克机场到匹兹堡市”,分别在 错误状态中的一种。可见,在人类智能活动中,不
图 6 是一个高度简化了的乡镇级地图和地市 级地图,图中仍然用 5 个结点代表有限 n 个观察 结点,不同的是它们都是有内部结构的分子结 点,仍然用全互连图代表分子结点之间的连通状 况,不同的是 wi 内部可能存在复杂的分子结构, 不是简单的通或不通关系。这样就把一个在原子 层面十分复杂的最佳路径规划问题,转化成几个 相对简单得多的 3 个不同层面内部和层面之间的 最佳路径规划子问题进行求解,整体的复杂度可 以大大降低。请读者注意:图 6 里的分子结点 “d′村”有两层含义,对内讲它包含村落里的全部 内容,对外讲它是一个代表本村落与其他村落的 联通结点 (如村政府、公交车站、水运码头等), d″镇的含义也与此类似。利用图 6 来分层求解最 佳路径的过程:首先在地市级地图上解决“从 d″镇到 a″镇”的最佳路径规划问题,然后分别去 到两个乡镇级地图上解决“从 d′村到 d″镇”的最 佳路径规划问题和“从 a″镇到 a′村”的最佳路径规 划问题,最后再分别到两个村落级地图上解决 “从 d 家离开 d ′村”的最佳路径规划问题和“从 a′村进入 a 家”的最佳路径规划问题。 当今社会每天都在成亿次地产生制定国际国 内旅游路径规划问题,对人类社会来讲这个过程 已经十分轻松,没有太大的困难。这是如何做到 的呢?首先是因为各国已经事先准备好了各个地 区不同层面的交通路线图备客户使用,其次是因 为各个业务部门都有实时更新的交通工具运行时 间和价格等信息发布。有这些背景知识和信息的 存在,即可快速支持任意范围内任意两点之间的 旅游路径规划问题。例如:有人要从中国西安市 西北工业大学去美国匹兹堡市匹兹堡大学讲学, 其旅游路径规划不必从包含每家每户的世界地图 上 (当今世界每一个自然村落都有详细的地图, 只要你不计成本和时空开销,一定可把它们全部 拼接在一张世界地图上) 去寻找,因为这个“最佳 解”即使你用深度神经网络和云计算不计成本地 找到了,它肯定是人类难以理解和解释清楚的“黑 箱解”,在这个“黑箱解”的某个小环节突然出现异 常时,更无法知道如何调整这个最佳路径规划。 人类的做法不会如此愚钝,首先,他会根据顶层 子任务“从中国到美国”在世界级地图和国际航空 信息网站上找到从中国到美国的最佳航线和最佳 航班信息,比如选择了某日某某航班从北京市的 首都国际机场飞美国纽约市的纽瓦克机场;其 次,根据两个中层子任务“从西安市到北京市首都 国际机场”和“从纽瓦克机场到匹兹堡市”,分别在 两个国家级地图和国内航空信息网站上找到最佳 航线和最佳航班信息;最后,根据两个底层子任 务“从西北工业大学到西安市咸阳机场”和“从匹 兹堡机场到匹兹堡大学”,分别在两个城市级地图 上根据当地实时发布的道路交通状况找到最佳的 开车路线。 这种通过多层规划来解决复杂问题的聪明做 法本质上是一种主动引入和合理利用不确定性的 方法,它突破了传统问题求解观念的约束。传统 问题求解观念认为,在解决问题时应努力消除各 种不确定性,实在不能消除也要尽可能地避免不 确定性推理,以便使用有可靠数学基础的刚性逻 辑或二值神经网络解决。但是随着问题复杂度的 不断增长,其时空开销会迅速达到无法实际操作 的程度,人们不得不适时地进行分类、归纳和抽 象,主动离开具有最细粒度和确定性的原子信息 状态,果断进入具有较粗粒度和不确定性的分子 信息状态。图 7 从时空开销 (即易操作性) 的角度 给出了详细解释。通过归纳不难发现,n 原子信 息系统会形成由 N=2n 个不同状态组成的偏序空 间,其复杂度会迅速增加到天文数字。如果忽略 这些精确的偏序关系,用统计原子信息出现数目 的方法把它映射到全序空间,其状态数可立即降 低为 N=1+n 的线性复杂度 (信息压缩了 2 n /(1+n) 倍)。 所以,在众多原子信息组成的系统中,除了特殊 需要外,人们会主动离开过度精细的偏序空间, 大胆进入到比较实用的全序空间,而不在乎它带 来的不确定性, 这是人类智慧的高度体现,深度神 经网络忽略了这个重要的人类智慧。 为让读者增强对主动引入和合理利用不确定 性意义的认识,图 8 给出了学生们十分熟悉的“理 想试卷模型”。设卷中有 100 道原子状态的是/非 题 (答对一道题得 1 分,否则得 0 分,没有中间过 渡分数存在),用具有确定性的刚性逻辑来描述 这个试卷,它是一个 100 维的二值逻辑,可精确 描述到每一道题的得分情况,排列组合共有 2 100 = 126 7650 6002 2822 9401 4967 0320 5376≈ 1.267 65×1030 种不同的答题状态,它们组成了一 个 100 维的偏序空间。在现实生活中需要知道如 此精准状态描述的只有阅卷老师和学生本人,其 他人只需要知道他在 101 种不同状态组成的全序 空间中的某个分数状态 (图中是 90 分) 即可,信息 压缩比是 (1.267 65×1030)/101=1.255 099×1028 倍。 而且就是这个 90 分本身也包含不确定性,因为尽 管你确切知道他有 10 道题答错了,但仍然不知道 错的是哪 10 道题,只知道它是 2 10=1 024 种不同 错误状态中的一种。可见,在人类智能活动中,不 ·398· 智 能 系 统 学 报 第 14 卷
第3期 何华灿:重新找回人工智能的可解释性 ·399· 仅客观上无法避免不确定性,而且为了提高决策 度越大,其中忽略的无关信息就越多,引入的不 效率需要忽略大量无关信息,主动引入不确定性。 确定性就越大。由此可见,在深度神经网络中, 不难理解:决策的抽象层次越高,涉及的知识粒 有意无视逻辑和知识的作用是一种方向性错误。 维刚性逻辑了 119 二维刚性逻辑 四维刚性逻辑 全序控间 10食偏序空间0中 00 1111 1111◆ 状态数N=2 00 0m0 (a)1个原子 状态数N=22=4 全序空间 1110 0111 信息系统 b)2个原子信息系统 10 01m 010 00 0011 1100豪 001010 0001 110 000 三维刚性逻辑 101e 011 1000 01 01000 010 0019 偏序空间 0000 100。 状态数W=24=16 全序空间 状态数N=23=8 偏序空间 000 000● (c)3个原子信息系统 全序空间 (d)4个原子信息系统 一般规律:n原子信息系统的偏序空间状态数是N=2,全序空间状态数是=1+切 图7从确定的原子状态进入不确定性的分子状态 Fig.7 From the determined atomic state to the molecular state of uncertainty 确定性描述: 成果等。3)思想品德。重点是学生参与党团活 每一个知识点x∈0,1} 动、有关社团活动、公益劳动、志愿服务等的次 看种 数、持续时间。4)身心健康。重点是《国家学生 优点:能确知每个知识点的情况 体质健康标准》测试主要结果,体育运动特长项 不确定性描述: 目,参加体育运动的效果,应对困难和挫折的表 成绩1=90∈{0,1,2,…,100} 现等。5)社会实践。重点是学生参加实践活动的 100个知识点,每点1分 总共有=101种状态 理想试卷模型 优点:整体把握知识的掌握水平 次数、持续时间,形成的作品、调查报告等。这个 图8从试卷模型看确定性和不确定性的关系 评价模型就是“超级试卷模型”,它需要考察学生 Fig.8 A test paper model is used to illustrate the relation- 的5个关键信息,如果每个关键信息又分20方 ship between certainty and uncertainty 面,一共是100个方面(相当于100个1分题)。而 从更广泛的应用背景看,图8给出的“理想试 这100个方面又是根据学生过去在学校学习各种 卷模型”还可以嵌套升级成为“超级试卷模型”,即 课程的历次成绩、在社会实践和公益活动中的历 试卷中的每一道题可不是是/非题(原子题),而是 次表现、在科研活动中的创新性表现、本人的团 具有中间过渡分数的复杂题(分子题),相当于每 队精神、在经受挫折时表现出坚韧性、面试中获 一道1分的题都是一个像图8一样的“理想试卷 得的各种印象等组成(其中的每一个原子事件都 模型”,由100个原子题目组成,其得分可在0, 相当于0.01分题)。所以这个“超级试卷模型”也 0.01,0.02,…,0.99,1分之间变化。这种“超级试卷 是从原子信息开始评分的,不同的是评分者不是 模型”有什么用?用处太广泛着呢,它几乎无处不 一个人,而是由不同时期的负责人或任课老师一 在!如我国教育部正在考虑从幼升小到高考都要 级一级不断抽象上来的,大部分的中间分数已经 全面改革,把综合素质教育和评价纳入其中。在 反映在学生的档案材料之中,招生录取老师只是 高考录取中对学生综合素质评价的规定如下: 完成最后的分数汇总,一般不需要深入到原子信 1)学业水平。重点是学业水平考试成绩、选修课 息层面去了解详细细节。 程内容和学习成绩、研究性学习与创新成果等, 当然,要解决比原子信息处理层次更高的分 特别是具有优势的学科学习情况。2)艺术素养。 子信息处理问题,就需要抽象层次更高的柔性逻 重点是在音乐、美术、舞蹈、戏剧、戏曲、影视、书 辑和柔性神经元的参与,这是重新找回人工智能 法等方面表现出来的兴趣特长,参加艺术活动的 可解释性的理论关键
仅客观上无法避免不确定性,而且为了提高决策 效率需要忽略大量无关信息,主动引入不确定性。 不难理解:决策的抽象层次越高,涉及的知识粒 度越大,其中忽略的无关信息就越多,引入的不 确定性就越大。由此可见,在深度神经网络中, 有意无视逻辑和知识的作用是一种方向性错误。 一维刚性逻辑 二维刚性逻辑 四维刚性逻辑 1111 1110 1010 1101 1011 1001 0110 1100 1000 0010 0100 0000 0101 0001 0111 1111 1110 1101 1011 0111 0011 1100 1010 0110 0101 1000 0100 0010 三维刚性逻辑 0001 全序空间 全序空间 全序空间 全序空间 状态数 N=21 状态数 N=22 =4 状态数 N=23 =8 状态数 N=24 =16 10 00 01 11 111 111 110 110 100 100 101 101 010 010 011 011 001 001 000 000 偏序空间 偏序空间 一般规律:n 原子信息系统的偏序空间状态数是 N=2n , 全序空间状态数是 N=1+n 偏序空间 11 10 01 00 (a) 1 个原子 信息系统 (c) 3 个原子信息系统 (d) 4 个原子信息系统 (b) 2 个原子信息系统 1 0 图 7 从确定的原子状态进入不确定性的分子状态 Fig. 7 From the determined atomic state to the molecular state of uncertainty 确定性描述: 每一个知识点 xi∈{0, 1} 成绩 x=<x1 , x2 , …, xi ,…, x100> 总共有 N=2100 种状态 优点:能确知每个知识点的情况 不确定性描述: 成绩 x=90∈{0, 1, 2, …, 100} 总共有 N=101 种状态 优点:整体把握知识的掌握水平 100 个知识点,每点 1 分 理想试卷模型 图 8 从试卷模型看确定性和不确定性的关系 Fig. 8 A test paper model is used to illustrate the relationship between certainty and uncertainty 从更广泛的应用背景看,图 8 给出的“理想试 卷模型”还可以嵌套升级成为“超级试卷模型”,即 试卷中的每一道题可不是是/非题 (原子题),而是 具有中间过渡分数的复杂题 (分子题),相当于每 一道 1 分的题都是一个像图 8 一样的“理想试卷 模型”,由 100 个原子题目组成,其得分可在 0, 0.01, 0.02, ···, 0.99, 1 分之间变化。这种“超级试卷 模型”有什么用?用处太广泛着呢,它几乎无处不 在!如我国教育部正在考虑从幼升小到高考都要 全面改革,把综合素质教育和评价纳入其中。在 高考录取中对学生综合素质评价的规定如下: 1) 学业水平。重点是学业水平考试成绩、选修课 程内容和学习成绩、研究性学习与创新成果等, 特别是具有优势的学科学习情况。2) 艺术素养。 重点是在音乐、美术、舞蹈、戏剧、戏曲、影视、书 法等方面表现出来的兴趣特长,参加艺术活动的 成果等。3) 思想品德。重点是学生参与党团活 动、有关社团活动、公益劳动、志愿服务等的次 数、持续时间。4) 身心健康。重点是《国家学生 体质健康标准》测试主要结果,体育运动特长项 目,参加体育运动的效果,应对困难和挫折的表 现等。5) 社会实践。重点是学生参加实践活动的 次数、持续时间,形成的作品、调查报告等。这个 评价模型就是“超级试卷模型”,它需要考察学生 的 5 个关键信息,如果每个关键信息又分 20 方 面,一共是 100 个方面 (相当于 100 个 1 分题)。而 这 100 个方面又是根据学生过去在学校学习各种 课程的历次成绩、在社会实践和公益活动中的历 次表现、在科研活动中的创新性表现、本人的团 队精神、在经受挫折时表现出坚韧性、面试中获 得的各种印象等组成 (其中的每一个原子事件都 相当于 0.01 分题)。所以这个“超级试卷模型”也 是从原子信息开始评分的,不同的是评分者不是 一个人,而是由不同时期的负责人或任课老师一 级一级不断抽象上来的,大部分的中间分数已经 反映在学生的档案材料之中,招生录取老师只是 完成最后的分数汇总,一般不需要深入到原子信 息层面去了解详细细节。 当然,要解决比原子信息处理层次更高的分 子信息处理问题,就需要抽象层次更高的柔性逻 辑和柔性神经元的参与,这是重新找回人工智能 可解释性的理论关键。 第 3 期 何华灿:重新找回人工智能的可解释性 ·399·