第14卷第3期 智能系统学报 Vol.14 No.3 2019年5月 CAAI Transactions on Intelligent Systems May 2019 D0:10.11992/tis.201810020 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190425.1003.002.html 重新找回人工智能的可解释性 何华灿 (西北工业大学计算机学院,陕西西安710072) 摘要:针对深度神经网络AI研究的可解释性瓶颈,指出刚性逻辑(数理形式逻辑)和二值神经元等价,二值神 经网络可转换成逻辑表达式,有强可解释性。深度神经网络一味增加中间层数来拟合大数据,没有适时通过抽 象把最小粒度的数据(原子)变成粒度较大的知识(分子),再把较小粒度的知识变成较大粒度的知识,把原有的 强可解释性淹没在中间层次的汪洋大海中。要支持多粒度的知识处理,需把刚性逻辑扩张为柔性命题逻辑(命 题级数理辩证逻辑),把二值神经元扩张为柔性神经元,才能保持强可解释性。本文详细介绍了从刚性逻辑到 柔性逻辑的扩张过程和成果,最后介绍了它们在AI研究中的应用,这是重新找回AI研究强可解释性的最佳途径。 关键词:人工智能;可解释性;演化;不确定性;泛逻辑学;柔性命题逻辑;柔性神经元;数理辩证逻辑 中图分类号:TP18文献标志码:A 文章编号:1673-4785(2019)03-0393-20 中文引用格式:何华灿.重新找回人工智能的可解释性.智能系统学报,2019,14(3):393-412 英文引用格式:HE Huacan.Refining the interpretability of artificial intelligenceJ.CAAI transactions on intelligent systems,,20l9, 143:393-412. Refining the interpretability of artificial intelligence HE Huacan (School of Computer Science,Northwestern Polytechnical University,Xi'an 710072,China) Abstract:In view of the restrictions on the interpretability of artificial intelligence(AI)research on deep neural net- works,it is indicated that rigid logic (mathematical formal logic)and binary neurons are equivalent.Moreover,a binary neural network can be converted into a logical expression,which is highly interpretable.The deep neural network blindly increases the number of intermediate layers to fit big data without the timely abstraction of data with the smal- lest granularity(atom)into knowledge with larger granularity(molecule),changes knowledge with smaller granularity into knowledge with larger granularity,and submerges the original strong explanatory power in the ocean of intermedi- ate layers.To support knowledge processing of multiple granularities,rigid logic should be expanded into flexible pro- positional logic(proposition-level mathematical dialectic logic)and binary neurons should be expanded into flexible neurons to maintain the strong explanatory power.This paper introduces in detail the achievement of the expansion pro- cess from rigid logic to flexible logic and its application in Al research,which is the best method to recover the inter- pretability of Al. Keywords:artificial intelligence;interpretability;evolution;uncertainty;universal logic;flexible propositional logic; flexible neurons:mathematical dialectic logic 近十年来在大数据处理、云计算和深度神经 许多惊世骇俗的奇迹!不同于以往的两次高潮, 网络的推动下,人工智能从低谷走向了第三次发 这次世界各主要大国都纷纷制定国家战略,把 展高潮期,以AlphaGo为代表的研究成果创造了 AI列为未来争霸世界的国之重器:2017年7月 收稿日期:2018-10-17.网络出版日期:2019-04-25 20日国务院发布了《新一代人工智能发展规 基金项目:国家自然科学基金面上项目(60273087):西北工业 “大学基础研究基金重点项目(W18101). 划》,计划到2030年我国AI理论、技术和应用要 通信作者:何华灿.E-mail:hehuac@nwpu.edu.cn. 处于国际领先地位;紧接着2017年9月1日俄罗
DOI: 10.11992/tis.201810020 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190425.1003.002.html 重新找回人工智能的可解释性 何华灿 (西北工业大学 计算机学院,陕西 西安 710072) 摘 要:针对深度神经网络 AI 研究的可解释性瓶颈,指出刚性逻辑 (数理形式逻辑) 和二值神经元等价,二值神 经网络可转换成逻辑表达式,有强可解释性。深度神经网络一味增加中间层数来拟合大数据,没有适时通过抽 象把最小粒度的数据 (原子) 变成粒度较大的知识 (分子),再把较小粒度的知识变成较大粒度的知识,把原有的 强可解释性淹没在中间层次的汪洋大海中。要支持多粒度的知识处理,需把刚性逻辑扩张为柔性命题逻辑 (命 题级数理辩证逻辑),把二值神经元扩张为柔性神经元,才能保持强可解释性。本文详细介绍了从刚性逻辑到 柔性逻辑的扩张过程和成果,最后介绍了它们在 AI 研究中的应用,这是重新找回 AI 研究强可解释性的最佳途径。 关键词:人工智能;可解释性;演化;不确定性;泛逻辑学;柔性命题逻辑;柔性神经元;数理辩证逻辑 中图分类号:TP18 文献标志码:A 文章编号:1673−4785(2019)03−0393−20 中文引用格式:何华灿. 重新找回人工智能的可解释性[J]. 智能系统学报, 2019, 14(3): 393–412. 英文引用格式:HE Huacan. Refining the interpretability of artificial intelligence[J]. CAAI transactions on intelligent systems, 2019, 14(3): 393–412. Refining the interpretability of artificial intelligence HE Huacan (School of Computer Science, Northwestern Polytechnical University, Xi’an 710072, China) Abstract: In view of the restrictions on the interpretability of artificial intelligence (AI) research on deep neural networks, it is indicated that rigid logic (mathematical formal logic) and binary neurons are equivalent. Moreover, a binary neural network can be converted into a logical expression, which is highly interpretable. The deep neural network blindly increases the number of intermediate layers to fit big data without the timely abstraction of data with the smallest granularity (atom) into knowledge with larger granularity (molecule), changes knowledge with smaller granularity into knowledge with larger granularity, and submerges the original strong explanatory power in the ocean of intermediate layers. To support knowledge processing of multiple granularities, rigid logic should be expanded into flexible propositional logic (proposition-level mathematical dialectic logic) and binary neurons should be expanded into flexible neurons to maintain the strong explanatory power. This paper introduces in detail the achievement of the expansion process from rigid logic to flexible logic and its application in AI research, which is the best method to recover the interpretability of AI. Keywords: artificial intelligence; interpretability; evolution; uncertainty; universal logic; flexible propositional logic; flexible neurons; mathematical dialectic logic 近十年来在大数据处理、云计算和深度神经 网络的推动下,人工智能从低谷走向了第三次发 展高潮期,以 AlphaGo 为代表的研究成果创造了 许多惊世骇俗的奇迹!不同于以往的两次高潮, 这次世界各主要大国都纷纷制定国家战略,把 AI 列为未来争霸世界的国之重器:2017 年 7 月 20 日国务院发布了《新一代人工智能发展规 划》,计划到 2030 年我国 AI 理论、技术和应用要 处于国际领先地位;紧接着 2017 年 9 月 1 日俄罗 收稿日期:2018−10−17. 网络出版日期:2019−04−25. 基金项目:国家自然科学基金面上项目 (60273087);西北工业 大学基础研究基金重点项目 (W18101). 通信作者:何华灿. E-mail:hehuac@nwpu.edu.cn. 第 14 卷第 3 期 智 能 系 统 学 报 Vol.14 No.3 2019 年 5 月 CAAI Transactions on Intelligent Systems May 2019
·394· 智能系统学报 第14卷 斯总统普京强调“未来谁率先掌握了AI,谁就能 在其生命周期内反复学习提高、不断演化发展, 称霸世界”;2018年4月16日英国议会AI特别委 不会一成不变四。 员会发布报告认为,英国在AI方面有能力成为世 浪高 界领导者和AI创新中心;2018年4月25日欧盟 第三次浪潮 委员会计划2018一2020年在AI领域投资240亿 第二次浪潮① 美元,确保其世界领先地位:2018年5月10日美 第一次浪潮 国白宫为在未来的AI领域“确保美国第一”成立 了AI专门委员会。与此形成鲜明对照的是不少 1956196019701980199020002010年 著名的AI学者纷纷指出,当今AI已陷入概率关 联的泥潭,所谓深度学习的一切成就都不过是曲 图1人工智能学科和产业60年发展态势图 Fig.1 Development trend of the AI discipline and in- 线拟合而已,它是在用机器擅长的关联推理代替 dustry in 60 years 人类擅长的因果推理,这种“大数据小任务”的智 具体来看,AI学科的孕育和早期发展都是在 能模式并不能体现人类智能的真正含义,具有普 布尔信息处理级别上完成的,当时出现了两个不 适性的智能模式应该是“小数据大任务”。他们认 同但是相互等价的视角回:从逻辑角度看,人类智 为基于深度神经网络的AI是不能解释因而无法 理解的AI,如果人类过度依赖它并无条件地相信 能活动过程可用刚性逻辑(即数理形式逻辑、标 它,那将是十分危险的。特别是,在司法、法律、 准逻辑)的布尔算子组描述;从神经元角度看,人 医疗、金融、自动驾驶、自主武器等人命关天的领 脑的智能活动过程可用二值神经元的MP模型描 域,更是要慎之又慎,千万不能放任自流。基于 述。布尔逻辑算子组由英国数学家G.Boole于 这个大的认识和反思背景,本文拟集中讨论为什 1854年在《思维规律》中提出:任意x,y,二∈{0, 么深度神经网络会让人工智能研究丧失可解释 1},非算子一x=1-x,与算子xAy=T[x+y-1],或算 性?我们如何才能重新找回人工智能研究的可解 子xV=T[x+y,蕴涵算子x→=T[-x+y-1]。其中 释性?文中所涉及的“可解释性”满足一种强定 z=「[v]是0,1限幅函数,当v<0时=0,当>1时 义:它要求从前提到结论的推理全过程都能用理 =1;否则=v。二值神经元模型MP(又称感知机, 论上成熟可靠的逻辑语言描述清楚。 阈元)由心理学家McCulloch和数学家W.Pitts 于1943年共同提出,是一种最简单的神经元模 1现今的人工智能研究何以会失去 型(见图2),依靠带阈值的0,1限幅运算=「[a+b- 可解释性 ©可以完成各种二值信息变换过程,其中x,y∈{0, 1.1原本二值神经元与布尔逻辑算子是完全等 1}是输入变量,z∈{0,1}是输出变量,a是输入 价的 x的连接权系数,b是输入y的连接权系数,e是神 人工智能学科和产业已走过整整一个甲子的 经元的激活阈值,△1是神经元的处理延迟时间。 成长之路,图1是这60年AI发展的整体态势示 细胞壁 限辐器 意图,其中:曲线①是主波,它说明人类社会已不 國值 整和器 可逆转地进入到信息社会,智能化是当今时代的 主旋律,它必然会扶摇直上九重天,势不可挡;曲 线②是叠加在主波上的次波,它说明各个时期推 延迟△1 1+△ 二值神经元的内部结构 动AI走向发展高潮的基本原理和关键技术,虽然 图2二值神经元的MP模型 在一定范围内能够解决某些智能模拟问题,效果 Fig.2 MP model of two valued neurons 突出,但是一旦把它推广到更大范围使用时,因 对只有1个输入和1个输出的神经元=x), 缺乏人类智能活动的某些重要属性,效果会立马 x,z∈{0,1}来说,只有4个可能的排列组合状态 下降,甚至闹出大笑话。这说明,人的智能活动 (称为信息处理模式):=fo(x)三0;=f(x)=x; 并不是由几个确定性因素决定的简单信息处理过 =f(x)=1-x,=(x)归1。这4种神经元信息处理模 程,而是由众多不确定性因素参与的复杂信息处 式都有对应的刚性逻辑表达式:=0=x∧一x; 理过程,广泛存在非线性涌现效应。所以研究 xx;=xVxo A是一个由点到面、由浅入深、长期试错、不断 在研究一个神经元内部信息处理模式时,没 发现、不断完善的演化过程,任何AI产品都需要 有必要考虑神经元的多输出问题,因为它只关系
斯总统普京强调“未来谁率先掌握了 AI,谁就能 称霸世界”;2018 年 4 月 16 日英国议会 AI 特别委 员会发布报告认为,英国在 AI 方面有能力成为世 界领导者和 AI 创新中心;2018 年 4 月 25 日欧盟 委员会计划 2018—2020 年在 AI 领域投资 240 亿 美元,确保其世界领先地位;2018 年 5 月 10 日美 国白宫为在未来的 AI 领域“确保美国第一”成立 了 AI 专门委员会。与此形成鲜明对照的是不少 著名的 AI 学者纷纷指出,当今 AI 已陷入概率关 联的泥潭,所谓深度学习的一切成就都不过是曲 线拟合而已,它是在用机器擅长的关联推理代替 人类擅长的因果推理,这种“大数据小任务”的智 能模式并不能体现人类智能的真正含义,具有普 适性的智能模式应该是“小数据大任务”。他们认 为基于深度神经网络的 AI 是不能解释因而无法 理解的 AI,如果人类过度依赖它并无条件地相信 它,那将是十分危险的。特别是,在司法、法律、 医疗、金融、自动驾驶、自主武器等人命关天的领 域,更是要慎之又慎,千万不能放任自流。基于 这个大的认识和反思背景,本文拟集中讨论为什 么深度神经网络会让人工智能研究丧失可解释 性?我们如何才能重新找回人工智能研究的可解 释性?文中所涉及的“可解释性”满足一种强定 义:它要求从前提到结论的推理全过程都能用理 论上成熟可靠的逻辑语言描述清楚。 1 现今的人工智能研究何以会失去 可解释性 1.1 原本二值神经元与布尔逻辑算子是完全等 价的 人工智能学科和产业已走过整整一个甲子的 成长之路,图 1 是这 60 年 AI 发展的整体态势示 意图,其中:曲线①是主波,它说明人类社会已不 可逆转地进入到信息社会,智能化是当今时代的 主旋律,它必然会扶摇直上九重天,势不可挡;曲 线②是叠加在主波上的次波,它说明各个时期推 动 AI 走向发展高潮的基本原理和关键技术,虽然 在一定范围内能够解决某些智能模拟问题,效果 突出,但是一旦把它推广到更大范围使用时,因 缺乏人类智能活动的某些重要属性,效果会立马 下降,甚至闹出大笑话。这说明,人的智能活动 并不是由几个确定性因素决定的简单信息处理过 程,而是由众多不确定性因素参与的复杂信息处 理过程,广泛存在非线性涌现效应。所以研究 AI 是一个由点到面、由浅入深、长期试错、不断 发现、不断完善的演化过程,任何 AI 产品都需要 在其生命周期内反复学习提高、不断演化发展, 不会一成不变[1]。 1956 1960 1970 1980 1990 2000 2010 年 浪高 第一次浪潮 第二次浪潮 第三次浪潮 ① ② 图 1 人工智能学科和产业 60 年发展态势图 Fig. 1 Development trend of the AI discipline and industry in 60 years 具体来看,AI 学科的孕育和早期发展都是在 布尔信息处理级别上完成的,当时出现了两个不 同但是相互等价的视角[2] :从逻辑角度看,人类智 能活动过程可用刚性逻辑 (即数理形式逻辑、标 准逻辑) 的布尔算子组描述;从神经元角度看,人 脑的智能活动过程可用二值神经元的 MP 模型描 述。布尔逻辑算子组由英国数学家 G.Boole 于 1854 年在《思维规律》中提出:任意 x, y, z∈{0, 1}, 非算子¬x=1−x, 与算子 x∧y=Γ[x+y−1], 或算 子 x∨y=Γ[x+y], 蕴涵算子 x→y=Γ[−x+y−1]。其中 z=Γ[v]是 0,1 限幅函数,当 v<0 时 z=0,当 v>1 时 z=1; 否则 z=v。二值神经元模型 MP(又称感知机, 阈元) 由心理学家 McCulloch 和数学家 W.Pitts 于 1943 年共同提出,是一种最简单的神经元模 型 (见图 2),依靠带阈值的 0,1 限幅运算 z=Γ[ax+by− e]可以完成各种二值信息变换过程,其中 x, y∈{0, 1}是输入变量,z∈{0, 1}是输出变量,a 是输入 x 的连接权系数,b 是输入 y 的连接权系数,e 是神 经元的激活阈值,Δt 是神经元的处理延迟时间。 x y t a b by ax 权 值 e −e 阈值 整和器 ax+by−e v 延迟 Δt Γ [v] 1 0 z 细胞壁 限幅器 输出 输入 二值神经元的内部结构 t+Δt 图 2 二值神经元的 MP 模型 Fig. 2 MP model of two valued neurons 对只有 1 个输入和 1 个输出的神经元 z=f(x), x, z∈{0, 1}来说,只有 4 个可能的排列组合状态 (称为信息处理模式 ): z=f 0 ( x )≡0; z=f 1 ( x ) =x ; z=f2 (x)=1−x; z=f3 (x)≡1。这 4 种神经元信息处理模 式都有对应的刚性逻辑表达式: z≡0=x∧¬x ; z=x; z=¬x;z≡1=x∨¬x。 在研究一个神经元内部信息处理模式时,没 有必要考虑神经元的多输出问题,因为它只关系 ·394· 智 能 系 统 学 报 第 14 卷
第3期 何华灿:重新找回人工智能的可解释性 ·395· 到一个神经元的输出:将被多少个别的神经元共 16种不同的信息处理模式=0,1,2,3,,15,这 享,与本神经元内部的信息处理模式毫无关系。 16种信息处理模式的0,1限幅运算表达式 有2个输入和1个输出的神经元=x,y),x, =T[ar+by-e],不论对于布尔逻辑算子还是二值神 y,z∈{0,1}比较典型,是我们研究的重点,因为其 经元来说,都是完全相同的(传统的真值表表示 他更多输入的神经元,都可以转化为2个输入神 法掩盖了这个等价关系),谁也没比对方多提供更 经元组成的神经网络,如:=x1,,x3广x,), 多的信息处理能力。所以不难得出:刚性逻辑的 x3,x1,x2,x3,z∈{0,1};=x1,x2,x3,x4)=ffx1,x2), 布尔算子组和二值神经元MP模型具有相同的计 x,x),x1,,,x4,z∈{0,1}。其他以此类推,所 算公式,两者完全等价,详细细节见图3。以后将 以证明了两输入布尔信息处理的完备性就等于证 把模式状态参数<a,b,e>作为区分不同信息处理 明了任意多输入布尔信息处理的完备性。对2输 模式的标志性参数使用,通过计算=T[ar+by-e] 入神经元=x,y),x,y,二∈{0,1}来说,总共只有 可唯一确定一个二值神经元或者布尔算子组。 数据关系 数据模式 神经元描述 逻辑描述 =F,ie0,1,2,…,15 ==Tax+by-e] 00-(0,0%0=(0,1)0-1,0)0-1,1) <a,be>=<0,0,0 0 恒假 神经元 ①1=(0,0,0=(0,1)0=(1,0):0=1,1) <a,b,>=<-l,-1,-l =(xVy) 非或 00,0 ②0-0,0%1=0,10-1,0):01,1) <a,be>=<-l,1,0> =一0一x)非蕴含2 1=0,0) ③1=0,01=0,10(1,00=1,) <a,b,>=<-l,0,-l X 非x ④0=(0,0%0=(0,151=1,0):0=1,1) <a,b,e>=<1,-l,0> =一x→y) 非蕴含1 0 00.1) ⑤1=0,0贴0-0,151=1,0):0=1,) <a,b,e>=<1-l,-1 Y 非y 10,1) ⑥0=(0,0贴1=0,1k1=(1,0):0-1,1) 组合实现r-川 2=一x→y) 非等价 ⑦1=(0,0%1=(0,11=1,0):0-1,1) <a,b,e>=<-l,-l,2 =(xAy) 非与 0 80-0,0%,0-(0,10-1,0:1=(1,1) <a,b,e>=<L,1,l> -=xAy 与 1.0 ⑨1=(0,00=(0,10=1,01=-1,1) 组合实现1-r-川 =xy 等价 11,0) O0=(0,0吵1=0,10气1,0y1=(1,1) <a,b,e>=<0,l,0> y 恒y ①1=0,0:1=0,101,01=1,1) <a,b,e>=<-l,1,-1> x-y 蕴含1 ②0=(0,0),0=(0,10=1,0y1=1,1) <a,b,e2=<1,0,0> 恒x 1-1,1) ③1=0,00=0,111,01=1, <a,b,e>=<1,-l,-l> x 蕴含2 ④0-(0,0%1=0,111,01-(1,I) <a,b,e>=<1,1,0> =xVy 或 1=(0,0:1=0,151=1,01-1,1) <a,be>=<l,1,-l> 恒真 图3刚性逻辑算子和MP神经元模型等价 Fig.3 Equivalence of the rigid logic operator and MP neuron model 显然,上述的等价关系可推广到由任意基本 1.2当前人工智能研究失去可解释性的原因 单元组成的复杂网络之中,下面通过一个实例来 数学理论和计算机的软硬件设计原理都是严 说明:如果有一个复杂的刚性命题逻辑表达式 格按照刚性逻辑建立的,不曾有半点逾越。可是 F=(pVq)A(qVr)A(pVr),它可用一些逻 人工智能学科的诞生却是因为计算机科学中出现 辑算子组成的逻辑网络来描述(见图4(a),一定存 了“算法危机而促成的!传统计算机应用都遵 在一个由二值神经元组成的神经网络与之对应 循“数学+计算机程序”的信息处理模式,要解决任 (见图4(b),两者使用的0,1限幅运算公式= 何一个问题都必须满足3个先决条件:1)能找到 T[ar+by-e]完全对应相同。 该问题中输入和输出之间的数量关系,建立数学 模型;2)能找到该数学模型的算法解;3)根据算 四 法解能编制出在计算机上可实际运行的程序。上 回白回包 述3点都没有逾越刚性逻辑的约束,但是理论计 算机科学家研究发现:1)人脑思维中的大部分智 (a)由刚性逻辑算子 (b)由二值神经元组成 组成的网络 的网络 能活动无法建立数学模型:2)能找到的数学模型 大部分都不存在算法解;3)能找到的算法解大部 图4逻辑网络和神经网络等价的一个实例 Fig.4 An example of the equivalence between logical and 分都是指数型的,实际不可计算。为什么人脑智 neural networks 能可以解决的问题,数学+计算机程序的模式却
到一个神经元的输出 z 将被多少个别的神经元共 享,与本神经元内部的信息处理模式毫无关系。 有 2 个输入和 1 个输出的神经元 z=fi (x, y), x, y, z∈{0, 1}比较典型,是我们研究的重点,因为其 他更多输入的神经元,都可以转化为 2 个输入神 经元组成的神经网络,如:z=f(x1 , x2 , x3 )=fj (fi (x1 , x2 ), x3 ), x1 , x2 , x3 , z∈{0, 1}; z=f(x1 , x2 , x3 , x4 )=fk (fi (x1 , x2 ), fj (x3 , x4 )), x1 , x2 , x3 , x4 , z∈{0, 1}。其他以此类推,所 以证明了两输入布尔信息处理的完备性就等于证 明了任意多输入布尔信息处理的完备性。对 2 输 入神经元 z=fi (x, y), x, y, z∈{0, 1}来说,总共只有 16 种不同的信息处理模式 i=0, 1, 2, 3, ···, 15,这 1 6 种信息处理模式 的 0 , 1 限幅运算表达 式 z=Γ[ax+by−e],不论对于布尔逻辑算子还是二值神 经元来说,都是完全相同的 (传统的真值表表示 法掩盖了这个等价关系),谁也没比对方多提供更 多的信息处理能力。所以不难得出:刚性逻辑的 布尔算子组和二值神经元 MP 模型具有相同的计 算公式,两者完全等价,详细细节见图 3。以后将 把模式状态参数<a, b, e>作为区分不同信息处理 模式的标志性参数使用,通过计算 z=Γ[ax+by−e] 可唯一确定一个二值神经元或者布尔算子组。 数据关系 神经元 x x x y y y y z z=Fi (x, y) iϵ{0, 1, 2,…, 15} z=Γ[ax+by−e] z z x y z z z z 0 0 0 0=(0, 0); 0=(0, 1);0=(1, 0):0=(1, 1) z≡0 恒假 非或 非蕴含 2 非 x 非 y 非等价 非与 与 等价 恒 y 蕴含 1 蕴含 2 或 恒真 恒 x 非蕴含 1 z≡1 z=¬(x∨y) z=¬(xΛy) z=¬(x→y) z=xΛy z=x↔y z=y z=x→y z=x z=y→x z=x∨y z=¬(x↔y) z=¬y z=¬(y→x) z=¬x <a, b, e>=<−1, −1, −1> <a, b, e>=<0, 0, 0> <a, b, e>=<−1, 1, 0> <a, b, e>=<−1, 0, −1> <a, b, e>=<1, −1, 0> <a, b, e>=<1, −1, −1> <a, b, e>=<−1, −1, 2> 组合实现|x−y| 组合实现1−|x−y| <a, b, e>=<1, 1, 1> <a, b, e>=<0, 1, 0> <a, b, e>=<−1, 1, −1> <a, b, e>=<1, 0, 0> <a, b, e>=<1, −1, −1> <a, b, e>=<1, 1, 0> <a, b, e>=<1, 1, −1> 1=(0, 0); 0=(0, 1);0=(1, 0):0=(1, 1) 0=(0, 0); 1=(0, 1);0=(1, 0):0=(1, 1) 1=(0, 0); 1=(0, 1);0=(1, 0):0=(1, 1) 0=(0, 0); 0=(0, 1);1=(1, 0):0=(1, 1) 1=(0, 0); 0=(0, 1);1=(1, 0):0=(1, 1) 0=(0, 0); 1=(0, 1);1=(1, 0):0=(1, 1) 1=(0, 0); 1=(0, 1);1=(1, 0):0=(1, 1) 0=(0, 0); 0=(0, 1);0=(1, 0):1=(1, 1) 1=(0, 0); 0=(0, 1);0=(1, 0):1=(1, 1) 0=(0, 0);1=(0, 1);0=(1, 0):1=(1, 1) 1=(0, 0);1=(0, 1);0=(1, 0):1=(1, 1) 0=(0, 0);0=(0, 1);0=(1, 0):1=(1, 1) 1=(0, 0);0=(0, 1);1=(1, 0):1=(1, 1) 0=(0, 0);1=(0, 1);1=(1, 0):1=(1, 1) 1=(0, 0);1=(0, 1);1=(1, 0):1=(1, 1) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 0 0 1 1 1 1 1 1 1 0=(0, 0) 1=(0, 0) 0=(0, 1) 1=(0, 1) 0=(1, 0) 1=(1, 0) 0=(1, 1) 1=(1, 1) 0 0 数据模式 神经元描述 逻辑描述 逻辑 模式 图 3 刚性逻辑算子和 MP 神经元模型等价 Fig. 3 Equivalence of the rigid logic operator and MP neuron model 显然,上述的等价关系可推广到由任意基本 单元组成的复杂网络之中,下面通过一个实例来 说明:如果有一个复杂的刚性命题逻辑表达式 F=((p∨q)∧(¬q∨r))∧(¬p∨¬r),它可用一些逻 辑算子组成的逻辑网络来描述 (见图 4(a)), 一定存 在一个由二值神经元组成的神经网络与之对应 (见图 4(b)),两者使用的 0,1 限幅运算公式 z= Γ[ax+by−e]完全对应相同。 F F 1 1 −1 −1 −1−1 −1 −1 1 1 1 1 0 1 1 0 1 1 0 1 1 ∧ ∨ ∨ ∨ ¬ ¬ ¬ ∧ p q (a) 由刚性逻辑算子 组成的网络 (b) 由二值神经元组成 的网络 r p q r 图 4 逻辑网络和神经网络等价的一个实例 Fig. 4 An example of the equivalence between logical and neural networks 1.2 当前人工智能研究失去可解释性的原因 数学理论和计算机的软硬件设计原理都是严 格按照刚性逻辑建立的,不曾有半点逾越。可是 人工智能学科的诞生却是因为计算机科学中出现 了“算法危机” [3]而促成的!传统计算机应用都遵 循“数学+计算机程序”的信息处理模式,要解决任 何一个问题都必须满足 3 个先决条件:1) 能找到 该问题中输入和输出之间的数量关系,建立数学 模型;2) 能找到该数学模型的算法解;3) 根据算 法解能编制出在计算机上可实际运行的程序。上 述 3 点都没有逾越刚性逻辑的约束,但是理论计 算机科学家研究发现:1) 人脑思维中的大部分智 能活动无法建立数学模型;2) 能找到的数学模型 大部分都不存在算法解;3) 能找到的算法解大部 分都是指数型的,实际不可计算。为什么人脑智 能可以解决的问题,数学+计算机程序的模式却 第 3 期 何华灿:重新找回人工智能的可解释性 ·395·
·396· 智能系统学报 第14卷 解决不了?这说明计算机仅仅依靠“数学+计算机 百层甚至几千层来拟合海量数据,根本忘记了二 程序”的模式还不够聪明和有用,人工智能学科的 值神经元和布尔逻辑算子原本具有等价关系的基 创始人希望通过对人脑智能活动规律的研究和模 本属性。深度神经网络这种不惜一切代价取得的 拟,来克服上述“算法危机”,使计算机更聪明和 成功,反过来鼓励一些学者产生臆想:“深度神经 有用。这就是狭义人工智能学科诞生的原由。由 网络的中间层次越多,获得的结果会越精准!”, 此可见,当时的科学家已经发现,仅仅依靠数 而且“神经网络是无需逻辑和知识的智能,没有发 学+程序是无法模拟人脑智能的。人工智能工作 展瓶颈”。这种盲目乐观的思潮弥漫在当今的人 者最早发现的智能因素就是带有经验色彩的“启 工智能学界,似乎现在的深度神经网络能够把第 发式搜索原理”,它对刚性逻辑的有效使用具有必 三次浪潮一直推动下去,它是人工智能学科发展 不可少的辅助作用。进而人们又通过专家系统的 的最终方向! 成功发现,各专门领域中通过经验归纳形成的专 “物极必反”是自然的一条重要发展规律,在 家知识,它们虽然不满足刚性逻辑的约束,却是 盲目乐观思潮弥漫的今天,已有一些著名的人工 “人更聪明”的重要因素,验证了“知识就是力量” 智能学者在讨论现有人工智能面临的局限性: 的真理。 1)有智能没有智慧,无意识和悟性,缺乏综合决 20世纪80年中期代爆发的人工智能“理论危 策能力:2)有智商没有情商,机器对人的情感理 机”无情地揭露了刚性逻辑、启发式搜索原理和 解与交流还处于起步阶段;3)会计算不会“算 经验知识推理的应用局限性:首先,刚性逻辑本 计”,人工智能可谓有智无心,更无人类的谋略: 身的推理效率十分低下,如果没有启发式知识的 4)有专才无通才,会下围棋的不会下象棋。归纳 引导,单纯机械式地按照刚性逻辑的规则进行推 起来说,目前人工智能发展正面临着六大发展瓶 理,算法的指数复杂度必然带来组合爆炸,计算 颈:1)数据瓶颈,需要海量的有效数据支撑:2)泛 机的时空资源迅速被吞噬殆尽;其次,在启发式 化瓶颈,深度学习的结果难于推广到一般情况; 搜索和经验知识推理中,客观存在的各种不确定 3)能耗瓶颈,大数据处理和云计算的能耗巨大: 性和演化过程都超出了刚性逻辑的有效适用范 4)语义鸿沟瓶颈,在自然语言处理中存在语义理 围,尽管出现了一些非标准逻辑(如模糊逻辑、概 解鸿沟:5)可解释性瓶颈,人类无法知道深度神 率逻辑和有界逻辑等)能解决某些实际问题,但 经网络结果中的因果关系:6)可靠性瓶颈,无法 有时会出现违反常识的异常结果,这说明非标准 确认人工智能结果的可靠性。由此可知,人工智 逻辑在理论上并不成熟可靠,无法在人工智能中 能的发展正面临又一次的发展瓶颈,本文统称为 安全可靠地使用。要有效解决包含各种不确定性 和演化的现实问题,只能寄希望于尽快建立数理 “可解释性瓶颈”。这些应用局限性和发展瓶颈对 辩证逻辑理论体系,可是在当时的情况下,学术 于人类智能来说并不明显存在,为什么却在当今 界的思想和理论准备都严重不足,建立数理辩证 的人工智能研究中成了难以逾越的巨大困难?笔 逻辑谈何容易! 者认为这些困难是由无视逻辑和知识在智能中的 在这种数理辩证逻辑严重缺位的背景下,人 重要价值,过度依赖数据统计和深度神经网络引 工智能研究的主流不得不偏离刚性逻辑和经验性 起的。 知识推理的老方向,转入到完全不依赖逻辑和经 2011年图灵奖得主Judea Pearl是曾在20世 验知识支撑,仅仅依靠数据统计的神经网络、计 纪80年代推动机器以概率(贝叶斯网络)方式进 算智能、多Agent和统计机器学习的新方向。应 行推理的领头人,现在他却指出:深度学习所取 该说这个研究新方向的出现也是具有积极意义 得的所有成就都只是根据(有效)数据进行的曲 的,它体现了人类智能另外的某些特征,能够有 线拟合,AI已陷入概率关联泥潭,它不能完全体 效地解决一些智能模拟问题,所以曾经推动人工 现智能的真正含义。跳出泥潭的关键措施是用因 智能的发展进入第二次高潮。后来人们为了克服 果推理来代替关联推理,在AI中一旦因果关系就 神经网络、计算智能、多Agent和统计机器学习中 位,机器就有可能提出反事实问题,询问因果关 的“局部极值”瓶颈,又在深度学习和深度神经网 系在某些干预下会如何变化,这才是科学思考的 络中,依靠大数据和云计算,不惜耗费巨大的计 基础。所以只有因果推理才能使机器具有类人智 算资源,义无反顾地连续使用数据统计法来增加 能,有效地与人类交流互动。也只有这样,机器 神经网络的中间层次,从几层、几十层增加到几 才能获得道德实体的地位,具有自由意志和运用
解决不了?这说明计算机仅仅依靠“数学+计算机 程序”的模式还不够聪明和有用,人工智能学科的 创始人希望通过对人脑智能活动规律的研究和模 拟,来克服上述“算法危机”,使计算机更聪明和 有用。这就是狭义人工智能学科诞生的原由。由 此可见,当时的科学家已经发现,仅仅依靠数 学+程序是无法模拟人脑智能的。人工智能工作 者最早发现的智能因素就是带有经验色彩的“启 发式搜索原理”,它对刚性逻辑的有效使用具有必 不可少的辅助作用。进而人们又通过专家系统的 成功发现,各专门领域中通过经验归纳形成的专 家知识,它们虽然不满足刚性逻辑的约束,却是 “人更聪明”的重要因素,验证了“知识就是力量” 的真理。 20 世纪 80 年中期代爆发的人工智能“理论危 机”无情地揭露了刚性逻辑、启发式搜索原理和 经验知识推理的应用局限性:首先,刚性逻辑本 身的推理效率十分低下,如果没有启发式知识的 引导,单纯机械式地按照刚性逻辑的规则进行推 理,算法的指数复杂度必然带来组合爆炸,计算 机的时空资源迅速被吞噬殆尽;其次,在启发式 搜索和经验知识推理中,客观存在的各种不确定 性和演化过程都超出了刚性逻辑的有效适用范 围,尽管出现了一些非标准逻辑 (如模糊逻辑、概 率逻辑和有界逻辑等) 能解决某些实际问题,但 有时会出现违反常识的异常结果,这说明非标准 逻辑在理论上并不成熟可靠,无法在人工智能中 安全可靠地使用。要有效解决包含各种不确定性 和演化的现实问题,只能寄希望于尽快建立数理 辩证逻辑理论体系,可是在当时的情况下,学术 界的思想和理论准备都严重不足,建立数理辩证 逻辑谈何容易! 在这种数理辩证逻辑严重缺位的背景下,人 工智能研究的主流不得不偏离刚性逻辑和经验性 知识推理的老方向,转入到完全不依赖逻辑和经 验知识支撑,仅仅依靠数据统计的神经网络、计 算智能、多 Agent 和统计机器学习的新方向。应 该说这个研究新方向的出现也是具有积极意义 的,它体现了人类智能另外的某些特征,能够有 效地解决一些智能模拟问题,所以曾经推动人工 智能的发展进入第二次高潮。后来人们为了克服 神经网络、计算智能、多 Agent 和统计机器学习中 的“局部极值”瓶颈,又在深度学习和深度神经网 络中,依靠大数据和云计算,不惜耗费巨大的计 算资源,义无反顾地连续使用数据统计法来增加 神经网络的中间层次,从几层、几十层增加到几 百层甚至几千层来拟合海量数据,根本忘记了二 值神经元和布尔逻辑算子原本具有等价关系的基 本属性。深度神经网络这种不惜一切代价取得的 成功,反过来鼓励一些学者产生臆想:“深度神经 网络的中间层次越多,获得的结果会越精准!”, 而且“神经网络是无需逻辑和知识的智能,没有发 展瓶颈”。这种盲目乐观的思潮弥漫在当今的人 工智能学界,似乎现在的深度神经网络能够把第 三次浪潮一直推动下去,它是人工智能学科发展 的最终方向! “物极必反”是自然的一条重要发展规律,在 盲目乐观思潮弥漫的今天,已有一些著名的人工 智能学者在讨论现有人工智能面临的局限性[4] : 1) 有智能没有智慧,无意识和悟性,缺乏综合决 策能力;2) 有智商没有情商,机器对人的情感理 解与交流还处于起步阶段; 3) 会计算不会“算 计”,人工智能可谓有智无心,更无人类的谋略; 4) 有专才无通才,会下围棋的不会下象棋。归纳 起来说,目前人工智能发展正面临着六大发展瓶 颈:1) 数据瓶颈,需要海量的有效数据支撑;2) 泛 化瓶颈,深度学习的结果难于推广到一般情况; 3) 能耗瓶颈,大数据处理和云计算的能耗巨大; 4) 语义鸿沟瓶颈,在自然语言处理中存在语义理 解鸿沟;5) 可解释性瓶颈,人类无法知道深度神 经网络结果中的因果关系;6) 可靠性瓶颈,无法 确认人工智能结果的可靠性。由此可知,人工智 能的发展正面临又一次的发展瓶颈,本文统称为 “可解释性瓶颈”。这些应用局限性和发展瓶颈对 于人类智能来说并不明显存在,为什么却在当今 的人工智能研究中成了难以逾越的巨大困难?笔 者认为这些困难是由无视逻辑和知识在智能中的 重要价值,过度依赖数据统计和深度神经网络引 起的。 2011 年图灵奖得主 Judea Pearl 是曾在 20 世 纪 80 年代推动机器以概率 (贝叶斯网络) 方式进 行推理的领头人,现在他却指出:深度学习所取 得的所有成就都只是根据 (有效) 数据进行的曲 线拟合,AI 已陷入概率关联泥潭,它不能完全体 现智能的真正含义。跳出泥潭的关键措施是用因 果推理来代替关联推理,在 AI 中一旦因果关系就 位,机器就有可能提出反事实问题,询问因果关 系在某些干预下会如何变化,这才是科学思考的 基础。所以只有因果推理才能使机器具有类人智 能,有效地与人类交流互动。也只有这样,机器 才能获得道德实体的地位,具有自由意志和运用 ·396· 智 能 系 统 学 报 第 14 卷
第3期 何华灿:重新找回人工智能的可解释性 ·397· 人类谋略的能力。 人类智能的第二个重要特征是:为有效管理 1.3重温人类智慧的两个重要特征 和使用已知的各种知识,必须把它们分门别类地 人类智能的第一个重要特征是:在智能活动 一层一层向上分类、归纳、抽象,形成由不同粒度 中需要机动灵活且恰如其分地使用各种行之有效 知识组成的多层次网状结构。比如大家熟悉的地 的方法,相互配合起来才能取得事半功倍的效 图知识,在范围最小的村落里,每户人家可是一 果。例如:人在识别汉字的过程中,会合理使用 个原子结点,它们通过原子道路相互连通。图5 数据统计法和结构分析法(逻辑关系)于不同场 是一个高度简化了的村落级地图,图中用5个原 合,以便获得最佳识别效果。又如:在认识汉字 子结点代表有限n户人家,用全互连图代表原子 的基本笔划(如、一、「、ノ、、)阶段,最有效 道路的分布状况(w,=1表示此路通畅,w,=0表示 的方法是图像数据统计法,而在此基础上进一步 此路不通),形成了一个村落内部的刚性关系网 有效区分不同的汉字(如一、二、三、十、土、王、 络。利用这个关系网络可以解决村落内部的各种 玉、五、八、人、人、大、太、天、夫等)阶段,最有 交通路径规划问题,图5中画出来的因果决策树 效的方法则是结构分析法(逻辑关系),如果一味 就是为规划“从d家到a家”去做客的最佳路径规 使用图像数据统计法一竿子插到底,在区分复杂 划,它可根据任务从刚性关系网络中诱导出来, 结构的汉字(如逼、逋、迥、遒)时,速度和识别率 并按照道路的实时通畅情况,选择完成任务的最 会严重下降,事倍功半。 佳路径。 1+a W ★原子结点 任务:从d点到a点的最佳路径。约束:,∈0,1} (a)易管理空间的背景关系网 (b)表示因果关系的与/域决策树 图5村落地图和与或决策树 Fig.5 Village map and AND/OR decision tree 这个决策过程可用刚性逻辑或二值神经网络 一个实际难解、解了也无法说清楚的笨方法。人 来实现:1)决策树中有16条不同的路径可供选 类使用的有效方法是:在有关村落级地图的基础 择,彼此之间是“或”的关系,即只要有一条路径 上,进一步利用粒度更大的乡镇级地图(其中的 畅通这个问题就有解;2)如果一条路径经过的所 观察粒度增大到一个村落)和地市级地图(其中 有边都是畅通的,则这条路径是畅通的,即同一 的观察粒度增大到一个乡镇)来分层次地逐步解 个路径中经过的不同边之间是“与”的关系;3)在 决“从d"镇d'村d家到a"镇a'村a家”的最佳路径 多条路径都畅通时,选择经过边数最少的路径为 规划问题(见图6)。 “最佳解”。 在一个自然村落范围内,上述用原子级关系 网络诱导出与/或决策树来寻找最佳路径的过程 是绝对有效的,并在理论上有刚性逻辑和二值神 经网络的支撑。那么,是否能够无限制扩大这种 绝对有效方法的应用范围呢?人类的社会实践早 已做出了否定的回答,因为随着决策范围的不断 一级分子结点 二级分子结点 扩大,涉及的原子信息(结点和边)会成几何级数 (a)乡镇地图 b)城市地图 地增多,其中绝大部分是与待解问题毫无关系的 图6乡镇地图和地市地图的简化表示 因素,如果把它们全部牵扯进来,不仅于事无补, Fig.6 Simplified representation of district map and muni- 反而使问题的复杂度成几何级数快速增大,成为 cipal map
人类谋略的能力。 1.3 重温人类智慧的两个重要特征 人类智能的第一个重要特征是:在智能活动 中需要机动灵活且恰如其分地使用各种行之有效 的方法,相互配合起来才能取得事半功倍的效 果。例如:人在识别汉字的过程中,会合理使用 数据统计法和结构分析法 (逻辑关系) 于不同场 合,以便获得最佳识别效果。又如:在认识汉字 的基本笔划 (如︑、ー、〡、ノ、ヽ) 阶段,最有效 的方法是图像数据统计法,而在此基础上进一步 有效区分不同的汉字 (如一、二、三、十、土、王、 玉、五、八、人、入、大、太、天、夫等) 阶段,最有 效的方法则是结构分析法 (逻辑关系),如果一味 使用图像数据统计法一竿子插到底,在区分复杂 结构的汉字 (如逼、逋、迥、遒) 时,速度和识别率 会严重下降,事倍功半。 人类智能的第二个重要特征是:为有效管理 和使用已知的各种知识,必须把它们分门别类地 一层一层向上分类、归纳、抽象,形成由不同粒度 知识组成的多层次网状结构。比如大家熟悉的地 图知识,在范围最小的村落里,每户人家可是一 个原子结点,它们通过原子道路相互连通。图 5 是一个高度简化了的村落级地图,图中用 5 个原 子结点代表有限 n 户人家,用全互连图代表原子 道路的分布状况 (wi=1 表示此路通畅,wi=0 表示 此路不通),形成了一个村落内部的刚性关系网 络。利用这个关系网络可以解决村落内部的各种 交通路径规划问题,图 5 中画出来的因果决策树 就是为规划“从 d 家到 a 家”去做客的最佳路径规 划,它可根据任务从刚性关系网络中诱导出来, 并按照道路的实时通畅情况,选择完成任务的最 佳路径。 a e d c w4 w5 w6 w7 w9 w3 w8 w2 w1 w0 原子结点 任务:从 d 点到 a 点的最佳路径。 约束:wi∈{0, 1} d a ∨ ∨ ∨ ∨ ∨ ∨ ∨ ∨ ∨ ∨ ∨ ∨ ∨ ∨ ∨ w ∧3 w ∧5 w ∧1 w6 w ∧3 w ∧8 w ∧1 w0 w ∧2 w ∧8 w ∧5 w0 w ∧2 w ∧1 w ∧5 w4 w ∧7 w ∧1 w ∧8 w4 w ∧7 w ∧5 w ∧8 w6 w ∧3 w ∧5 w0 w ∧3 w ∧8 w6 w ∧2 w ∧8 w4 w ∧2 w ∧1 w0 w ∧7 w ∧5 w4 w ∧7 w ∧1 w6 w ∧3 w4 w ∧2 w6 w ∧7 w0 w9 (a) 易管理空间的背景关系网 (b) 表示因果关系的与/或决策树 图 5 村落地图和与/或决策树 Fig. 5 Village map and AND/OR decision tree 这个决策过程可用刚性逻辑或二值神经网络 来实现: 1) 决策树中有 16 条不同的路径可供选 择,彼此之间是“或”的关系,即只要有一条路径 畅通这个问题就有解;2) 如果一条路径经过的所 有边都是畅通的,则这条路径是畅通的,即同一 个路径中经过的不同边之间是“与”的关系;3) 在 多条路径都畅通时,选择经过边数最少的路径为 “最佳解”。 在一个自然村落范围内,上述用原子级关系 网络诱导出与/或决策树来寻找最佳路径的过程 是绝对有效的,并在理论上有刚性逻辑和二值神 经网络的支撑。那么,是否能够无限制扩大这种 绝对有效方法的应用范围呢?人类的社会实践早 已做出了否定的回答,因为随着决策范围的不断 扩大,涉及的原子信息 (结点和边) 会成几何级数 地增多,其中绝大部分是与待解问题毫无关系的 因素,如果把它们全部牵扯进来,不仅于事无补, 反而使问题的复杂度成几何级数快速增大,成为 一个实际难解、解了也无法说清楚的笨方法。人 类使用的有效方法是:在有关村落级地图的基础 上,进一步利用粒度更大的乡镇级地图 (其中的 观察粒度增大到一个村落) 和地市级地图 (其中 的观察粒度增大到一个乡镇) 来分层次地逐步解 决“从 d″镇 d′村 d 家到 a″镇 a′村 a 家”的最佳路径 规划问题 (见图 6)。 a ′ e ′ b ′ d ′ c ′ w′ 4 w′ 0 w′ 5 w′ 9 w′ 6 w′ 8 w′ 7 w′ 1 w′ 2 w′ 3 a ″ e ″ b ″ d ″ c ″ w″ 4 w″ 0 w″ 5 w″ 9 w″ 6 w″ 8 w″ 7 w″ 1 w″ 2 w″ 3 一级分子结点 二级分子结点 (a) 乡镇地图 (b) 城市地图 图 6 乡镇地图和地市地图的简化表示 Fig. 6 Simplified representation of district map and municipal map 第 3 期 何华灿:重新找回人工智能的可解释性 ·397·