第13卷第1期 智能系统学报 Vol.13 No.I 2018年2月 CAAI Transactions on Intelligent Systems Feb.2018 D0L:10.11992/tis.201711034 因素空间理论 机制主义人工智能理论的数学基础 汪培庄 (辽宁工程技术大学智能工程与数学研究院,辽宁阜新,123000) 摘要:机制主义人工智能理论是基于智能的生长机制而把结构主义、功能主义和行为主义这三大人工智能流派有 机统一起来并使基础意识、情感、理智成为三位一体的高等人工智能理论。因素空间是机制主义人工智能理论的数 学基础,是现有模糊集、粗糙集和形式背景理论的进一步提升,它为信息描述提供了一个普适性的坐标框架,把数据 变成可视的样本点,形成母体背景分布,压缩为背景基.由此进行概念自动生成.因果关联分析,以及建立在其上的学 习、预测、识别、控制、评价和决策等一系列数学操作活动。本文将着重介绍其中的核心内容,将具体的形式信息(即 语法信息)与效用信息(即语用信息)关联起来,提升为抽象的语义信息,为机制主义人工智能的信息转化第一定律提 供一个简明的数学架构。本文以“九宫棋”为例,介绍如何用因素思维实现目标因素与场景因素的对接和搜索,为信 息转化的第二定律从数学上展开探索性的思考;还结合因素空间及有关学科的历史来进行解说,以便帮助读者对因 素空间理论有一个较为全面的认识。 关键词:机制主义人工智能理论;因素空间理论:形式概念分析;粗糙集;模糊集;模糊落影理论;背景关系;数据挖掘 中图分类号:TP18文献标志码:A文章编号:1673-4785(2018)01-0037-18 中文引用格式:汪培庄.因素空间理论一机制主义人工智能理论的数学基础J.智能系统学报,2018,131):37-54。 英文引用格式:VANG Peizhuang.Factor space-.mathematical basis of mechanism based artificial intelligence theoryJ].CAAl transactions on intelligent systems,2018,13(1):37-54. Factor space-mathematical basis of mechanism based artificial intelligence theory WANG Peizhuang (College of Intelligence Engineering and Mathematics,Liaoning Technical University,Fuxin 123000,China) Abstract:Based on using the intelligent growth mechanism,the mechanism-based artificial intelligence theory organic- ally unifies the structure,function,and behaviorism of three genres to form a trinity of consciousness,emotion,and reas- on.Factor space is the mathematical basis of mechanism-based artificial intelligence theory,which promotes mathemat- ical branches such as formal concept analysis,rough sets,and fuzzy sets,and provides a universal coordinate frame- work for the description and cognition of things.Data can be represented as visual sampling points in the space and then be cultivated to form the population distribution of the background relation.Based on their relationship,concept genera- tion and causality analysis can be performed automatically,and all rational thinking processes,such as prediction,identi- fication,control,evaluation and decision making,can be performed by factorial algorithms.In this article,we focus on ways to describe formal information(i.e.,grammatical information),predict utility information(i.e.,pragmatic informa- tion)from formal information,and correlate them to generate abstract semantic information,which is helpful for math- ematically describing the first established law of information transformation in mechanism-based artificial intelligence theory.We also use factor space theory in chess Tic-Tac-Toe to demonstrate how to dock the target and chess factors, which may provide a clue for how to mathematically describe the second law of information transformation.We also provide a brief history to help readers gain a more comprehensive understanding of the factor space theory. Keywords:mechanism-based artificial intelligence theory;factor space theory;formal concept analysis;rough sets; fuzzy sets;falling shadow theory;background relation;datamining 收稿日期:2017-11-28. 一场重大的科技革命必以一门新学科作为标 基金项目:国家自然科学基金委主任基金(61350003),教育部高校 博士学科点专项科研基金资助项目(20102121110002): 志,这门新学科又必须以一支新数学作为支撑。工 辽宁省教育厅科学技术研究一般基金资助项目L2014133) 通信作者:汪培庄.E-mail:peizhuangw(@126.com. 业革命以牛顿力学为标志学科,以微积分作为数学
DOI: 10.11992/tis.201711034 因素空间理论——机制主义人工智能理论的数学基础 汪培庄 (辽宁工程技术大学 智能工程与数学研究院,辽宁 阜新,123000) 摘 要:机制主义人工智能理论是基于智能的生长机制而把结构主义、功能主义和行为主义这三大人工智能流派有 机统一起来并使基础意识、情感、理智成为三位一体的高等人工智能理论。因素空间是机制主义人工智能理论的数 学基础,是现有模糊集、粗糙集和形式背景理论的进一步提升,它为信息描述提供了一个普适性的坐标框架,把数据 变成可视的样本点,形成母体背景分布,压缩为背景基,由此进行概念自动生成,因果关联分析,以及建立在其上的学 习、预测、识别、控制、评价和决策等一系列数学操作活动。本文将着重介绍其中的核心内容,将具体的形式信息 (即 语法信息) 与效用信息 (即语用信息) 关联起来,提升为抽象的语义信息,为机制主义人工智能的信息转化第一定律提 供一个简明的数学架构。本文以“九宫棋”为例,介绍如何用因素思维实现目标因素与场景因素的对接和搜索,为信 息转化的第二定律从数学上展开探索性的思考;还结合因素空间及有关学科的历史来进行解说,以便帮助读者对因 素空间理论有一个较为全面的认识。 关键词:机制主义人工智能理论;因素空间理论;形式概念分析;粗糙集;模糊集;模糊落影理论;背景关系;数据挖掘 中图分类号:TP18 文献标志码:A 文章编号:1673−4785(2018)01−0037−18 中文引用格式:汪培庄. 因素空间理论——机制主义人工智能理论的数学基础[J]. 智能系统学报, 2018, 13(1): 37–54. 英文引用格式:WANG Peizhuang. Factor space-mathematical basis of mechanism based artificial intelligence theory[J]. CAAI transactions on intelligent systems, 2018, 13(1): 37–54. Factor space-mathematical basis of mechanism based artificial intelligence theory WANG Peizhuang (College of Intelligence Engineering and Mathematics, Liaoning Technical University, Fuxin 123000, China) Abstract: Based on using the intelligent growth mechanism, the mechanism-based artificial intelligence theory organically unifies the structure, function, and behaviorism of three genres to form a trinity of consciousness, emotion, and reason. Factor space is the mathematical basis of mechanism-based artificial intelligence theory, which promotes mathematical branches such as formal concept analysis, rough sets, and fuzzy sets, and provides a universal coordinate framework for the description and cognition of things. Data can be represented as visual sampling points in the space and then be cultivated to form the population distribution of the background relation. Based on their relationship, concept generation and causality analysis can be performed automatically, and all rational thinking processes, such as prediction, identification, control, evaluation and decision making, can be performed by factorial algorithms. In this article, we focus on ways to describe formal information (i.e., grammatical information), predict utility information (i.e., pragmatic information) from formal information, and correlate them to generate abstract semantic information, which is helpful for mathematically describing the first established law of information transformation in mechanism-based artificial intelligence theory. We also use factor space theory in chess Tic-Tac-Toe to demonstrate how to dock the target and chess factors, which may provide a clue for how to mathematically describe the second law of information transformation. We also provide a brief history to help readers gain a more comprehensive understanding of the factor space theory. Keywords: mechanism-based artificial intelligence theory; factor space theory; formal concept analysis; rough sets; fuzzy sets; falling shadow theory; background relation; datamining 一场重大的科技革命必以一门新学科作为标 志,这门新学科又必须以一支新数学作为支撑。工 业革命以牛顿力学为标志学科,以微积分作为数学 收稿日期:2017−11−28. 基金项目:国家自然科学基金委主任基金 (61350003); 教育部高校 博士学科点专项科研基金资助项目 (20102121110002); 辽宁省教育厅科学技术研究一般基金资助项目 (L2014133). 通信作者:汪培庄. E-mail:peizhuangw@126.com. 第 13 卷第 1 期 智 能 系 统 学 报 Vol.13 No.1 2018 年 2 月 CAAI Transactions on Intelligent Systems Feb. 2018
·38 智能系统学报 第13卷 支撑。信息革命以信息科学作为标志,机制主义人 量对粮食收成来说是多么重要的一个因素,遇到少 工智能理论是把结构主义、功能主义和行为主义 雨就要考虑防旱。从原因到因素是人在认识上的一 这三大流派有机统一起来的以柔性逻辑包容的通 种升华。只有掌握因素才能找到原因,看透原因。 用人工智能理论,是信息科学的重要发展。那么, 因素是比属性高一个层次的东西,它是属性的统 什么是信息科学的数学支撑呢?本文对此问题的 领,是属性之名。事物都是质与量的统一,属性是 回答是,因素空间是机制主义人工智能理论的数学 质表,因素是质根。属性被动描写事物,因素则具 基础,它是为迎接人工智能的深刻革命而作的数学 有启发的特质,在信息科学和人工智能的数学描述 准备。 中,因素是一个特别关键的词。只有强调质根,才 信息科学与物质科学的根本差别是有没有认识 能找到事物和认识的成因。哲学家早已对属性下过 主体的参与。客体是离开认识主体的存在,认识主 定义,但至今仍忽视质根。属性像是珍珠,质根是 体按其目标需求从客体信息提取语义信息,再将语 串联珍珠的线头。线头一断,珍珠就洒满遍地,搜 义信息转化为知识,提高智能,改造主、客观世界, 索起来格外困难。人脑是信息提取的优化结构,人 这就是信息科学的主要内容。因素是信息提取的导 脑的感觉细胞是按特征(即因素)来组织的:生命科 向标,是信息向知识转化的分析与融合器。信息生 学中所诞生的基因就是生命的质根。基因最早的英 态的机制就是要以因素为导向,首先关注客体的形 文名称是Factor,因素就是广义的基因。信息革命 式与效用这两个方面。用目标需求从后往前倒逼, 需要将打开生命之门的这把钥匙引向信息之门,哲 用储备的知识从前往后疏通,这样前后夹逼,所得 理指明了因素空间乃是信息科学和人工智能对数学 到的语义信息就是形式与效用相统一的全信息。客 的期望之所在。 体的状态千变万化,必须用因素来进行分析与综 1.1因素与因素空间的数学定义 合,例如形状、大小、颜色、质量等,统称为状态因 在数学上,因素被定义成映射,更具体一点地 素,状态因素使人形成对事物外形的知觉。事物的 说,因素是一种性状映射,它把事物映射成它们的 内在属性也要用因素来梳理,杯子可以是日常饮具 性状。 或者是保健食品容器,也可能是供人鉴赏的艺术 定义10设U是所要讨论的一类事物的集合, 品,不同的目标需求按效用来观察事物的内在属 叫作论域。一个定义在论域U上的映射fU→X() 性,属性因素揭示事物的内在效用。状态因素与属 叫作U上的一个因素,其中()是映射f所映照出 性因素之间的结合衍生出特定的概念;因素之间的 来的事物性状的集合,叫作f的性状空间。 相互关联决定事物的因果,提供逻辑推理以进行决 性状有两种类型,一种是连续的实数值,例如, 策。基于因素空间理论所建立的数据库以培植数据 因素身高可表示为特定的人群U上的一个映射∫= 的方式来实现数据生态与知识生态之间的同构,用 U→[10,250](cm),它把张三映射成实数185cm,把 因素来组织数据,运用知识把传统的搜索技术提到 李四映射成175cm这样的性状空间叫作定量的 一个新的高度,这些都是机制主义人工智能所需要 性状空间,此时的因素就是我们过去所熟悉的变 的数学理论和方法。 量,变量是一种特殊的因素,因素就是变量的推 广。定量性状空间是欧氏空间中的一个超矩形 1因素空间的基本框架 (n=1或n>1),n叫作性状空间的维数。因素身高还 可以有另外一种形式的性状空间:X(身高)={高,中, 什么是因素?按字面来理解,因字既言本事物 低},它把张三映射成高个子,把李四映射成中等个 之所以是,亦言它事物之所以生。前者讲事物构 子这是离散的用自然语言描述的性状,这种性状 成,后者讲因果关联。因素非因,乃因之素。雨量 空间叫作定性的性状空间。性状都是按因素成串地 充沛是丰收的一个原因,但它不是因素。因素是降 呈现,世界上没有单一的性状,性状的数目m叫作 雨量,由它统领“洪涝”、“雨量充沛”、“雨量欠缺”和 相数,m必须大于1。单一的特征用来识别时都是二 “干旱”等性状。因素通过变化来显示其影响。如果 相,例如,脸上长痣是一种特征,但在识别过程中注 降雨量的变化不能改变丰收这一结果的话,那么雨 意的焦点不是去描述痣的特性而是要区别“有痣”和 量充沛就不是丰收的原因;降雨量之所以对古代农 “无痣”,仍是二相映射。为了方便,我们将特征称为 业那么重要,是因为它的变化既可以使大众喜迎丰 二相因素,但在这样称呼时必须声明:特征本来指 收,也可以使遍地颗粒无收,这才使人们知道降雨 的是痣,是一个属性,若把它视为因素,则它就不再
支撑。信息革命以信息科学作为标志,机制主义人 工智能理论[1-2]是把结构主义、功能主义和行为主义 这三大流派有机统一起来的以柔性逻辑[3]包容的通 用人工智能理论,是信息科学的重要发展。那么, 什么是信息科学的数学支撑呢?本文对此问题的 回答是,因素空间是机制主义人工智能理论的数学 基础, 它是为迎接人工智能的深刻革命而作的数学 准备。 信息科学与物质科学的根本差别是有没有认识 主体的参与。客体是离开认识主体的存在,认识主 体按其目标需求从客体信息提取语义信息,再将语 义信息转化为知识,提高智能,改造主、客观世界, 这就是信息科学的主要内容。因素是信息提取的导 向标,是信息向知识转化的分析与融合器。信息生 态的机制就是要以因素为导向,首先关注客体的形 式与效用这两个方面。用目标需求从后往前倒逼, 用储备的知识从前往后疏通,这样前后夹逼,所得 到的语义信息就是形式与效用相统一的全信息。客 体的状态千变万化,必须用因素来进行分析与综 合,例如形状、大小、颜色、质量等,统称为状态因 素,状态因素使人形成对事物外形的知觉。事物的 内在属性也要用因素来梳理,杯子可以是日常饮具 或者是保健食品容器,也可能是供人鉴赏的艺术 品,不同的目标需求按效用来观察事物的内在属 性,属性因素揭示事物的内在效用。状态因素与属 性因素之间的结合衍生出特定的概念;因素之间的 相互关联决定事物的因果,提供逻辑推理以进行决 策。基于因素空间理论所建立的数据库以培植数据 的方式来实现数据生态与知识生态之间的同构,用 因素来组织数据,运用知识把传统的搜索技术提到 一个新的高度,这些都是机制主义人工智能所需要 的数学理论和方法。 1 因素空间的基本框架 什么是因素?按字面来理解,因字既言本事物 之所以是,亦言它事物之所以生。前者讲事物构 成,后者讲因果关联。因素非因,乃因之素。雨量 充沛是丰收的一个原因,但它不是因素。因素是降 雨量,由它统领“洪涝”、“雨量充沛”、“雨量欠缺”和 “干旱”等性状。因素通过变化来显示其影响。如果 降雨量的变化不能改变丰收这一结果的话,那么雨 量充沛就不是丰收的原因;降雨量之所以对古代农 业那么重要,是因为它的变化既可以使大众喜迎丰 收,也可以使遍地颗粒无收,这才使人们知道降雨 量对粮食收成来说是多么重要的一个因素,遇到少 雨就要考虑防旱。从原因到因素是人在认识上的一 种升华。只有掌握因素才能找到原因,看透原因。 因素是比属性高一个层次的东西,它是属性的统 领,是属性之名。事物都是质与量的统一,属性是 质表,因素是质根。属性被动描写事物,因素则具 有启发的特质,在信息科学和人工智能的数学描述 中,因素是一个特别关键的词。只有强调质根,才 能找到事物和认识的成因。哲学家早已对属性下过 定义,但至今仍忽视质根。属性像是珍珠,质根是 串联珍珠的线头。线头一断,珍珠就洒满遍地,搜 索起来格外困难。人脑是信息提取的优化结构,人 脑的感觉细胞是按特征 (即因素) 来组织的;生命科 学中所诞生的基因就是生命的质根。基因最早的英 文名称是 Factor,因素就是广义的基因。信息革命 需要将打开生命之门的这把钥匙引向信息之门,哲 理指明了因素空间乃是信息科学和人工智能对数学 的期望之所在。 1.1 因素与因素空间的数学定义 在数学上,因素被定义成映射,更具体一点地 说,因素是一种性状映射,它把事物映射成它们的 性状。 定义 1 [4] 设 U 是所要讨论的一类事物的集合, 叫作论域。一个定义在论域 U 上的映射 f: U→X(f) 叫作 U 上的一个因素,其中 X(f) 是映射 f 所映照出 来的事物性状的集合,叫作 f 的性状空间。 U → [10,250] ··· R n n = 1 n > 1 ··· m 性状有两种类型,一种是连续的实数值,例如, 因素身高可表示为特定的人群 U 上的一个映射 f = (cm),它把张三映射成实数 185 cm,把 李四映射成 175 cm 这样的性状空间叫作定量的 性状空间,此时的因素就是我们过去所熟悉的变 量,变量是一种特殊的因素,因素就是变量的推 广。定量性状空间是欧氏空间 中的一个超矩形 ( 或 ),n 叫作性状空间的维数。因素身高还 可以有另外一种形式的性状空间:X(身高)={高,中, 低},它把张三映射成高个子,把李四映射成中等个 子 这是离散的用自然语言描述的性状,这种性状 空间叫作定性的性状空间。性状都是按因素成串地 呈现,世界上没有单一的性状,性状的数目 m 叫作 相数, 必须大于 1。单一的特征用来识别时都是二 相,例如,脸上长痣是一种特征,但在识别过程中注 意的焦点不是去描述痣的特性而是要区别“有痣”和 “无痣”,仍是二相映射。为了方便,我们将特征称为 二相因素,但在这样称呼时必须声明:特征本来指 的是痣,是一个属性,若把它视为因素,则它就不再 ·38· 智 能 系 统 学 报 第 13 卷
第1期 汪培庄:因素空间理论一机制主义人工智能理论的数学基础 ·39· 是一个属性而是一个二相映射了。因素与属性是不 因素0。一组因素称为两两不可约,如果两两之交 同层次的东西,前者统帅后者。当然,同一个词在 为0。不难证明P(F)=(P(F):u,n)形成一个因素 不同的场合中可以从属性变为因素,也可以从因素 格,这个因素格可以由偏序集(℉,)按下述方式形成: 变为属性。 FUG=Sup (F,G),FnG=Inf(F,G)(2) 只取定量性状空间的因素叫作定量因素,只取 F=ufu...Uf是在所定义的系统中最大的 定性性状空间的因素叫作定性因素。这样称呼仅仅 因素,叫作全因素。由此还可以定义余运算。F的 是为了叙述的方便。严格来说,定性与定量是一对 性状空间是那些不被F所包含的元性状空间的乘 普遍矛盾,它们对立统一地寓于事物之中,相互转 积。不难证明P(F)=(P(F),U,n,)形成一个因素布 化,因素既可以定性,也可以定量,我们对任何因素 尔代数。 都同时预备着定性与定量两种性状空间,以备相互 定义4记Xr=(X(F)hrE,称中=(UX)为 转换。在同时出现两种性状空间的时候,我们用 U上的一个因素空间。F*中的因素称为原始因素, XfD来表示定量性状空间。要将X()中的性状转化 P(F)中的其他因素称为合成因素,记X=X(f)× 为X()上的模糊或非模糊子集。这些事情要靠模糊 X()X…×X(f),叫作总性状空间。对于定性性 集和直觉模糊集等学科来完成。这种工作涉及坐标 状空间而言,任意a=(a1,2,…,an)eX叫作一个性状 框架的标定,对于因素空间来说至关重要。 颗粒。 定性映射决定论域的划分。设f是定义在论域 这个定义在以前一直引用的文献[5]的基础上 U上的一个因素,按这个因素的性状在论域U中定 做了简化。 义了一个等价关系~:对任意u,veU,u~v当且仅当 所有笛卡尔空间,例如力学的运动空间、控制 论的状态空间、模式识别的特征空间等,都是性状 f(a)=f(w)。一个等价关系决定U中对象的一个分 类,记对象u所在的类为[叫={v∈Uf(w)=f(m}。 空间。它们都可作为因素空间的特例,因素空间是 定义2记Hf,U)={u∈U),我们将它称为 笛卡尔空间的推广。如图1所示,任何事物都可以 f对U的划分。 像张三这样地被映射成为性状空间中的一个点,因 因素有简单与复杂之分,所谓f对U比g对U的 素空间为一般事物的描述提供了普适性的数学框 划分更细(记作Hf,U1H(g,U)是指:任给一个由 架。一群对象被映射成为性状空间中的样本点集。 g所分出的类[叫,必有f所分出的类[y使[vs[四。 要对这群对象分类,就必须将它们投射到因素性状 定义3设f,g是定义在U上的两个因素,如果 空间中来进行分割。 H(f,U)}H(g,U),则称因素f比g复杂,记作f≥g。反 年龄 之,则称因素f比g简单,记作f≤g。 体重 不难证明,任给U上的一个因素集F,(F,)形成 性 一个偏序集。给定U上的一组因素f:U→X(f) (j=1,2,…,,由它们所构成的集合F·={f,五,…,f 称为元因素集。对F的任意子集{f仙,f2,…,f,可 以定义一个U上的合成因素F:U→X(F),其状态 图1张三被映射为因素空间中的一个点 空间是 Fig.1 Mapping Zhang San mapped to a point in the factor X(F)=X(f)xX(f2)×…×X(fe) (1) space 记此因素的合成运算为F=fa ufU...Uf仙。式 1.2背景关系与背景分布 (1)的意思是:合成因素的性状空间被定义成其所含 定义5】给定U上的定性因素空间 元空间的笛卡尔乘积。对于任意两个合成因素,我 中=(U,Xr),对任意a=(a1,a2,…,an)eX,记其在 们可以定义它们的二次合成,其性状空间被定义成 U上的原相为 两组元的并集中诸元的性状空间的乘积。如此可以 [a]=F-(a)=(uEU F(u)=a) (3) 在F的幂集中定义因素之间的任意多次合成运算 [a可能是空集φ,若[a]≠中,则称a是一个实性 U。类似地,用两组元的交集中诸元性状空间的乘 状颗粒,否则称α是一个虚组态。全体实性状的集 积可以定义因素之间的另外一种运算,叫作分解 合记为 运算。分解运算可以直观地理解为提取两因素的最 R=F(U0={a=(a1,a2,…,an)∈X3u∈U; (4) 大子公因素。分解两个不含公共元的因素,可得零 fi(u)=a1,a2,…,fn(4)=an}
是一个属性而是一个二相映射了。因素与属性是不 同层次的东西,前者统帅后者。当然,同一个词在 不同的场合中可以从属性变为因素,也可以从因素 变为属性。 X (f) X (f) X (f) 只取定量性状空间的因素叫作定量因素,只取 定性性状空间的因素叫作定性因素。这样称呼仅仅 是为了叙述的方便。严格来说,定性与定量是一对 普遍矛盾,它们对立统一地寓于事物之中,相互转 化,因素既可以定性,也可以定量,我们对任何因素 都同时预备着定性与定量两种性状空间,以备相互 转换。在同时出现两种性状空间的时候,我们用 来表示定量性状空间。要将 中的性状转化 为 上的模糊或非模糊子集。这些事情要靠模糊 集和直觉模糊集等学科来完成。这种工作涉及坐标 框架的标定,对于因素空间来说至关重要。 f U U u, v ∈ U u ∼ v f (u) = f (v) U [u]f = {v ∈ U | f (v) = f (u)} 定性映射决定论域的划分。设 是定义在论域 上的一个因素,按这个因素的性状在论域 中定 义了一个等价关系~:对任意 , 当且仅当 。一个等价关系决定 中对象的一个分 类,记对象 u 所在的类为 。 H (f,U) = {[u]|u ∈ U } f 定义 2 记 ,我们将它称为 对 U 的划分。 f U g U H (f,U)}H (g,U) g [u]g f [ν]f [v]f ⊆ [u]g 因素有简单与复杂之分,所谓 对 比 对 的 划分更细 (记作 ) 是指:任给一个由 所分出的类 ,必有 所分出的类 使 。 f g U H (f,U)}H (g,U) f g f ⩾ g f g f ⩽ g 定义 3 设 , 是定义在 上的两个因素,如果 ,则称因素 比 复杂,记作 。反 之,则称因素 比 简单,记作 。 U F ∗ ,(F ∗ ,}) fj : U → X ( fj ) (j = 1,2,··· ,n) F ∗ = {f1, f2,··· , fn} { f(1) , f(2) ,··· , f(k) } F : U → X (F) 不难证明,任给 上的一个因素集 形成 一个偏序集。给定 U 上的一组因素 ,由它们所构成的集合 称为元因素集。对 F *的任意子集 ,可 以定义一个 U 上的合成因素 ,其状态 空间是 X (F) = X ( f(1) ) × X ( f(2) ) × ··· × X ( f(k) ) (1) F = f(1) ∪ f(2) ∪ ··· ∪ f(k) F ∗ ∪ ∩ 记此因素的合成运算为 。式 (1) 的意思是:合成因素的性状空间被定义成其所含 元空间的笛卡尔乘积。对于任意两个合成因素,我 们可以定义它们的二次合成,其性状空间被定义成 两组元的并集中诸元的性状空间的乘积。如此可以 在 的幂集中定义因素之间的任意多次合成运算 。类似地,用两组元的交集中诸元性状空间的乘 积可以定义因素之间的另外一种运算 ,叫作分解 运算。分解运算可以直观地理解为提取两因素的最 大子公因素。分解两个不含公共元的因素,可得零 P(F ∗ ) = (P(F ∗ );∪,∩) (F ∗ ,}) 因素 0。一组因素称为两两不可约,如果两两之交 为 0。不难证明 形成一个因素 格,这个因素格可以由偏序集 按下述方式形成: F ∪G = Sup{F, G}, F ∩G = Inf{F, G} (2) F ∗ = f1 ∪ f2 ∪ ··· ∪ fn F c P(F ∗ ) = (P(F ∗ ),∪,∩, c ) 是在所定义的系统中最大的 因素,叫作全因素。由此还可以定义余运算c。 的 性状空间是那些不被 F 所包含的元性状空间的乘 积。不难证明 形成一个因素布 尔代数。 XF∗ = {X (F)}F∈P(F∗ ) ϕ = (U, XF∗ ) P(F ∗ ) X = X (f1)× X (f2)× ··· × X (fn) a = (a1,a2,··· ,an) ∈ X 定义 4 记 ,称 为 U 上的一个因素空间。F*中的因素称为原始因素, 中的其他因素称为合成因素,记 , 叫作总性状空间。对于定性性 状空间而言,任意 叫作一个性状 颗粒。 这个定义在以前一直引用的文献[5]的基础上 做了简化。 所有笛卡尔空间,例如力学的运动空间、控制 论的状态空间、模式识别的特征空间等,都是性状 空间。它们都可作为因素空间的特例,因素空间是 笛卡尔空间的推广。如图 1 所示,任何事物都可以 像张三这样地被映射成为性状空间中的一个点,因 素空间为一般事物的描述提供了普适性的数学框 架。一群对象被映射成为性状空间中的样本点集。 要对这群对象分类,就必须将它们投射到因素性状 空间中来进行分割。 ݗᕓ 䏗倄 Ꭰ咰 喋ᑌ̵喌 ⩣ ѿ䛹 1.75 25 66 图 1 张三被映射为因素空间中的一个点 Fig. 1 Mapping Zhang San mapped to a point in the factor space 1.2 背景关系与背景分布 ϕ = (U,XF∗) a = (a1,a2,··· ,an) ∈ X 定 义 5 [ 4 ] 给 定 U 上的定性因素空间 ,对任意 ,记其 在 U 上的原相为 [a] = F −1 (a) = {u ∈ U |F (u) = a} (3) [a] 可能是空集 ϕ ,若 [a] , ϕ ,则称 a 是一个实性 状颗粒,否则称 a 是一个虚组态。全体实性状的集 合记为 R = F (U) = {a = (a1,a2,··· ,an) ∈ X|∃u ∈ U; f1 (u) = a1,a2,··· , fn (u) = an} (4) 第 1 期 汪培庄:因素空间理论——机制主义人工智能理论的数学基础 ·39·
·40· 智能系统学报 第13卷 式中R叫作因素f,五,…,f之间的背景关系,也叫作 p(x)的支撑集R叫作因素元之间的背景集。亦即 因素F的背景集。背景集是实际存在的笛卡尔乘 R=n{B∈BJsP(x)dr=1} (6) 积集。 13 因素数据库与背景基 显然有,F是从H(U,F)到R的同构映射。 数据工作者熟知信息系统和形式背景理论,它 定义5多用于定性因素,其中的a是指性状颗 们为数据建立了表格,为非数值信息找到了初步的 粒。但定义5也可用于连续情形,此时α细化为一 符号表示。因素空间理论正是它们的提升,为信息 个实数点。 系统建立坐标框架,把一张形式系统表可视化地变 背景关系是因素空间的核心概念,下面会看到 为因素性状空间的一组样本点,背景关系就成为它 它既可以决定概念的自动生成,又可决定概念之间 们的母体。背景关系是因素空间的形骸,塑造这个 的一切推理,由它可以建立知识描述的确定性理论 形骸的工具就是背景基。 框架。但现实中的背景关系多带有不确定性。原因 将按因素空间思想组织起来的数据叫作因素数 有二:1)性状粒度往往过大,说一个人的性状容易, 据库,主要的库表知叫作因素表,具表头=(x1,x2,…,x% 说一群人的性状就不确定了,存在着抽样的随机 若把对象u去掉,以s=(1,2,…,x)为表头,则表中 性;2)定性因素相的划分不明确,例如年龄这个因 的每一行就是因素空间中的一个点,由于与对象割 素,究竞怎样划分青年、中年和老年?存在着模糊 断了联系,这个点就不再反映个人的隐私。 性。为此,要引入背景分布和模糊背景关系的概 定义8周记S={s:=(x,x2,…,x)i=1,2, 念,为了节省篇幅,本文只介绍背景分布。 m},叫作相样本或隐私样本。 设论域U=(U,A,p)是一个概率场,中=(U,X.) 因素库中首先考虑样本怎样表现背景关系。很 是定义在U上的一个因素空间。又设X=(X,B)是总 明显的事实是,当样本逼近母体时,相样本就变成 性状空间X上的一个可测结构。若所有F中的元 背景关系。 f都是从U到X的可测映射,即对任B∈B,都有 设S是相样本,始终有SSR;所有同表头相样本 f(B)={u∈Uf()∈B}∈A,则不难证明,所有因素 的并就是背景关系: F∈P(F),包括F,都是从U到X的可测映射。 R=USS是相样本 (7) 定义6设论域U=(U,A,p)是一个概率场, 只要表头相同,对相样本不断地求并,就可以 中=(U,X)是定义在U上的一个因素空间,X=XB) 是总性状空间上的一个可测结构。若所有F中的元 单调递增地逼近目标。同表头的相样本求并就是行 的叠加。这个过程是可以并行处理的。因素库的目 f都是可测映射,记p=pr为p经过F在X上所诱导 出来的概率,亦即对任意B∈B,都有p(B)=p(F-I(B), 标是要将数据培育成背景关系,形成认知包以产生 那么p叫作因素F的背景分布。 知识。要使这一思想得以实现,关键在于信息压缩。 背景分布是背景关系的随机化。随机化后的因 定义9若每个元性状空间Xf)都是有序集, 素都可视为广义的随机变量,特别对定性因素而 且背景关系R是X中的凸集,记R的所有顶点所成的 言,因素可以叫作随机词。为了方便,我们常将因 集为B=B(R)={PP是R的顶点},叫作背景基。将 素的记号改为随机变量的记号,甚至约定:F中的元 R换作样本S,记B的所有顶点所成的集为B(⑤)= 因素的替代符号是x(i=1,2,…,m:F={x,,,x, PP是S的顶点},叫作样本背景基。 X(x)=X:。 背景基可以生成背景关系,它是背景关系的无 为了简便,我们以后讲可测因素空间就是指定 信息损失的压缩,对因素库的实际应用具有重要的 义6中所说的带有可测结构的因素空间而且所有元 意义。无论数据多大,样本背景基的数量始终保持 都是从U到x的随机变量。 在低维度上。在网上吞吐数据时,每输人一个新的 背景分布p是背景关系R的随机化。对定性因 数据,都要判断它是否是样本背景基的内点,若是, 素而言,不难证明,背景关系R就是背景分布的支 则删除此数据,否则将它纳入样本背景基,此时,要 撑,亦即 逐一检验原有的基点,它若在新基点中变成内点, R={a∈Xp(a>O} (5) 则淘汰删除之。 由此,可以将背景分布的概念推广到定量因素 给定整值样本S,怎样判定谁是它的内点?记 的情形。 O是S的中心(不一定是整值点),对于任意一点P,从 定义7对定量因素而言,背景分布密度函数 P到O引一条射线PO
f1, f2,··· , fn F ∗ 式中 R 叫作因素 之间的背景关系,也叫作 因素 的背景集。背景集是实际存在的笛卡尔乘 积集。 F ∗ H (U,F ∗ 显然有, 是从 ) 到 R 的同构映射。 定义 5 多用于定性因素,其中的 a 是指性状颗 粒。但定义 5 也可用于连续情形,此时 a 细化为一 个实数点。 背景关系是因素空间的核心概念,下面会看到 它既可以决定概念的自动生成,又可决定概念之间 的一切推理,由它可以建立知识描述的确定性理论 框架。但现实中的背景关系多带有不确定性。原因 有二:1) 性状粒度往往过大,说一个人的性状容易, 说一群人的性状就不确定了,存在着抽样的随机 性;2) 定性因素相的划分不明确,例如年龄这个因 素,究竟怎样划分青年、中年和老年?存在着模糊 性。为此,要引入背景分布和模糊背景关系的概 念,为了节省篇幅,本文只介绍背景分布。 U = (U, A, p) ϕ = (U,XF∗) U X = (X,B) X F ∗ fj B ∈ B fj −1 (B) = { u ∈ U| fj(u) ∈ B } ∈ A F ∈ P(F ∗ ) F ∗ 设论域 是一个概率场, 是定义在 上的一个因素空间。又设 是总 性状空间 上的一个可测结构。若所有 中的元 都是从 U 到 X 的可测映射,即对任 ,都有 ,则不难证明,所有因素 ,包括 ,都是从 U 到 X 的可测映射。 U = (U, A, p) ϕ = (U,XF∗ ) U X = (X,B) F ∗ fj p = pF∗ p F ∗ X B ∈ B p(B) = p ( F ∗−1 (B) ) p F ∗ 定义 6 设论域 是一个概率场, 是定义在 上的一个因素空间, 是总性状空间上的一个可测结构。若所有 中的元 都是可测映射,记 为 经过 在 上所诱导 出来的概率,亦即对任意 ,都有 , 那么 叫作因素 的背景分布。 F ∗ xi(i=1,2,···,n) F ∗ ={x1, x2,···, xn} X (xi) = Xi 背景分布是背景关系的随机化。随机化后的因 素都可视为广义的随机变量,特别对定性因素而 言,因素可以叫作随机词。为了方便,我们常将因 素的记号改为随机变量的记号,甚至约定: 中的元 因素的替代符号是 : , 。 U X 为了简便,我们以后讲可测因素空间就是指定 义 6 中所说的带有可测结构的因素空间而且所有元 都是从 到 的随机变量。 p R R 背景分布 是背景关系 的随机化。对定性因 素而言,不难证明,背景关系 就是背景分布的支 撑,亦即 R = {a ∈ X|p(a) > 0} (5) 由此,可以将背景分布的概念推广到定量因素 的情形。 定义 7 对定量因素而言,背景分布密度函数 p(x) 的支撑集 R 叫作因素元之间的背景集。亦即 R = ∩ { B ∈ B ∫ BP(x)dx = 1 } (6) 1.3 因素数据库与背景基 数据工作者熟知信息系统和形式背景理论,它 们为数据建立了表格,为非数值信息找到了初步的 符号表示。因素空间理论正是它们的提升,为信息 系统建立坐标框架,把一张形式系统表可视化地变 为因素性状空间的一组样本点,背景关系就成为它 们的母体。背景关系是因素空间的形骸,塑造这个 形骸的工具就是背景基。 t = (u; x1, x2,··· , xk) u s = (x1, x2,··· , xk) 将按因素空间思想组织起来的数据叫作因素数 据库,主要的库表叫作因素表,具表头 。 若把对象 去掉,以 为表头,则表中 的每一行就是因素空间中的一个点,由于与对象割 断了联系,这个点就不再反映个人的隐私。 S = {si = (x1i , x2i ,···, xki 定义 8 ; yi)|i = 1,2,···, [4] 记 m},叫作相样本或隐私样本。 因素库中首先考虑样本怎样表现背景关系。很 明显的事实是,当样本逼近母体时,相样本就变成 背景关系。 设 S 是相样本,始终有 S ⊆ R ;所有同表头相样本 的并就是背景关系: R = ∪ { S |S是相样本} (7) 只要表头相同,对相样本不断地求并,就可以 单调递增地逼近目标。同表头的相样本求并就是行 的叠加。这个过程是可以并行处理的。因素库的目 标是要将数据培育成背景关系,形成认知包以产生 知识。要使这一思想得以实现,关键在于信息压缩。 X ( fj ) R X R B = B(R) = { P|P是R的顶点} R S B B(S ) = { P|P是S的顶点} 定义 9 [4] 若每个元性状空间 都是有序集, 且背景关系 是 中的凸集,记 的所有顶点所成的 集为 ,叫作背景基。将 换作样本 ,记 的所有顶点所成的集为 ,叫作样本背景基。 背景基可以生成背景关系,它是背景关系的无 信息损失的压缩,对因素库的实际应用具有重要的 意义。无论数据多大,样本背景基的数量始终保持 在低维度上。在网上吞吐数据时,每输入一个新的 数据,都要判断它是否是样本背景基的内点,若是, 则删除此数据,否则将它纳入样本背景基,此时,要 逐一检验原有的基点,它若在新基点中变成内点, 则淘汰删除之。 S O S P P O PO 给定整值样本 ,怎样判定谁是它的内点?记 是 的中心 (不一定是整值点),对于任意一点 ,从 到 引一条射线 。 ·40· 智 能 系 统 学 报 第 13 卷
第1期 汪培庄:因素空间理论一机制主义人工智能理论的数学基础 ·41· 夹角判别法P是s的一个内点当且仅当在 德国数学家R.Wille所提出的形式概念分析(nor- S中存在一点Q,使射线PQ与射线PO形成钝角,亦 mal concept analysis)。在他以前,数学家们认为, 即(Q-PO-P)<0。 任何概念的外延都是集合,而任何集合都是概念的 例1在图2中,S包含三点:a=(2,1)、b=(4,5)、 外延。Wille明确地对后一句话说不。他提出了内 c=(5,3),试问d=(2,4)是内点吗?e=(3,2)呢? 涵和外延的对合性准则,认为只有满足对合性,才 解0=(a+b+c)/3=(3.7,3) 能把一个集合视为一个概念的外延。给定对象集 (o-d,a-d0=(1.7,-1)0,-3)=3>0 O和属性集A,从它们之中分别取出一组对象E和一 (o-d.b-d0=(1.7,-1)(2,1)=2.4>0 (0-d,c-d0=(1.7,-1)3,-1)=6.1>0 组属性I,记f(E)={a∈Avo∈E:o具有属性a,它是 都是非负,d不是S的内点。 E中对象共有属性所形成的集。记g()={o∈O (o-e,a-e)=(0.7,1)(-1,-1)=-1.7<0 yae上o具有属性a,它是I中属性共同依附的对象所 一旦出现负数就是内点,e是S的内点。 形成的集。如果f(E)=I且记g(0=E,则称配对 b=(4,5) a=(L,E)满足对合性,并称a是一个以I为内涵和以 E为外延的概念。 他以科教电影《生物与水》的资料制作了1张 形式背景表(见表1),其中有8类生物和9种属性: 5,3 a需要水,b在水中生活,c在陆地生活,d有叶绿素 e双子叶,f单子叶,g能运动,h有四肢,i哺乳。表 1以对象为行以属性为列,当且仅当第对象具有第 =(2,1) j属性在第行第j列的格子中出现符号“×”。为了检 图2背景基内点的夹角判别法 Fig.2 The angle criterion for inner points of background 验对合性,他让我们先随意选1个对象,蚂蟥,即取 base E=(1,它具有属性a,b和g,即f(E)={a,b,g}=I。然 这个判别法虽然是近似的,正有改进研究,但 后再从这3个属性所在的列,找他们共同依附的对 此方法却有应用价值。计算量很小,复杂度是 象有蚂蟥、鱼和蛙,即g(0={1,2,3}=E,因E≠E, O(k)(n是因素个数,k是样本点个数),能适应大数 故E与1不满足对合性。继续往前,看这3个对象所 据的需求。 共有的属性是a、b和g,即f(E)={a,b,g}=I。于是, 1.4因素藤、因素神经网络与智联网 E与I满足对合性,这样我们便找到了一个对合配 因素空间是一个概念划分单元,不同单元联结 对,这就是水生动物的样本概念(anbng,{1,2,3)。 起来形成因素藤。刘增良提出了因素神经网络, 之所以称为样本概念是因为这概念是从表1生成 的,表1只是一个样本,所生成的概念是否有效,要 使因素空间理论和神经网络方法结合起来,把学习 机制引入因素空间。因素藤又与因素神经网络相对 看样本是否接近母体。像这样地搜索下去,最后找 到了19个概念,按序生成一个概念体系,他称之为 应,呈现新的活力。黄崇福提出了智联网,把因素 概念格(见图3)。 空间作为智联网的数学刻画工具,进一步上升到网 络数学,具有比笔者更加广阔的视野和更加宏伟的 表1科教电影“生物与水”的背景 Table 1 The background of science and education film 历史使命。 "biology and water" 因素空间是信息系统和形式背景理论的提升, 能为客体提供一个可以存放其形式信息和效用信息 序号 a b c D e fg h I 的坐标系统,把关系数据库中的数据变成可视的样 1 蚂蟥 本点,它们的母体所形成的背景分布,乃是因素空 2 鱼 间的形骸,塑造它的工具是背景基。 3 蛙 2形式概念的生成与基本概念半格的 4 杏 提取 5 水草 6 芦苇 1982是不平凡的一年,在这一年中同时出现了 7 豆 3个数学分支,公开宣称以知识和智能作为自己的 玉米 数学研究对象。在这3个分支中,首先要介绍的是
P S S Q PQ PO (Q− P,O− P) < 0 夹角判别法[4] 是 的一个内点当且仅当在 中存在一点 ,使射线 与射线 形成钝角,亦 即 。 S a=(2,1)、b=(4,5) c=(5,3) d = (2,4) e = (3,2) 例 1 在图 2 中, 包含三点: 、 ,试问 是内点吗? 呢? 解 o = (a+b+c) /3 = (3.7, 3) (o−d,a−d) = (1.7,−1)(0,−3) = 3 > 0 (o−d,b−d) = (1.7,−1)(2,1) = 2.4 > 0 (o−d, c−d) = (1.7,−1)(3,−1) = 6.1 > 0 都是非负,d 不是 S 的内点。 (o−e,a−e) = (0.7,1)(−1,−1) = −1.7 < 0 一旦出现负数就是内点,e 是 S 的内点。 b=(4, 5) d c=(5, 3) a=(2, 1) e o 图 2 背景基内点的夹角判别法 Fig. 2 The angle criterion for inner points of background base O(nk) n k 这个判别法虽然是近似的,正有改进研究,但 此方法却有应用价值。计算量很小,复杂度是 ( 是因素个数, 是样本点个数),能适应大数 据的需求。 1.4 因素藤、因素神经网络与智联网 因素空间是一个概念划分单元,不同单元联结 起来形成因素藤。刘增良[6]提出了因素神经网络, 使因素空间理论和神经网络方法结合起来,把学习 机制引入因素空间。因素藤又与因素神经网络相对 应,呈现新的活力。黄崇福[7]提出了智联网,把因素 空间作为智联网的数学刻画工具,进一步上升到网 络数学,具有比笔者更加广阔的视野和更加宏伟的 历史使命。 因素空间是信息系统和形式背景理论的提升, 能为客体提供一个可以存放其形式信息和效用信息 的坐标系统,把关系数据库中的数据变成可视的样 本点,它们的母体所形成的背景分布,乃是因素空 间的形骸,塑造它的工具是背景基。 2 形式概念的生成与基本概念半格的 提取 1982 是不平凡的一年,在这一年中同时出现了 3 个数学分支,公开宣称以知识和智能作为自己的 数学研究对象。在这 3 个分支中,首先要介绍的是 O A E I f (E) = { a ∈ A|∀o ∈ E;o具有属性a } E g(I) = {o ∈ O| ∀a ∈ I;o具有属性a } I f (E) = I g(I) = E a = (I,E) a I E 德国数学家 R. Wille 所提出的形式概念分析 (normal concept analysis)[8]。在他以前,数学家们认为, 任何概念的外延都是集合,而任何集合都是概念的 外延。Wille 明确地对后一句话说不。他提出了内 涵和外延的对合性准则,认为只有满足对合性,才 能把一个集合视为一个概念的外延。给定对象集 和属性集 ,从它们之中分别取出一组对象 和一 组属性 ,记 ,它是 中对象共有属性所形成的集。记 ,它是 中属性共同依附的对象所 形成的集。如果 且记 ,则称配对 满足对合性,并称 是一个以 为内涵和以 为外延的概念。 a b c d e f g h i i j i j E = {1} a b g f (E) = {a,b,g} = I g(I) = {1,2,3} = E ′ E ′ , E E I a b g f (E ′ ) = {a,b,g} = I E ′ I (a∧b∧g, {1,2,3}) 他以科教电影《生物与水》的资料制作了 1 张 形式背景表 (见表 1),其中有 8 类生物和 9 种属性: 需要水, 在水中生活, 在陆地生活, 有叶绿素, 双子叶, 单子叶, 能运动, 有四肢, 哺乳。表 1 以对象为行以属性为列,当且仅当第 对象具有第 属性在第 行第 列的格子中出现符号“×”。为了检 验对合性,他让我们先随意选 1 个对象,蚂蟥,即取 ,它具有属性 , 和 ,即 。然 后再从这 3 个属性所在的列,找他们共同依附的对 象有蚂蟥、鱼和蛙,即 ,因 , 故 与 不满足对合性。继续往前,看这 3 个对象所 共有的属性是 、 和 ,即 。于是, 与 满足对合性,这样我们便找到了一个对合配 对,这就是水生动物的样本概念 。 之所以称为样本概念是因为这概念是从表 1 生成 的,表 1 只是一个样本,所生成的概念是否有效,要 看样本是否接近母体。像这样地搜索下去,最后找 到了 19 个概念,按序生成一个概念体系,他称之为 概念格 (见图 3)。 表 1 科教电影“生物与水”的背景 Table 1 The background of science and education film "biology and water" 序号 A a b c D e f g h I 1 蚂蟥 × × × 2 鱼 × × × × 3 蛙 × × × × × 4 狗 × × × × × 5 水草 × × × × 6 芦苇 × × × × × 7 豆 × × × × 8 玉米 × × × × 第 1 期 汪培庄:因素空间理论——机制主义人工智能理论的数学基础 ·41·