第11卷第5期 智能系统学报 Vol.11 No.5 2016年10月 CAAI Transactions on Intelligent Systems 0ct.2016 D0I:10.11992/is.201603034 网络出版地址:htp:/ww.cnki.net/kcms/detail/23.1538.TP.20160926.0920.002.html 融合蛋白质复合体的人类蛋白互作网络功能模块发现 刘光明,杨柳,高盼盼,王邦军,周雪忠,于剑 (北京交通大学计算机与信息技术学院,北京100044) 摘要:人类蛋白互作网络中功能模块的检测是目前网络医学研究的一个热点问题。好的功能模块可以帮助我们 更好地去理解和认识蛋白质相互作用的分子机理。近年来的一些研究大多数是基于复杂网络中的拓扑模块发现算 法对蛋白质相互作用网铬进行模块划分,然后对其进行生物学上的功能研究。由于PPI网络中的蛋白之间相互作 用的数据获取的不完整,相关研究表明目前人类只获得了人类蛋白之间相互作用数据的10%~20%,其中已经获取 的数据中还包含着一些噪声,这就导致基于拓扑结构的社团检测算法的精度降低。为了克服这个问题,本文将蛋白 质复合体数据融人到模块检测算法中,分别使用K-Means和NMF算法对PPI网络进行模块划分,然后从基因本体和 通路2个方面对检测到的模块进行功能分析。实验结果表明融合了蛋白质复合体的PPI网络更容易得到具有生物 学意义的功能模块。 关键词:蛋白质相互作用网络:蛋白质复合体:功能模块:模块检测:基因本体:通路 中图分类号:TP391文献标志码:A文章编号:1673-4785(2016)05-0703-08 中文引用格式:刘光明,杨柳,高盼盼,等.融合蛋白质复合体的人类蛋白互作网络功能模块发现[J].智能系统学报,2016,11(5): 703-710. 英文引用格式:LIU Guangming,YANG Liu,GAO Panpan,etal.The functional module detection of PPI network by incorporating protein complex data [J].CAAI transactions on intelligent systems,2016,11(5):703-710. The functional module detection of PPI network by incorporating protein complex data LIU Guangming,YANG Liu,GAO Panpan,WANG Bangjun,ZHOU Xuezhong,YU Jian (School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044,China) Abstract:Functional module detection of protein-protein interaction (PPI)network has been a major challenge i- dentified recently by medical researchers.It allows understanding and recognizing the interaction between proteins in an efficient manner.In this study,topological module detection methods,popular in the field of complex protein networks,were applied to the PPI network to obtain these modules,followed by a biological analysis of the topolog- ical modules.The interaction mechanism was observed for only 10%~20%of the protein pairs because of incom- plete PPI data.Furthermore,the data for noise interaction always existed in PPI;therefore,the number of biologi- cally precise modules decreased according to topological community-detection methods.In this study,the protein complex data was incorporated into the PPI network to identify more biologically precise protein modules.K-Means clustering and non-negative matrix factorization algorithms were used to segregate the PPI network into different modules.Gene ontology (GO)and pathway analysis were conducted for each of these modules to quantify their bio- logical significance.The results of the experiments showed that the modules detected by combining the protein com- plex and PPI network demonstrate a higher tendency to achieve larger homogeneity values compared with those de- tected using GO and pathway analysis. Keywords:PPI;protein complex;functional module;module detection;gene ontology;pathway 蛋白质分子是通过与其他蛋白质分子相互作用 量的蛋白质相互作用数据被挖掘出来,从而形成蛋 发挥功能的,近年来随着高通量技术的快速发展,海 白质相互作用网络(protein-protein interaction,PPI)。 网络医学近年来在计算医学领域发展迅速,PPI网 收稿日期:2016-03-18.网络出版日期:2016-09-26 络中的蛋白模块往往具有特定的生物功能。 基金项目:国家自然科学基金项目(61105055,81230086). 通信作者:刘光明.E-mail:guangmingliu@bjtu.cd.cn Barabasi等认为疾病的产生是由于PPI中某个局部
第 11 卷第 5 期 智 能 系 统 学 报 Vol.11 №.5 2016 年 10 月 CAAI Transactions on Intelligent Systems Oct. 2016 DOI:10.11992 / tis.201603034 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160926.0920.002.html 融合蛋白质复合体的人类蛋白互作网络功能模块发现 刘光明,杨柳,高盼盼,王邦军,周雪忠,于剑 ( 北京交通大学 计算机与信息技术学院,北京 100044) 摘 要:人类蛋白互作网络中功能模块的检测是目前网络医学研究的一个热点问题。 好的功能模块可以帮助我们 更好地去理解和认识蛋白质相互作用的分子机理。 近年来的一些研究大多数是基于复杂网络中的拓扑模块发现算 法对蛋白质相互作用网络进行模块划分,然后对其进行生物学上的功能研究。 由于 PPI 网络中的蛋白之间相互作 用的数据获取的不完整,相关研究表明目前人类只获得了人类蛋白之间相互作用数据的10% ~ 20%,其中已经获取 的数据中还包含着一些噪声,这就导致基于拓扑结构的社团检测算法的精度降低。 为了克服这个问题,本文将蛋白 质复合体数据融入到模块检测算法中,分别使用 K⁃Means 和 NMF 算法对 PPI 网络进行模块划分,然后从基因本体和 通路 2 个方面对检测到的模块进行功能分析。 实验结果表明融合了蛋白质复合体的 PPI 网络更容易得到具有生物 学意义的功能模块。 关键词:蛋白质相互作用网络;蛋白质复合体;功能模块;模块检测;基因本体;通路 中图分类号:TP391 文献标志码:A 文章编号:1673⁃4785(2016)05⁃0703⁃08 中文引用格式:刘光明,杨柳,高盼盼,等.融合蛋白质复合体的人类蛋白互作网络功能模块发现[ J]. 智能系统学报, 2016, 11(5): 703⁃710. 英文引用格式:LIU Guangming,YANG Liu,GAO Panpan,et al.The functional module detection of PPI network by incorporating protein complex data [J]. CAAI transactions on intelligent systems, 2016,11(5):703⁃710. The functional module detection of PPI network by incorporating protein complex data LIU Guangming, YANG Liu, GAO Panpan, WANG Bangjun, ZHOU Xuezhong, YU Jian (School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China) Abstract:Functional module detection of protein⁃protein interaction (PPI) network has been a major challenge i⁃ dentified recently by medical researchers. It allows understanding and recognizing the interaction between proteins in an efficient manner. In this study, topological module detection methods, popular in the field of complex protein networks, were applied to the PPI network to obtain these modules, followed by a biological analysis of the topolog⁃ ical modules. The interaction mechanism was observed for only 10% ~20% of the protein pairs because of incom⁃ plete PPI data. Furthermore, the data for noise interaction always existed in PPI; therefore, the number of biologi⁃ cally precise modules decreased according to topological community⁃detection methods. In this study, the protein complex data was incorporated into the PPI network to identify more biologically precise protein modules. K⁃Means clustering and non⁃negative matrix factorization algorithms were used to segregate the PPI network into different modules. Gene ontology (GO) and pathway analysis were conducted for each of these modules to quantify their bio⁃ logical significance. The results of the experiments showed that the modules detected by combining the protein com⁃ plex and PPI network demonstrate a higher tendency to achieve larger homogeneity values compared with those de⁃ tected using GO and pathway analysis. Keywords:PPI; protein complex; functional module; module detection; gene ontology; pathway 收稿日期:2016⁃03⁃18. 网络出版日期:2016⁃09⁃26. 基金项目:国家自然科学基金项目(61105055,81230086). 通信作者:刘光明.E⁃mail:guangmingliu @ bjtu.edu.cn. 蛋白质分子是通过与其他蛋白质分子相互作用 发挥功能的,近年来随着高通量技术的快速发展,海 量的蛋白质相互作用数据被挖掘出来,从而形成蛋 白质相互作用网络(protein⁃protein interaction,PPI)。 网络医学近年来在计算医学领域发展迅速,PPI 网 络中 的 蛋 白 模 块 往 往 具 有 特 定 的 生 物 功 能。 Barabasi 等认为疾病的产生是由于 PPI 中某个局部
·704 智能系统学报 第11卷 的蛋白链接关系发生了紊乱[】,并进一步提出了拓 表示顶点集、E表示边集。矩阵A表示邻接矩阵,A 扑模块、功能模块和疾病模块是存在相同的共有蛋 的定义为 白成员的。大家普遍认为在拓扑结构上链接比较紧 1 (:,y)∈E 密的蛋白在生物功能上也更加相似。基于这个假 Ag20, (1) 其他 设,为了可以精确地寻找到与疾病相关的蛋白模块, 式中:A,表示节点i和节点j有连边,:和表示节 需要先从PPI网络中检测出具有比较显著生物意义 点i和节点j。 的功能模块。 目前功能模块的检测方法主要是使用复杂网络 1.2模块检测算法 模块目前还没有一个统一的定义,大家对模块 领域中的社团划分方法将PPI网络划分为多个拓扑 模块,然后对这些拓扑模块再进行生物功能的检测。 的共识是:模块内部的边比较紧密而模块之间的边 Bader等提出了一种叫做MCODE的方法,该方法首 要尽量稀硫[6。本文主要使用K均值和非负矩阵 先根据节点的邻居对每一个节点赋一个权重,然后 分解2种算法对PPI网络进行模块检测。 选择权重较大的节点作为种子节点进行社团划 1)K均值) 分)。该方法可以发现重叠的蛋白质功能模块。 K均值是一个比较经典的聚类算法。给定一个 DPClus等使用类似的方法对网络中的每条边赋权 含有N个节点的数据集{x1,x2,…,x},其中每个节 重,然后选择权重最大的边的节点作为初始种子节 点的维度是D维,将该数据集划分为k个类。每一 点进行社团划分I)。Edward等提出了一种基于熵 类的类中心表示为44,为每一个节点定义一个指示 的方法进行功能模块的检测,该方法首先随机选择 向量rt,其物理含义是如果节点n的类标号为k,则 一个节点作为种子节点,然后将该种子节点和其周 值为1:否则为0。 围的邻居作为一个种子类,通过嫡的减少来移除边 K均值算法的主要思想就是所有样本点到各自 界点和增加新节点形成蛋白模块,直到遍历完网络 的类中心的距离最短,其目标函数为 中的所有节点4。 miW=立会rlx-4I (2) 上述功能模块划分算法主要是根据PPI中的链 接关系,也就是只找到了在拓扑结构上链接紧密的 根据式(2)可以得到类中心的迭代公式为 模块。由于目前人类所获取的蛋白相互作用数据只 ∑rwx 获取了实际相互作用的10%~20%[),所以PPI网 4g三 ∑.re (3) 络是比较稀疏的,使用传统的复杂网络中的社团划 其代表的物理含义是第k个类中所有样本点的 分方法并不能保证精确地找到具有某种生物功能的 均值作为该类的类中心,然后其他节点根据与该类 模块。蛋白质复合体(protein complex)是2个及其 中心的距离来判断是不是属于这个类。通过不停地 以上的蛋白相互作用而形成的复合物,一般分为结 迭代,直到所有的类中心不在改变为止。 构型的蛋白质复合体和功能型蛋白质复合体2大 2)非负矩阵分解 类。目前关于蛋白质复合体的数据已经可以方便地 非负矩阵分解最早是由Lee和Seung8)提出 获取,因此可以考虑将蛋白质复合体的数据融合到 PPI网络中,从而可以提高功能模块的发现精度。 的。若一个矩阵其所有的元素没有负数,这样的矩 本文首先将蛋白质复合体数据融合到PPI网络 阵叫做非负矩阵。对一个n×m的非负矩阵X,其行 中,然后使用K均值(K-Means)和非负矩阵分解 向量代表特征,列向量代表样本。非负矩阵分解的 (non-negative matrix factorization,NMF)2种算法对 任务就是把X分解为两个非负矩阵使得X≈FG, 融合后的数据进行模块划分,针对得到的模块进行 其中F是一个n×k的矩阵,G是mxk的矩阵(k为 基因本体(gene ontolog,GO)和通路(pathway)富集 类的个数)。其目标函数为 分析并进一步计算模块的G0同质性。 minJ=IX-FGT 2 (4) 式中:G为最后的划分矩阵。F和G的迭代规则 社团划分及模块生物学分析 如下: 1.1PPI网络的表示 (XG). Ft=F PPI网可以表示为一个无向无权图,其中V (FGG)
的蛋白链接关系发生了紊乱[1] ,并进一步提出了拓 扑模块、功能模块和疾病模块是存在相同的共有蛋 白成员的。 大家普遍认为在拓扑结构上链接比较紧 密的蛋白在生物功能上也更加相似。 基于这个假 设,为了可以精确地寻找到与疾病相关的蛋白模块, 需要先从 PPI 网络中检测出具有比较显著生物意义 的功能模块。 目前功能模块的检测方法主要是使用复杂网络 领域中的社团划分方法将 PPI 网络划分为多个拓扑 模块,然后对这些拓扑模块再进行生物功能的检测。 Bader 等提出了一种叫做 MCODE 的方法,该方法首 先根据节点的邻居对每一个节点赋一个权重,然后 选择权重较大的节点作为种子节点进行社团划 分[2] 。 该方法可以发现重叠的蛋白质功能模块。 DPClus 等使用类似的方法对网络中的每条边赋权 重,然后选择权重最大的边的节点作为初始种子节 点进行社团划分[3] 。 Edward 等提出了一种基于熵 的方法进行功能模块的检测,该方法首先随机选择 一个节点作为种子节点,然后将该种子节点和其周 围的邻居作为一个种子类,通过熵的减少来移除边 界点和增加新节点形成蛋白模块,直到遍历完网络 中的所有节点[4] 。 上述功能模块划分算法主要是根据 PPI 中的链 接关系,也就是只找到了在拓扑结构上链接紧密的 模块。 由于目前人类所获取的蛋白相互作用数据只 获取了实际相互作用的 10% ~ 20% [5] ,所以 PPI 网 络是比较稀疏的,使用传统的复杂网络中的社团划 分方法并不能保证精确地找到具有某种生物功能的 模块。 蛋白质复合体( protein complex)是 2 个及其 以上的蛋白相互作用而形成的复合物,一般分为结 构型的蛋白质复合体和功能型蛋白质复合体 2 大 类。 目前关于蛋白质复合体的数据已经可以方便地 获取,因此可以考虑将蛋白质复合体的数据融合到 PPI 网络中,从而可以提高功能模块的发现精度。 本文首先将蛋白质复合体数据融合到 PPI 网络 中,然后使用 K 均值(K⁃Means) 和非负矩阵分解 (non⁃negative matrix factorization,NMF) 2 种算法对 融合后的数据进行模块划分,针对得到的模块进行 基因本体(gene ontology,GO)和通路(pathway)富集 分析并进一步计算模块的 GO 同质性。 1 社团划分及模块生物学分析 1.1 PPI 网络的表示 PPI 网络可以表示为一个无向无权图,其中 V 表示顶点集、E 表示边集。 矩阵 A 表示邻接矩阵,A 的定义为 Aij = 1, 0, (vi,vj) ∈ E 其他 { (1) 式中:Aij表示节点 i 和节点 j 有连边,vi 和 vj 表示节 点 i 和节点 j。 1.2 模块检测算法 模块目前还没有一个统一的定义,大家对模块 的共识是:模块内部的边比较紧密而模块之间的边 要尽量稀疏[6] 。 本文主要使用 K 均值和非负矩阵 分解 2 种算法对 PPI 网络进行模块检测。 1) K 均值[7] K 均值是一个比较经典的聚类算法。 给定一个 含有 N 个节点的数据集 x1 ,x2 ,…,xn { } ,其中每个节 点的维度是 D 维,将该数据集划分为 k 个类。 每一 类的类中心表示为 μk,为每一个节点定义一个指示 向量 rnk,其物理含义是如果节点 n 的类标号为 k,则 值为 1;否则为 0。 K 均值算法的主要思想就是所有样本点到各自 的类中心的距离最短,其目标函数为 minJ = ∑ N n = 1∑ K k = 1 rnk‖xn - uk‖ 2 (2) 根据式(2)可以得到类中心的迭代公式为 μk = ∑n rnkxn ∑n rnk (3) 其代表的物理含义是第 k 个类中所有样本点的 均值作为该类的类中心,然后其他节点根据与该类 中心的距离来判断是不是属于这个类。 通过不停地 迭代,直到所有的类中心不在改变为止。 2)非负矩阵分解 非负矩阵分解最早是由 Lee 和 Seung [8] 提出 的。 若一个矩阵其所有的元素没有负数,这样的矩 阵叫做非负矩阵。 对一个 n×m 的非负矩阵 X,其行 向量代表特征,列向量代表样本。 非负矩阵分解的 任务就是把 X 分解为两个非负矩阵使得 X≈FG T , 其中 F 是一个 n×k 的矩阵,G 是 m×k 的矩阵( k 为 类的个数)。 其目标函数为 minJ = ‖X - FG T‖2 (4) 式中:G 为最后的划分矩阵。 F 和 G 的迭代规则 如下: Fik = Fik (XG)ik (FG TG)ik ·704· 智 能 系 统 学 报 第 11 卷
第5期 刘光明,等:融合蛋白质复合体的人类蛋白互作网络功能模块发现 ·705. (X'F)a 蛋白质复合体是具有相同功能的蛋白质高度交互的 Ga=Ga(GFTF) (5) 集合,具有较强的生物特性。而蛋白质复合体本身 当误差小于某个阈值a或达到最大迭代次数时 是PPI的一部分,因此将蛋白质复合体数据引入到 算法终止,F矩阵描述了网络中节点隶属于某个社 PPI中,可以弥补其相互作用数据少并且存在噪声 区的概率。 的缺陷。本文提取了1653个与人类相关的蛋白质 1.3模块的富集分析 复合体数据,并且形成了31550条蛋白质相互作用 为了确定每一个模块具体的生物功能,对每个 数据。 模块分别进行G0和Pathway富集分析。每个模块 22融合蛋白质复合体的PPI网络模块检测 会对所有的G0术语或者Pathway进行分析,并且 将从蛋白质复合体数据中抽取的31550条蛋 返回具有最小P-value的GO术语或Pathway表示模 白质相互作用数据融入到PPI网络中,从而在一定 块中的蛋白质在该G0术语或者Pathway中出现了 程度上弥补了PPI数据不足的缺点。由于从蛋白质 富集,即该G0术语描述了这个模块的功能或者这 复合体数据中抽取的这些数据具有很高的精确度, 个模块中的蛋白共同参与了该Pathway。P-value的 融入这些数据后可以在一定程度上减少PPI中的噪 计算为 声数据对后续分析的影响。 主要是将抽取到的蛋白质之间的相互作用数据 P(X=x>q)=】 ,()() (6) =g () 融入到从String9提取的蛋白网络对应的邻接矩阵 式中:k代表模块中蛋白的数量,9是模块中被注解 A中,具体融入方法参照Zhang等提出的方式, 的蛋白质数量,m是整个网络中的蛋白质的数量。 将从蛋白复合体中提取出的蛋白质互作数据集合记 1.4模块的同质性分析 为C,然后通过融合C和A得到新的邻接矩阵: 一个蛋白质可能被多个G0术语注解,同时一 (i,j)EC 条G0术语也会注解多个蛋白质。一个模块中的蛋 其他 (8) 白经常会出现多个G0术语描述其功能,因此使用 式中:w是权值,本文中取值为2,融合过程如图1 同质性去衡量模块内所有的蛋白质相互作用产生的 所示。然后根据新得到的邻接矩阵A所代表的新 生物功能的强弱,同质性高则说明该模块内的蛋白 的PPI网络进行模块检测。详细模块检测算法参照 质的功能越相近,其计算公式为 算法1。 H:=max 「G (7) 作树络 式中:G代表模块中有G0注解的蛋白质的数量,G 合 代表模块中共享同一个G0术语的蛋白的数量。 蛋白质复合体 融合之后的 2 融合蛋白质复合体的功能模块检测 网络 图1蛋白互作网络生成过程 2.1数据的来源及整理 Fig.1 The generation process of protein-protein net- STRING9.1)提供了蛋白质与蛋白质相互作用 work 关系的数据,该数据中包含了一些通过生物实验获 算法1蛋白模块检测算法 得的数据,也包括一些使用计算方法预测出来的数 1)输入A,String9.1对应的邻接矩阵:A:A和 据并使用Score值量化。为了提高PPI网络数据的 蛋白质复合体数据C融合形成的新的邻接矩阵;K: 可靠性,筛选出与人类有关且Score大于700的蛋 蛋白模块的个数。 白相互作用数据,然后将蛋白编码转换为NCBI中 2)fori=1:W/每一行代表一个数据点的属性 名称,最终得到的PPI网络里包括14380个蛋白质 (U,G)=K-Means(A,K)or (F,G)=NMF(A,K) 和218163条蛋白质相互作用。 3)输出G:每个蛋白质对应的类标号 CORUM1o]存储的是哺乳动物组织器官内经过 算法1将融合了蛋白质复合体的PPI网络划分 人工审核过的蛋白质复合体数据,这些数据都是通 为K个模块,图2是分别使用NMF和K-Means社团 过个体实验获取的,所以数据噪声少并且准确度高
Gik = Gik (X TF)ik (GF TF)ik (5) 当误差小于某个阈值 a 或达到最大迭代次数时 算法终止,F 矩阵描述了网络中节点隶属于某个社 区的概率。 1.3 模块的富集分析 为了确定每一个模块具体的生物功能,对每个 模块分别进行 GO 和 Pathway 富集分析。 每个模块 会对所有的 GO 术语或者 Pathway 进行分析,并且 返回具有最小 P⁃value 的 GO 术语或 Pathway 表示模 块中的蛋白质在该 GO 术语或者 Pathway 中出现了 富集,即该 GO 术语描述了这个模块的功能或者这 个模块中的蛋白共同参与了该 Pathway。 P⁃value 的 计算为 P(X = x > q) = ∑ m x = q ( m x )( t-m k-x ) ( t k) (6) 式中:k 代表模块中蛋白的数量,q 是模块中被注解 的蛋白质数量,m 是整个网络中的蛋白质的数量。 1.4 模块的同质性分析 一个蛋白质可能被多个 GO 术语注解,同时一 条 GO 术语也会注解多个蛋白质。 一个模块中的蛋 白经常会出现多个 GO 术语描述其功能,因此使用 同质性去衡量模块内所有的蛋白质相互作用产生的 生物功能的强弱,同质性高则说明该模块内的蛋白 质的功能越相近,其计算公式为 Hi = maxj G j i Gi é ë ê ê ù û ú ú (7) 式中:Gi 代表模块中有 GO 注解的蛋白质的数量,G j i 代表模块中共享同一个 GO 术语的蛋白的数量。 2 融合蛋白质复合体的功能模块检测 2.1 数据的来源及整理 STRING 9.1 [9]提供了蛋白质与蛋白质相互作用 关系的数据,该数据中包含了一些通过生物实验获 得的数据,也包括一些使用计算方法预测出来的数 据并使用 Score 值量化。 为了提高 PPI 网络数据的 可靠性,筛选出与人类有关且 Score 大于 700 的蛋 白相互作用数据,然后将蛋白编码转换为 NCBI 中 名称,最终得到的 PPI 网络里包括 14 380 个蛋白质 和 218 163 条蛋白质相互作用。 CORUM [10]存储的是哺乳动物组织器官内经过 人工审核过的蛋白质复合体数据,这些数据都是通 过个体实验获取的,所以数据噪声少并且准确度高。 蛋白质复合体是具有相同功能的蛋白质高度交互的 集合,具有较强的生物特性。 而蛋白质复合体本身 是 PPI 的一部分,因此将蛋白质复合体数据引入到 PPI 中,可以弥补其相互作用数据少并且存在噪声 的缺陷。 本文提取了 1 653 个与人类相关的蛋白质 复合体数据,并且形成了 31 550 条蛋白质相互作用 数据。 2.2 融合蛋白质复合体的 PPI 网络模块检测 将从蛋白质复合体数据中抽取的 31 550 条蛋 白质相互作用数据融入到 PPI 网络中,从而在一定 程度上弥补了 PPI 数据不足的缺点。 由于从蛋白质 复合体数据中抽取的这些数据具有很高的精确度, 融入这些数据后可以在一定程度上减少 PPI 中的噪 声数据对后续分析的影响。 主要是将抽取到的蛋白质之间的相互作用数据 融入到从 String9 提取的蛋白网络对应的邻接矩阵 A 中,具体融入方法参照 Zhang 等[11] 提出的方式, 将从蛋白复合体中提取出的蛋白质互作数据集合记 为 C,然后通过融合 C 和 A 得到新的邻接矩阵: A ~ ij = w, (i,j) ∈ C {Aij, 其他 (8) 式中:w 是权值,本文中取值为 2,融合过程如图 1 所示。 然后根据新得到的邻接矩阵 A ~ 所代表的新 的 PPI 网络进行模块检测。 详细模块检测算法参照 算法 1。 图 1 蛋白互作网络生成过程 Fig.1 The generation process of protein⁃protein net⁃ work 算法 1 蛋白模块检测算法 1)输入 A,String9.1 对应的邻接矩阵; A ~ :A 和 蛋白质复合体数据 C 融合形成的新的邻接矩阵;K: 蛋白模块的个数。 2)for i = 1:N / / 每一行代表一个数据点的属性 (U,G)= K⁃Means(A ~ ,K) or (F,G) = NMF(A ~ ,K) 3)输出 Gnew :每个蛋白质对应的类标号 算法 1 将融合了蛋白质复合体的 PPI 网络划分 为 K 个模块,图 2 是分别使用 NMF 和 K⁃Means 社团 第 5 期 刘光明,等:融合蛋白质复合体的人类蛋白互作网络功能模块发现 ·705·
·706 智能系统学报 第11卷 检测算法检测到的模块238与模块76的拓扑结 出模块个数大于2的模块,最终检测结果如表1 构图。 所示。 表1不同方法划分的模块个数及最大、最小模块 Table 1 The number of modules and the size of maximal and minimal module by different approaches 模块检测算法模块个数最小模块 最大模块 K-Means 266 3 8122 IncreK-means 277 3 8157 NMF 301 3 307 IncreNMF 300 3 328 从表1可以观察到K-Means算法容易产生比较 大的模块,其蛋白质的规模约占整个网络的56%, (a)模块238 一般来说这种规模比较大的模块对蛋白质的生物功 能分析意义不是很大,而且模块个数在10以下的模 块占所有模块的27%左右:而NMF算法检测到的最 大模块的规模只占PPI网络的2.28%,而且模块规 模小于10的模块占所有模块的比率只有10%,更容 易检测到相对规模较中等的模块,更容易获得比较 统一的生物功能。 基因本体联合建立了一套适用于不同物种的语 义词汇标准,该标准对蛋白质功能等方面进行限定 及描述,该标准能够随着研究的深入和时间的发展 而不断完善。G0)术语就是这个不断增长完善的 (b)模块76 语义词汇标准的数据库,主要对基因和蛋白质进行 图2模块238和模块76的拓扑结构 注释并且进一步阐明了蛋白质和用于定义它们的 Fig.2 The topological structure of module 238 and G0术语之间的关系。G0术语是生物过程(biologi-- module 76 cal process,BP)、细胞组件(cellular component,CC) 图2中节点的名字就是PPI中蛋白质在NCBI 和分子功能(molecular function,MF)。每个种类都 中对应的名字,这个名字是唯一的,本文中就是根据 是一种树形结构,我们总共抽取了40848条G0术 这个名字将从Sring9数据中抽取到的PPI同蛋白质 语,其中生物过程有26958条、细胞组件有3653 复合体数据融合到了一起。可以看出检测到的模块 条、分子功能包括10697条。 在内部的连接比较紧密。接下来对使用算法1检测 根据式(6)对每个模块根据G0术语的3个种 到的拓扑模块进行生物学意义上的分析。 类分别进行了富集分析,也就是为每一个蛋白质拓 2.3模块的富集分析及同质性分析 扑模块进行了p-value值的计算,然后选取最小的p I)GO术语和Pathway富集结果 value值对应的G0术语作为该模块的生物功能描 对原始的PPI网络和通过融合蛋白质复合体之 述,从而确定该模块中的生物功能。 后的新网络分别进行模块检测,然后对这些模块进 为了方便比较融合蛋白质复合体数据后检测到 行富集分析。为了更好地反应模块的富集结果及同 的模块与原始PPI网络检测到的模块之间的G0术 质性,只考虑个数多于2的模块,因为个数为2的模 语富集情况,分别使用G0术语的3个类别对应的 块就只包含一条边,容易对富集结果产生噪声。通 所有的GO术语,使用K-Means和NMF两种算法对 过对原始的PPI网络和融合蛋白质复合体的网络分 原始PPI网络和融合了蛋白质复合体的PPI网络划 别使用K-Means和NMF对其进行模块划分,并筛选 分的模块进行了富集分析,然后对比分析结果。实
检测算法检测到的模块 238 与模块 76 的拓扑结 构图。 图 2 模块 238 和模块 76 的拓扑结构 Fig. 2 The topological structure of module 238 and module 76 图 2 中节点的名字就是 PPI 中蛋白质在 NCBI 中对应的名字,这个名字是唯一的,本文中就是根据 这个名字将从 Sring9 数据中抽取到的 PPI 同蛋白质 复合体数据融合到了一起。 可以看出检测到的模块 在内部的连接比较紧密。 接下来对使用算法 1 检测 到的拓扑模块进行生物学意义上的分析。 2.3 模块的富集分析及同质性分析 1)GO 术语和 Pathway 富集结果 对原始的 PPI 网络和通过融合蛋白质复合体之 后的新网络分别进行模块检测,然后对这些模块进 行富集分析。 为了更好地反应模块的富集结果及同 质性,只考虑个数多于 2 的模块,因为个数为 2 的模 块就只包含一条边,容易对富集结果产生噪声。 通 过对原始的 PPI 网络和融合蛋白质复合体的网络分 别使用 K⁃Means 和 NMF 对其进行模块划分,并筛选 出模块个数大于 2 的模块,最终检测结果如表 1 所示。 表 1 不同方法划分的模块个数及最大、最小模块 Table 1 The number of modules and the size of maximal and minimal module by different approaches 模块检测算法 模块个数 最小模块 最大模块 K⁃Means 266 3 8 122 IncreK⁃means 277 3 8 157 NMF 301 3 307 IncreNMF 300 3 328 从表 1 可以观察到 K⁃Means 算法容易产生比较 大的模块,其蛋白质的规模约占整个网络的 56%, 一般来说这种规模比较大的模块对蛋白质的生物功 能分析意义不是很大,而且模块个数在 10 以下的模 块占所有模块的 27%左右;而 NMF 算法检测到的最 大模块的规模只占 PPI 网络的 2.28%,而且模块规 模小于 10 的模块占所有模块的比率只有 10%,更容 易检测到相对规模较中等的模块,更容易获得比较 统一的生物功能。 基因本体联合建立了一套适用于不同物种的语 义词汇标准,该标准对蛋白质功能等方面进行限定 及描述,该标准能够随着研究的深入和时间的发展 而不断完善。 GO [12]术语就是这个不断增长完善的 语义词汇标准的数据库,主要对基因和蛋白质进行 注释并且进一步阐明了蛋白质和用于定义它们的 GO 术语之间的关系。 GO 术语是生物过程( biologi⁃ cal process,BP)、细胞组件( cellular component,CC) 和分子功能(molecular function,MF)。 每个种类都 是一种树形结构,我们总共抽取了 40 848 条 GO 术 语,其中生物过程有 26 958 条、细胞组件有 3 653 条、分子功能包括 10 697 条。 根据式(6)对每个模块根据 GO 术语的 3 个种 类分别进行了富集分析,也就是为每一个蛋白质拓 扑模块进行了 p⁃value 值的计算,然后选取最小的 p⁃ value 值对应的 GO 术语作为该模块的生物功能描 述,从而确定该模块中的生物功能。 为了方便比较融合蛋白质复合体数据后检测到 的模块与原始 PPI 网络检测到的模块之间的 GO 术 语富集情况,分别使用 GO 术语的 3 个类别对应的 所有的 GO 术语,使用 K⁃Means 和 NMF 两种算法对 原始 PPI 网络和融合了蛋白质复合体的 PPI 网络划 分的模块进行了富集分析,然后对比分析结果。 实 ·706· 智 能 系 统 学 报 第 11 卷
第5期 刘光明,等:融合蛋白质复合体的人类蛋白互作网络功能模块发现 .707· 验表明,融合了蛋白质复合体后划分得到的模块在 3个方面罗列了实验结果,可以看到融合了蛋白质 GO术语上的富集程度要比直接使用原始PPI网络 复合体之后的PPI网络得到的模块,在富集程度上 的模块富集程度有显著的提升。 比原始模块的p-value值要低,这说明模块的富集程 表2列举了4种方法对应的前20个最小的模 度更好,融合蛋白质复合体的模块更具有显著生物 块富集结果,分别从生物过程、细胞组件和生物功能 功能上的意义。 表2融合蛋白质复合体的模块与原始PPI模块的G0富集(p-value) Table 2 GO enrichment of topological modules comparing mixed protein complex with the original PPI network K-Means IncreK-Means NMF IncreNMF BP cC MF BP CC MF BP CC MF BP CC MF 0.0x10°9.4x1050.0x10°0.0x10°2.3x1060.0x100.0x103.4×1090.0x10 0.0x10P1.9x10am0.00x10 5.5×1001.79x1085.33×1054.9×1001.20x1023.9x101.12×108.49x1054.85×10512.73×1091.00x1005.86x108 2.79x1062.13x1081.45×10686.03×1091.94x10s3.87×1022.44x1063.05x1021.25×1014.64×1092.00x1041.28×102 1.53x1063.75x1065.63x1081.24×1086.97×1041.54×1089.89x1081.55×1063.19x1081.93x10$8.43×10m3.66x102 3.49x1003.80x1065.95x10482.37×1016.99x104.27×103g3.11x10%1.02x1035.47×102.35x10s9.42×1084.10x105 1.50x1019.70x10-319.20x1072.39x1011.55x1091.45×1061.12x1043.30x105.46×1033.23×1062.20x10-21.61×1024 6.73×1011.27×1051.54×10317.20×1015.13×1031.12×10381.39×1042.23×101.79×10241.25×1081.27×101.76×1024 3.43x1095.71×1052.60x1098.23×1011.12x10”2.26×101.48x1015.26×10244.14×1033.02×108135×102.45×104 7.94×1081.02x1042.94×1024.44×1004.89x102.77×10”2.01×10311.55×1032.99×1027.83×1021.38×1034.95×102 2.17×1051.05×1045.71×101.71×1056.19x101.25×1021.38×1003.29x1021.38×1097.97×1018.45×101.05×102 3.22×1051.67×1044.51×1082.94×1057.81×106.73×1042.52x1032.78x1022.07×1081.68×1025.48×103.18×102 1.97×10302.54x10246.86×10281.34×1042.42x10249.83x102298x1022.97×1022.10x10181.04×1027.57×1032.21×100 1.76×10282.79x102.26×1021.85×10312.69x10243.77×1024.38x1023.30x1024.18x1081.34×1041.20x10242.50×10m 1.17×102”3.16x1024.85×10-14.43×1012.05x1034.76×1024.71×1023.80x1021.02x10n1.46x10242.04×1031.59x109 5.06×1076.54×1023.03×10201.15×102.76×1021.84×1016.08×1026.65×10211.20×1071.94×10242.90×10-31.17×1018 1.80x10256.00x10212.98×1081.83×10”4.14x10212.35×1017.70x10211.02×10194.7×1074.55×1025.77×1081.92×1018 2.75×109.72×1022.31×10162.69×1025.63×1023.44×10211.17×1001.12×1091.26×10169.95×1025.57×1021.16×10n 1.47×1051.15x1084.27×1064.64×1021.63x1093.87×1091.54×10201.42×10193.92×1061.14×10-217.88×1021.76x10-7 2.46×101.92x106.56×1069.92×1024.42×1091.08×10183.36x1002.06x10196.25×10161.99x10213.93×1025.89x10n 1.19x1021.94×1086.63x10168.00x106.78×1095.57×10~183.92×1001.02x10-186.69×1062.06x10-21.38×10D7.71×10 同G0的富集分析一样,我们也对模块中蛋白条来自Reactome数据库。表3列举了4种方法中 质在Pathway上进行了相应的富集分析,主要是统 对应的前20个最小的模块在Pathway上的富集结 计一个模块内的蛋白质参与同一条Pathway的程 果,从中可以看到融合了蛋白质复合体之后的PPI 度。Pathway数据主要使用PIDI(pathway interac- 网络的模块,在Pathway上的富集程度比原始的模 tion database),该数据库由NCl-Nature、BioCarta和块的p-value值要低,这说明模块内的蛋白质更多地 Reactome.3个数据库整合而成。在本文中只使用分参与了同一条Pathway,从而可以证明融合了蛋白质 子类型为“蛋白质”和“蛋白质复合体”的数据。最 复合体的模块更倾向于在同样的Pathway中发挥生 终提取了1513条Pathway数据,其中223条来自 物作用,识别Pathway可以帮助人们进一步认识蛋 NCI-Nature数据库、254条来自BioCarta数据库、838 白分子之间相互作用的分子机理
验表明,融合了蛋白质复合体后划分得到的模块在 GO 术语上的富集程度要比直接使用原始 PPI 网络 的模块富集程度有显著的提升。 表 2 列举了 4 种方法对应的前 20 个最小的模 块富集结果,分别从生物过程、细胞组件和生物功能 3 个方面罗列了实验结果,可以看到融合了蛋白质 复合体之后的 PPI 网络得到的模块,在富集程度上 比原始模块的p⁃value值要低,这说明模块的富集程 度更好,融合蛋白质复合体的模块更具有显著生物 功能上的意义。 表 2 融合蛋白质复合体的模块与原始 PPI 模块的 GO 富集(p⁃value) Table 2 GO enrichment of topological modules comparing mixed protein complex with the original PPI network K⁃Means IncreK⁃Means NMF IncreNMF BP CC MF BP CC MF BP CC MF BP CC MF 0.0×10 0 9.4×10 -175 0.0×10 0 0.0×10 0 2.3×10 -176 0.0×10 0 0.0×10 0 3.4×10 -193 0.0×10 0 0.0×10 0 1.9×10 -207 0.00×10 0 5.5×10 -104 1.79×10 -78 5.33×10 -105 4.9×10 -104 1.20×10 -52 3.9×10 -106 1.12×10 -48 8.49×10 -55 4.85×10 -51 2.73×10 -49 1.00×10 -50 5.86×10 -43 2.79×10 -66 2.13×10 -48 1.45×10 -68 6.03×10 -59 1.94×10 -48 3.87×10 -52 2.44×10 -46 3.05×10 -52 1.25×10 -41 4.64×10 -39 2.00×10 -44 1.28×10 -42 1.53×10 -56 3.75×10 -46 5.63×10 -43 1.24×10 -48 6.97×10 -44 1.54×10 -48 9.89×10 -38 1.55×10 -43 3.19×10 -38 1.93×10 -38 8.43×10 -28 3.66×10 -32 3.49×10 -50 3.80×10 -46 5.95×10 -43 2.37×10 -41 6.99×10 -41 4.27×10 -38 3.11×10 -36 1.02×10 -28 5.47×10 -32 2.35×10 -38 9.42×10 -28 4.10×10 -25 1.50×10 -41 9.70×10 -31 9.20×10 -37 2.39×10 -41 1.55×10 -29 1.45×10 -36 1.12×10 -34 3.30×10 -28 5.46×10 -25 3.23×10 -36 2.20×10 -27 1.61×10 -24 6.73×10 -41 1.27×10 -25 1.54×10 -31 7.20×10 -41 5.13×10 -28 1.12×10 -33 1.39×10 -34 2.23×10 -26 1.79×10 -24 1.25×10 -33 1.27×10 -26 1.76×10 -24 3.43×10 -39 5.71×10 -25 2.60×10 -29 8.23×10 -41 1.12×10 -27 2.26×10 -33 1.48×10 -31 5.26×10 -24 4.14×10 -23 3.02×10 -33 1.35×10 -26 2.45×10 -24 7.94×10 -38 1.02×10 -24 2.94×10 -27 4.44×10 -40 4.89×10 -26 2.77×10 -27 2.01×10 -31 1.55×10 -23 2.99×10 -22 7.83×10 -32 1.38×10 -26 4.95×10 -23 2.17×10 -35 1.05×10 -24 5.71×10 -27 1.71×10 -35 6.19×10 -26 1.25×10 -26 1.38×10 -30 3.29×10 -23 1.38×10 -19 7.97×10 -31 8.45×10 -26 1.05×10 -22 3.22×10 -35 1.67×10 -24 4.51×10 -23 2.94×10 -35 7.81×10 -26 6.73×10 -24 2.52×10 -29 2.78×10 -22 2.07×10 -18 1.68×10 -29 5.48×10 -25 3.18×10 -22 1.97×10 -30 2.54×10 -24 6.86×10 -23 1.34×10 -34 2.42×10 -24 9.83×10 -23 2.98×10 -22 2.97×10 -22 2.10×10 -18 1.04×10 -25 7.57×10 -25 2.21×10 -20 1.76×10 -28 2.79×10 -23 2.26×10 -21 1.85×10 -31 2.69×10 -24 3.77×10 -22 4.38×10 -22 3.30×10 -21 4.18×10 -18 1.34×10 -24 1.20×10 -24 2.50×10 -20 1.17×10 -27 3.16×10 -23 4.85×10 -21 4.43×10 -31 2.05×10 -23 4.76×10 -22 4.71×10 -22 3.80×10 -21 1.02×10 -17 1.46×10 -24 2.04×10 -23 1.59×10 -19 5.06×10 -27 6.54×10 -22 3.03×10 -20 1.15×10 -27 2.76×10 -23 1.84×10 -21 6.08×10 -22 6.65×10 -21 1.20×10 -17 1.94×10 -24 2.90×10 -23 1.17×10 -18 1.80×10 -25 6.00×10 -21 2.98×10 -18 1.83×10 -27 4.14×10 -21 2.35×10 -21 7.70×10 -21 1.02×10 -19 4.77×10 -17 4.55×10 -22 5.77×10 -23 1.92×10 -18 2.75×10 -27 9.72×10 -21 2.31×10 -16 2.69×10 -27 5.63×10 -21 3.44×10 -21 1.17×10 -20 1.12×10 -19 1.26×10 -16 9.95×10 -22 5.57×10 -22 1.16×10 -17 1.47×10 -25 1.15×10 -18 4.27×10 -16 4.64×10 -27 1.63×10 -19 3.87×10 -19 1.54×10 -20 1.42×10 -19 3.92×10 -16 1.14×10 -21 7.88×10 -22 1.76×10 -17 2.46×10 -23 1.92×10 -18 6.56×10 -16 9.92×10 -27 4.42×10 -19 1.08×10 -18 3.36×10 -20 2.06×10 -19 6.25×10 -16 1.99×10 -21 3.93×10 -21 5.89×10 -17 1.19×10 -22 1.94×10 -18 6.63×10 -16 8.00×10 -25 6.78×10 -19 5.57×10 -18 3.92×10 -20 1.02×10 -18 6.69×10 -16 2.06×10 -21 1.38×10 -20 7.71×10 -17 同 GO 的富集分析一样,我们也对模块中蛋白 质在 Pathway 上进行了相应的富集分析,主要是统 计一个模块内的蛋白质参与同一条 Pathway 的程 度。 Pathway 数据主要使用 PID [13] ( pathway interac⁃ tion database),该数据库由 NCI⁃Nature、BioCarta 和 Reactome3 个数据库整合而成。 在本文中只使用分 子类型为“蛋白质”和“蛋白质复合体”的数据。 最 终提取了 1 513 条 Pathway 数据,其中 223 条来自 NCI⁃Nature 数据库、254 条来自 BioCarta 数据库、838 条来自 Reactome 数据库。 表 3 列举了 4 种方法中 对应的前 20 个最小的模块在 Pathway 上的富集结 果,从中可以看到融合了蛋白质复合体之后的 PPI 网络的模块,在 Pathway 上的富集程度比原始的模 块的 p⁃value 值要低,这说明模块内的蛋白质更多地 参与了同一条 Pathway,从而可以证明融合了蛋白质 复合体的模块更倾向于在同样的 Pathway 中发挥生 物作用,识别 Pathway 可以帮助人们进一步认识蛋 白分子之间相互作用的分子机理。 第 5 期 刘光明,等:融合蛋白质复合体的人类蛋白互作网络功能模块发现 ·707·