【领域前瞻】 术领导与产业联盟 (1)Trust and Confidence in IT Systems and 1.目标特色:音视频信源编码的重大国家需求。 Applications 2.技术领导:开发音视频编解码的重要专利技 ▲ Identity Manageme 3.产业联盟:领导国内外产业界和学术界创造竞 (2 )Management and Exploitation of Data 争力强的标准池。 A Information Discovery, Use, and Sharin (3) Future Information Systems 3:存储中心的历史经验:产品化的目标和 1.目标特色:基于自主先进技术、稳定可靠的网 (4)IT in Science and Engineerin 络存储产品。 A Enabling Scientific Discovery 2.工程特色:高效率实施的工程管理流程(test- A Virtual Measurement Systems build,版本管理思路)。 3. NIST ITL Core Competency: IT measurements and 3. Living in the future:存储中心员工学生都用自 tandards 己开发的系统 比如,很多单位都在研究复杂ⅣT系统,但NIST IT Lab的特色和竞争力是其对IT技术的度量研究和 例4: Google的研究开发经验:反木桶原则 技术标准开发。对于智能信息处理领域,现在没有通 不是照顾后进(木桶原则),求最小公约数,而用的度量,他们则通过提供统一标准开放的TREC竞 是鼓励先进。 赛提供一种“度量”。 同行对ITL的定位和工作成绩是肯定的。但是 例5: NST ITL如何突出战略特色 为信息世界研究并提供像物理世界那样简明普适的度 NIST的 nformation Technology lab(简称IL,该量是非常艰苦的工作,目前的进展还很小,甚至还没 Lab的前身是美国国家标准局计算机科学与技术研究有出现一些可被同行广泛应用的开发度量的方法。这 所)与中科院计算所有很多类似的地方。比如,他们也是同行指出的IL值得改进的一个重要工作。 的使命都含有源头成分。NIST的 IT Lab目前雇佣员 工30人,体量与中科院计算所接近。该实验室在标 重新审视计算所价值定位 准、度量方面是国际知名单位。比如,它创建并领导 张劲夫总结科学院的价值使命,简称为“出成果 IEEE802.16无线宽带标准工作组,主办智能信息处出人才”。当时,成果和人才都是面向国家战略需求。 理中的TREC国际竞赛等。 根据新时期中国科学院办院方针,2001年发布的《中 NIST ITL现任主任是 Cita furlani博士,曾任美国科院计算所发展战略》制定了“龙头、源头、领头” NCO主任。 目标。 NIST IT Lab通过其定位( Mission)、研究组合 本次研究重新审视了计算所的定位,重点分析讨 program portfolio)、核心竞争能力( core competency)论了:1.计算所的“三头”定位与目标,2.重点研究 三个方面突出其战略特色 内容定位,3.跟踪还是创新,4.大项目与基础研究四 NIST ITL Mission Statement: To promote US个方面的问题。研究结论是 nnovation and industrial competitiveness by advancing 1.在中国国情下,计算所应该坚持“龙头 measurement science, standards, and technology through头、领头”的目标定位。(1)尤其要坚持“源头”目 research and development in information technology,标,源头目标是高技术研究的本质特征。(2)“领头” mathematics, and statistics. 工作是目前的薄弱环节和瓶颈,应大力加强。(3)应 2. NIST ITL Program Portfolio 该通过资源调配和体制机制改革,使三头得以统筹 国糾字能补算技研定20年B月(双月刊·总第2期)
【领域前瞻】 术领导与产业联盟 1. 目标特色:音视频信源编码的重大国家需求。 2. 技术领导:开发音视频编解码的重要专利技 术。 3. 产业联盟:领导国内外产业界和学术界创造竞 争力强的标准池。 例 3:存储中心的历史经验:产品化的目标和 措施 1. 目标特色:基于自主先进技术、稳定可靠的网 络存储产品。 2. 工程特色:高效率实施的工程管理流程(testbuild,版本管理思路)。 3. Living in the future:存储中心员工学生都用自 己开发的系统。 例 4:Google 的研究开发经验:反木桶原则 不是照顾后进(木桶原则),求最小公约数,而 是鼓励先进。 例 5:NIST ITL 如何突出战略特色 NIST 的 Information Technology Lab ( 简称 ITL,该 Lab 的前身是美国国家标准局计算机科学与技术研究 所 ) 与中科院计算所有很多类似的地方。比如,他们 的使命都含有源头成分。NIST 的 IT Lab 目前雇佣员 工 330 人,体量与中科院计算所接近。该实验室在标 准、度量方面是国际知名单位。比如,它创建并领导 IEEE 802.16 无线宽带标准工作组,主办智能信息处 理中的 TREC 国际竞赛等。 NIST ITL 现任主任是 Cita Furlani 博士,曾任美国 NCO 主任。 NIST IT Lab 通过其定位(Mission)、研究组合 (program portfolio)、核心竞争能力(core competency) 三个方面突出其战略特色: 1. NIST ITL Mission Statement: To promote US innovation and industrial competitiveness by advancing measurement science, standards, and technology through research and development in information technology, mathematics, and statistics. 2. NIST ITL Program Portfolio (1)Trust and Confidence in IT Systems and Applications ▲ Trustworthy Computing ▲ Identity Management (2)Management and Exploitation of Data ▲ Information Discovery, Use, and Sharing (3)Future Information Systems ▲ Complex Systems ▲ Pervasive Information Systems (4)IT in Science and Engineering ▲ Enabling Scientific Discovery ▲ Virtual Measurement Systems 3. NIST ITL Core Competency: IT measurements and standards 比如,很多单位都在研究复杂 IT 系统,但 NIST IT Lab 的特色和竞争力是其对 IT 技术的度量研究和 技术标准开发。对于智能信息处理领域,现在没有通 用的度量,他们则通过提供统一标准开放的 TREC 竞 赛提供一种“度量”。 同行对 ITL 的定位和工作成绩是肯定的。但是, 为信息世界研究并提供像物理世界那样简明普适的度 量是非常艰苦的工作,目前的进展还很小,甚至还没 有出现一些可被同行广泛应用的开发度量的方法。这 也是同行指出的 ITL 值得改进的一个重要工作。 重新审视计算所价值定位 张劲夫总结科学院的价值使命,简称为“出成果、 出人才”。当时,成果和人才都是面向国家战略需求。 根据新时期中国科学院办院方针,2001 年发布的《中 科院计算所发展战略》制定了“龙头、源头、领头” 目标。 本次研究重新审视了计算所的定位,重点分析讨 论了:1. 计算所的“三头”定位与目标,2. 重点研究 内容定位,3. 跟踪还是创新,4. 大项目与基础研究四 个方面的问题。研究结论是: 1. 在中国国情下,计算所应该坚持“龙头、源 头、领头”的目标定位。(1)尤其要坚持“源头”目 标,源头目标是高技术研究的本质特征。(2)“领头” 工作是目前的薄弱环节和瓶颈,应大力加强。(3)应 该通过资源调配和体制机制改革,使三头得以统筹
迎接中国的计算机革命——中科院计算所2007-2008年战略研究诠注(上) 发展。 对中国社会和企业需求的提炼,可能造成研究问题离 2.中科院计算所是“计算技术”研究所,应以坚用户较远,研究结果的应用推广困难;2.从研究方向 持发扬计算机系统的核心优势,同时考虑到“计算技研究冋题、研究路线开始就在跟踪发达国家,持续跟 术”外延拓展的客观现状和趋势,以网络服务、多媒踪难以实现跨越创新。 体和智能信息处理等新兴应用为负载和需求驱动,展 本次计算所的战略研究结合了跟踪研究与创新研 开计算机科学和技术研究。 究。我们不仅研究了国际趋势,也调研了国情、国家 3.计算所当前的研究开发工作大部分是跟踪性战略需求和企业需求,试图提出有自身特点的研究方 的。(1)应该大力加强创新性研究。首先要敢想。如向、研究问题、研究路线,从而才有可能产生原创研 果现在不突破这种心态限制,10年后计算所的状况究结果。这种方式更难,更容易被质疑,但从长远看 不会有大的改变。(2)这种创新性研究要从开始阶段对国家、计算所的发展是有利的、必要的。 就反对一味跟踪。 这当中的一个核心问题是:我们需不需要像张骞 4.计算所目前的“70%大项目+30%基础研究”郑和、哥伦布、麦哲伦一样从事艰苦与高风险的科学 的格局有其合理性。但是,应该从选题、体制、机制探索工作,发现计算世界的丝绸之路和新大陆?目前 多方面努力,实现战略性工程性大项目与基础研究的机会是存在的,风险也是巨大的。但是,如果我们不 统筹协调发展。 做此类工作,我们可能摆脱不了跟踪的命运。 例6:价值定位的目标群体 中科院计算所传统上的价值定位是面向国家战略 需求,并且推动学术进步。近十多年来,作为产业界 嵌入式 的技术源头也成为价值目标。近几年来,产业界伙伴 存储 和我们自己的研究人员提出了一种新的价值目标,即 直接为人民(即广大消费者)提供服务和产品。比如 微机 联想研究院提出计算所应该大力研究面向广大人民的 网络 服务器 互联网服务,龙芯团队已经推出了低成本电脑。 国家战略 a.2006年的计算机世界(托勒密世界地图) 产业界 中科院 计算所 学术界 存储 服务器 移动设备 网络 嵌入式 其他客户端 微机 例7:跟踪研究与创新研究。 目前我国的很多基础研究、创新研究的常见做法 是参照发达国家战略研究报告,或跟踪发达国家已立 传感网 的研究项目。具体的理论研究课题比较重视证明某个 b.2015-2020年可能的计算机世界 猜想。这种做法有很多优点,也有必要;由于有发达 国家已经存在的参照物,也比较容易获得理解和支持。图1计算所需不需要发现计算世界的丝绸之路和新大陆? 但是,从长远看,这种做法有两个缺点:1.缺乏 (未完待续) 国糾字能补算技研定20年B月(双月刊·总第2期)
迎接中国的计算机革命——中科院计算所 2007-2008 年战略研究诠注(上) 发展。 2. 中科院计算所是“计算技术”研究所,应以坚 持发扬计算机系统的核心优势,同时考虑到“计算技 术”外延拓展的客观现状和趋势,以网络服务、多媒 体和智能信息处理等新兴应用为负载和需求驱动,展 开计算机科学和技术研究。 3. 计算所当前的研究开发工作大部分是跟踪性 的。(1)应该大力加强创新性研究。首先要敢想。如 果现在不突破这种心态限制,10 年后计算所的状况 不会有大的改变。(2)这种创新性研究要从开始阶段 就反对一味跟踪。 4. 计算所目前的“70% 大项目 +30% 基础研究” 的格局有其合理性。但是,应该从选题、体制、机制 多方面努力,实现战略性工程性大项目与基础研究的 统筹协调发展。 例 6:价值定位的目标群体。 中科院计算所传统上的价值定位是面向国家战略 需求,并且推动学术进步。近十多年来,作为产业界 的技术源头也成为价值目标。近几年来,产业界伙伴 和我们自己的研究人员提出了一种新的价值目标,即 直接为人民(即广大消费者)提供服务和产品。比如, 联想研究院提出计算所应该大力研究面向广大人民的 互联网服务,龙芯团队已经推出了低成本电脑。 例 7:跟踪研究与创新研究。 目前我国的很多基础研究、创新研究的常见做法 是参照发达国家战略研究报告,或跟踪发达国家已立 的研究项目。具体的理论研究课题比较重视证明某个 猜想。这种做法有很多优点,也有必要;由于有发达 国家已经存在的参照物,也比较容易获得理解和支持。 但是,从长远看,这种做法有两个缺点:1. 缺乏 对中国社会和企业需求的提炼,可能造成研究问题离 用户较远,研究结果的应用推广困难;2. 从研究方向、 研究问题、研究路线开始就在跟踪发达国家,持续跟 踪难以实现跨越创新。 本次计算所的战略研究结合了跟踪研究与创新研 究。我们不仅研究了国际趋势,也调研了国情、国家 战略需求和企业需求,试图提出有自身特点的研究方 向、研究问题、研究路线,从而才有可能产生原创研 究结果。这种方式更难,更容易被质疑,但从长远看, 对国家、计算所的发展是有利的、必要的。 这当中的一个核心问题是:我们需不需要像张骞、 郑和、哥伦布、麦哲伦一样从事艰苦与高风险的科学 探索工作,发现计算世界的丝绸之路和新大陆?目前 机会是存在的,风险也是巨大的。但是,如果我们不 做此类工作,我们可能摆脱不了跟踪的命运。 a. 2006 年的计算机世界(托勒密世界地图) b. 2015-2020 年可能的计算机世界 图 1. 计算所需不需要发现计算世界的丝绸之路和新大陆? (未完待续) 中科院 计算所 国家战略 产业界 学术界 人 民
E::城装展骤服:4 强。a·、2内“ 甲E云图E状哪店随 票的果证曰群NF 型罪召 明当0证? 是t 她跳特 顾名思义,众核( Many Core)处理器比多核域辛勤耕耘,从成果到文化上都有了相当的积淀,特 ( Multicore)处理器中的处理内核数量还要多,计别是2000年后,成功研发的多款龙芯芯片更为我们 算能力更强大,这得益于1965年 Gordon moore预在高性能计算核心技术上取得了实质性突破。众核 测的 Moore定律在延续。如果从 wikipedia上搜索设计恰恰可以增强我们在高性能计算领域的优势地 Many Core,你会得到这样的介绍:“当前的软件结构位,以众核研究为基础的大型并行系统设计可以进 可以在当前的多核结构上得到较好的扩展,但如果超步巩固计算所在战略性、基础性、前瞻性的国立研究 过八个处理器核,当前软件结构的扩展能力将会很差。所定位。 超过八个处理器核的设计就被称为‘众核’处理器。 众核设计的核心目标就是充分开发片上高性能计 微软公司在2007年6月25日在美国西雅图召开算能力,这是高性能计算发展的必然趋势。以Inte 了第一个以 Many Core为主题的 Workshop,这是一个公司为例,在其推出双核和四核通用处理器的同时, 标志性的事件,与会者都是来自世界工业界的领袖和开发了峰值性能超过 Tera Flops的 Polaris和 Larabee 学术界的权威,讨论众核设计应如何开展。 Intel正使单芯片计算能力得到几十倍的提升。虽然众核设 在研发的面向媒体应用领域的 Larabee、IBM正在研计上的进步将有效推动我所在高性能计算领域的发 发的面向科学计算领域的 Cyclops、面向网络安全等展,但在众核设计的研究过程中,需要紧密围绕龙芯 领域的Tile64都是对众核设计的探索。微软公司于和曙光在产业应用中对此类众核高性能加速芯片的实 2007年11月发表了宣言《 THE MANY CORE SHIFT 际需求 Microsoft Parallel Computing Initiative Ushers Computin 国内系统结构研究领域的各优秀研究团队对众核 into the Next era》,宣布转入对众核系统软件的研究。设计广泛关注,2008年3月27日,复旦大学同UUC 可以看出,众核设计已经成为技术发展的趋势和学术大学的非羸利组织 Gelato承办了“ Shanghai Many 研究的热点。 Core Workshop",国内的参与者包括计算所、清华大 本文将浅显地回答四个问题,这是我们开展众核学、国防科大、江南所、HP中国、IBM中国、 Intel 设计最关心的问题,即计算所为什么要做众核设计 中国等单位的超过一百名研究人员。可以看到,很多 众核设计的技术问题是什么?适合于众核的应用是什研究机构都在开展面向众核技术的研究工作,一场面 么?计算所在众核设计上开展了哪些工作 向众核设计相关技术方向的研究竞争已经展开,从自 然科学基金的项目申请上就可以清楚看到这个趋势 计算所为什么要做众核? 在2006年和2007年就有二十项左右与多核和众核相 计算所的传统优势在于以高性能计算为核心的关研究的申请获得批准。 芯片和系统设计,五十多年来几代人一直围绕这个领 由此可见,无论从计算所的传统优势和计算所的 国糾字能补算技研定20年B月(双月刊·总第2期)
顾 名 思 义, 众 核 (ManyCore) 处 理 器 比 多 核 (MultiCore) 处 理 器 中 的 处 理 内 核 数 量 还 要 多, 计 算能力更强大,这得益于 1965 年 Gordon Moore 预 测的 Moore 定律在延续。如果从 wikipedia 上搜索 ManyCore,你会得到这样的介绍:“当前的软件结构 可以在当前的多核结构上得到较好的扩展,但如果超 过八个处理器核,当前软件结构的扩展能力将会很差。 超过八个处理器核的设计就被称为‘众核’处理器。” 微软公司在 2007 年 6 月 25 日在美国西雅图召开 了第一个以 ManyCore 为主题的 Workshop,这是一个 标志性的事件,与会者都是来自世界工业界的领袖和 学术界的权威,讨论众核设计应如何开展。Intel 正 在研发的面向媒体应用领域的 Larabee、IBM 正在研 发的面向科学计算领域的 Cyclops、面向网络安全等 领域的 Tile64 都是对众核设计的探索。微软公司于 2007 年 11 月发表了宣言《THE MANYCORE SHIFT: Microsoft Parallel Computing Initiative Ushers Computing into the Next Era》,宣布转入对众核系统软件的研究。 可以看出,众核设计已经成为技术发展的趋势和学术 研究的热点。 本文将浅显地回答四个问题,这是我们开展众核 设计最关心的问题,即计算所为什么要做众核设计? 众核设计的技术问题是什么?适合于众核的应用是什 么?计算所在众核设计上开展了哪些工作? 一、计算所为什么要做众核? 计算所的传统优势在于以高性能计算为核心的 芯片和系统设计,五十多年来几代人一直围绕这个领 域辛勤耕耘,从成果到文化上都有了相当的积淀,特 别是 2000 年后,成功研发的多款龙芯芯片更为我们 在高性能计算核心技术上取得了实质性突破。众核 设计恰恰可以增强我们在高性能计算领域的优势地 位,以众核研究为基础的大型并行系统设计可以进一 步巩固计算所在战略性、基础性、前瞻性的国立研究 所定位。 众核设计的核心目标就是充分开发片上高性能计 算能力,这是高性能计算发展的必然趋势。以 Intel 公司为例,在其推出双核和四核通用处理器的同时, 开发了峰值性能超过 Tera Flops 的 Polaris 和 Larabee, 使单芯片计算能力得到几十倍的提升。虽然众核设 计上的进步将有效推动我所在高性能计算领域的发 展,但在众核设计的研究过程中,需要紧密围绕龙芯 和曙光在产业应用中对此类众核高性能加速芯片的实 际需求。 国内系统结构研究领域的各优秀研究团队对众核 设计广泛关注,2008 年 3 月 27 日,复旦大学同 UIUC 大学的非赢利组织 Gelato 承办了“Shanghai ManyCore Workshop”,国内的参与者包括计算所、清华大 学、国防科大、江南所、HP 中国、IBM 中国、Intel 中国等单位的超过一百名研究人员。可以看到,很多 研究机构都在开展面向众核技术的研究工作,一场面 向众核设计相关技术方向的研究竞争已经展开,从自 然科学基金的项目申请上就可以清楚看到这个趋势, 在 2006 年和 2007 年就有二十项左右与多核和众核相 关研究的申请获得批准。 由此可见,无论从计算所的传统优势和计算所的 众 核 发 展 趋 势 浅 析 范东睿 【专家视点】
众核发展趋势浅析 定位,还是从技术发展趋势,以及从科研资源获取角众核芯片面积庞大,功耗问题依然突出。根据半导体 度分析,尽快将众核研究推向深入都是势在必行。 国际工艺路线发展报告IRS-2007的分析,在2018年 芯片的供电电压将为07v,而目前为1.1v,即使假设 二、众核设计的技术问题是什么? 不提高设计主频,根据功耗计算公式cv2f,功耗降低 众核研究是一项复杂的系统性研究,完全不能简仅为(1.1/0.7)2=2.5倍,但集成的晶体管数量却可以增 单地理解为处理器核的堆砌,分析众核结构应当以看加12倍以上,绝对功耗会有明显增加。如何在众核 处理器结构图作为终点,而不是起点,首要关注的是设计中提高能效?如何对众多计算资源进行调度管理 隐藏在结枃图后面系统化的设计思想。下面我们从三才能最大限度降低众核设计的功耗?这些问题依然要 个层次进行分析,说明众核设计所涉及的关键技术。在众核结构设计过程中寻找答案。 众核设计的基础是摩尔定律的延续,也就是人类 最后,线延迟变长使得在众核设计中进行集中 掌握的最先进的硅制造工艺的进步。制造工艺的进步控制变得困难,如何采用更分布式的方式完成结构设 带来了四个主要的变化:1.集成度提高,2.带宽受限,计?如何在分布的结构中实现共享数据的分发传播? 3.功耗问题突出,4.线延迟变长。这些芯片生产工艺如何在分布的结构中实现高效的核间互斥并发操作? 变化直接引出了众核设计的关键问题。 将上面根据工艺实现的变化带来的众核设计关 首先,芯片集成度的提高是众核设计的基本条件,键问题进行凝练,众核设计的主要研究内容包括并行 这使得更多的计算资源可以集成在一块芯片上,但这编程模型、运行时系统、存储模型、通讯模型等。在 种集成却也带来了硬件资源管理的困难和对资源的竞对这些问题进行深入研究,对不同设计部分进行匹配 争。如何容易地将计算任务进行分割,映射到众多处权衡,最终凝练为完善的系统软件、运行时库,以及 理器核上?众多处理器核如何分享片上有限的存储空众核结构模型。众核结构模型只是整个系统的集咔 间?如何让众多处理器核利用有限片上传输网络传递体现。 数据,而冲突最小?如何对片上众多资源进行测试和 众核设计是一种新型的并行计算形式,传统的基 修复? 于SMP或集群的并行研究成果不能直接应用,必须 其次,芯片的访存带宽问题在众核设计中变得更进行重新评价。这个研究领域有待解决的问题很多 为严峻,访存带宽的限制是众核发展的最大制约。以虽然目前世界上很多研究人员都参与到该领域的研究 NVIDIA G8800GTX为例,访存带宽为864GBs,计中,但还没有找到系统解决问题的好方法,而且未来 算能力为5888 GFlops,每次计算需要2个4B宽数据,五年,众核设计会一直是研究的热点。 计算访存比约为55 Flops/B, Stanford大学设计的流处 理器 Merrimac的计算访存比为32 Flops,/B,随着工艺 三、适合于众核的应用是什么? 的进步,这个比例还将增大,比例越大,就意味着可 首先罗列了一下已有众核芯片自称适用的应用领 在此结构上取得接近峰值性能的应用算法越少。这直域,包括生物计算、网络安全、虚拟现实、信号处理 接引入了一系列问题,如何让众多处理器核有数据可(GsM、MPEG-4、压缩、滤波等)、国土安全(加密 算?如何更充分地利用片上有限存储空间的众核间共解密、模式匹配、搜索等)、网络包处理、生物特征 享,以避免片外访存?如何充分利用有限访存带宽,识别、图形处理、移动游戏、服务器组件和机器人学 尽量让访存通道繁忙,并能优先满足处于关键路径处习等。从上面的列举可以看出,适于众核设计的应用 理器核的访存请求? 很广泛,下面我们更技术化地从两个层次进行简要分 再有,虽然众核设计有助于提高芯片的能效析,一是应用算法本身的特性,一是结合众核处理器 ( Power- Efficiency),如 Intel的80核实验设计 Polaris结构,看何种应用更适合特定众核设计,应用的特性 能效为16 Flops/watt,而 Intel传统超标量 Clovertown如何同结构结合。 设计的能效为0.35 GFlops/Wat,但是不能忽视,由于 应用算法本身特性主要体现在三个方面,即应用 国糾字能补算技研定20年B月(双月刊·总第2期)
定位,还是从技术发展趋势,以及从科研资源获取角 度分析,尽快将众核研究推向深入都是势在必行。 二、众核设计的技术问题是什么? 众核研究是一项复杂的系统性研究,完全不能简 单地理解为处理器核的堆砌,分析众核结构应当以看 处理器结构图作为终点,而不是起点,首要关注的是 隐藏在结构图后面系统化的设计思想。下面我们从三 个层次进行分析,说明众核设计所涉及的关键技术。 众核设计的基础是摩尔定律的延续,也就是人类 掌握的最先进的硅制造工艺的进步。制造工艺的进步 带来了四个主要的变化:1. 集成度提高,2. 带宽受限, 3. 功耗问题突出,4. 线延迟变长。这些芯片生产工艺 变化直接引出了众核设计的关键问题。 首先,芯片集成度的提高是众核设计的基本条件, 这使得更多的计算资源可以集成在一块芯片上,但这 种集成却也带来了硬件资源管理的困难和对资源的竞 争。如何容易地将计算任务进行分割,映射到众多处 理器核上?众多处理器核如何分享片上有限的存储空 间?如何让众多处理器核利用有限片上传输网络传递 数据,而冲突最小?如何对片上众多资源进行测试和 修复? 其次,芯片的访存带宽问题在众核设计中变得更 为严峻,访存带宽的限制是众核发展的最大制约。以 NVIDIA G8800 GTX 为例,访存带宽为 86.4GB/s,计 算能力为 588.8GFlops,每次计算需要 2 个 4B 宽数据, 计算访存比约为 55Flops/B,Stanford 大学设计的流处 理器 Merrimac 的计算访存比为 32 Flops/B,随着工艺 的进步,这个比例还将增大,比例越大,就意味着可 在此结构上取得接近峰值性能的应用算法越少。这直 接引入了一系列问题,如何让众多处理器核有数据可 算?如何更充分地利用片上有限存储空间的众核间共 享,以避免片外访存?如何充分利用有限访存带宽, 尽量让访存通道繁忙,并能优先满足处于关键路径处 理器核的访存请求? 再 有, 虽 然 众 核 设 计 有 助 于 提 高 芯 片 的 能 效 (Power-Efficiency),如 Intel 的 80 核实验设计 Polaris 能效为 16GFlops/Watt,而 Intel 传统超标量 Clovertown 设计的能效为 0.35GFlops/Watt,但是不能忽视,由于 众核芯片面积庞大,功耗问题依然突出。根据半导体 国际工艺路线发展报告 ITRS-2007 的分析,在 2018 年, 芯片的供电电压将为 0.7v,而目前为 1.1v,即使假设 不提高设计主频,根据功耗计算公式 cv2f,功耗降低 仅为 (1.1/0.7)2=2.5 倍,但集成的晶体管数量却可以增 加 12 倍以上,绝对功耗会有明显增加。如何在众核 设计中提高能效?如何对众多计算资源进行调度管理 才能最大限度降低众核设计的功耗?这些问题依然要 在众核结构设计过程中寻找答案。 最后,线延迟变长使得在众核设计中进行集中 控制变得困难,如何采用更分布式的方式完成结构设 计?如何在分布的结构中实现共享数据的分发传播? 如何在分布的结构中实现高效的核间互斥并发操作? 将上面根据工艺实现的变化带来的众核设计关 键问题进行凝练,众核设计的主要研究内容包括并行 编程模型、运行时系统、存储模型、通讯模型等。在 对这些问题进行深入研究,对不同设计部分进行匹配 权衡,最终凝练为完善的系统软件、运行时库,以及 众核结构模型。众核结构模型只是整个系统的集中 体现。 众核设计是一种新型的并行计算形式,传统的基 于 SMP 或集群的并行研究成果不能直接应用,必须 进行重新评价。这个研究领域有待解决的问题很多, 虽然目前世界上很多研究人员都参与到该领域的研究 中,但还没有找到系统解决问题的好方法,而且未来 五年,众核设计会一直是研究的热点。 三、适合于众核的应用是什么? 首先罗列了一下已有众核芯片自称适用的应用领 域,包括生物计算、网络安全、虚拟现实、信号处理 (GSM、MPEG-4、压缩、滤波等)、国土安全(加密 解密、模式匹配、搜索等)、网络包处理、生物特征 识别、图形处理、移动游戏、服务器组件和机器人学 习等。从上面的列举可以看出,适于众核设计的应用 很广泛,下面我们更技术化地从两个层次进行简要分 析,一是应用算法本身的特性,一是结合众核处理器 结构,看何种应用更适合特定众核设计,应用的特性 如何同结构结合。 应用算法本身特性主要体现在三个方面,即应用 众核发展趋势浅析
算法是否有足够的并行度,计算和访存的比例是否合 综上所述,当判断一个应用是否适合众核设计时 适,是否强调单线程速度。如果应用算法本身难于进首先要考虑算法是否可并行化、计算访存比、是否强 行并行划分,或者非常强调单线程速度,那就不适合调单线程性能,如果这些条件满足,可以结合特定众 在众核设计上进行并行化,而更适于在指令集并行性核结构分析算法可并行化的并行粒度和非规则属性 开发更好的超标量处理器上执行;如果应用算法对计最终判断算法是否可以在特定众核结构上得到很好的 算能力的需求不高,而数据处理量很大,那也不适合加速。 在众核上进行加速,因为目前众核设计最大的限制就 是访存带宽。假如应用算法在这三个方面都是适合的 四、计算所在众核设计上开展了哪些工作? 那就应该考虑用众核设计来加速此应用。 我所非常重视众核设计的研究工作。前瞻研究中 接下来,就要结合众核处理器的结构特点来确心努力将众核设计同生物计算等应用研究相结合,体 定是否与应用匹配,主要考虑两个方面。一方面是现交叉学科优势,已经取得了一定成效。系统结构重 结构上是否支持高效的片上同步和高效的线程管理机点实验室也将多核和众核设计规划为未来五年的研究 制,这决定着此众核设计能开发何种粒度的并行性。重点,努力同编译技术、操作系统研究、高可靠性和 如果线程管理的开销很小,而同步效率很高,在不同可测试性硏究等工作相结合,在系统上取得群体优势。 处理器核上运行的程序段很容易在片上进行信息的共众核研究在项目上也得到了有力支持,李国杰所长负 享与交换,那么就能开发程序中的细粒度并行,这是责的973重大专项项目和刘志勇研究员负责的基金重 众核设计真正的优势,否则如果同步操作都需要经过点项目都是围绕多核和众多核研究的项目,同时我所 内存,那么同传统的SMP设计无异,只适合粗粒度在此研究领域上还获得了一些863探索、基金面上项 并行。比如, NVIDIA的G8800GTX设计,虽然拥有目和国际合作项目的支持。 5888 GFlops的单精度浮点峰值处理能力,但片上各 目前,我们所在众核研究上已经取得了一定的 节点间不能进行通讯,如果通讯必须通过内存,这就进展。在理论方面,在存储模型一致性上证明了新的 使应用范围受到了限制,若程序间有较多的相关,就结论;在结构方面,设计了更高效的流处理众核设计 无法得到良好加速效果。 和更灵活的 Godson众核设计,在片上同步机制、数 另一方面是结构上是否足够灵活以支持复杂算法据共享和分配策略、可配置属性上都采用了新的结构 的编程实现,如果结构上只支持统一控制的向量运算,设计方法;在运行时系统软件上,结合处理器结构 那么此结构只适合于规则的运算,例如 GRAPE-DR设计了 GudRun运行时海量线程管理系统,并将学术 这样的设计,但这样的设计方式可以最大限度地提高界很有影响的CILK运行时系统移植到了我们的众核 处理能力,而且设计相对简单;如果结构上具有灵活平台上;在应用方面,结合计算所在应用研究上的积 性,可以支持非规则计算的计算特征,那么应用范围累,探索了将生物计算和传统高性能科学计算算法在 就更广泛,但需要尽量消除因增加灵活性而带来的开众核设计上的尝试;在实验方法上,已经完成大规模 销。举例来说,像动态规划和介度中心计算,由于其FPGA系统的构建,并完成了可扩展FPGA众核模拟 依赖关系距离随着计算不断变化,其计算访存都不规系统的方案设计和专利提炼。相信在未来两年经过踏 整,因此只有在众核结构上支持类似线程管理、跳转实工作,会取得更有显效的成果。 执行、快速同步等机制后才能得到较好的加速效果 如果设计采用的是集中控制的方式,甚至片上存储采 技术变革带来了创新的机会,但众核设计的技术 用的是显示编址的存储方式,那么算法在这样的结构路线仍不明朗,有很多方法需要尝试,有很多设计思 上虽然可以做到性能可控,但编程的难度会相当大,想有待验证,但我们只有始终秉承着“求实、求实 导致设计的应用推广受限,如IBM的cell和 Cyclops求实、创新”的龙芯精神,坚持努力,才能在技术变 设计 革中抓住机会,有所作为 国糾字能补算技研定20年B月(双月刊·总第2期)
10 算法是否有足够的并行度,计算和访存的比例是否合 适,是否强调单线程速度。如果应用算法本身难于进 行并行划分,或者非常强调单线程速度,那就不适合 在众核设计上进行并行化,而更适于在指令集并行性 开发更好的超标量处理器上执行;如果应用算法对计 算能力的需求不高,而数据处理量很大,那也不适合 在众核上进行加速,因为目前众核设计最大的限制就 是访存带宽。假如应用算法在这三个方面都是适合的, 那就应该考虑用众核设计来加速此应用。 接下来,就要结合众核处理器的结构特点来确 定是否与应用匹配,主要考虑两个方面。一方面是 结构上是否支持高效的片上同步和高效的线程管理机 制,这决定着此众核设计能开发何种粒度的并行性。 如果线程管理的开销很小,而同步效率很高,在不同 处理器核上运行的程序段很容易在片上进行信息的共 享与交换,那么就能开发程序中的细粒度并行,这是 众核设计真正的优势,否则如果同步操作都需要经过 内存,那么同传统的 SMP 设计无异,只适合粗粒度 并行。比如,NVIDIA 的 G8800 GTX 设计,虽然拥有 588.8GFlops 的单精度浮点峰值处理能力,但片上各 节点间不能进行通讯,如果通讯必须通过内存,这就 使应用范围受到了限制,若程序间有较多的相关,就 无法得到良好加速效果。 另一方面是结构上是否足够灵活以支持复杂算法 的编程实现,如果结构上只支持统一控制的向量运算, 那么此结构只适合于规则的运算,例如 GRAPE-DR 这样的设计,但这样的设计方式可以最大限度地提高 处理能力,而且设计相对简单;如果结构上具有灵活 性,可以支持非规则计算的计算特征,那么应用范围 就更广泛,但需要尽量消除因增加灵活性而带来的开 销。举例来说,像动态规划和介度中心计算,由于其 依赖关系距离随着计算不断变化,其计算访存都不规 整,因此只有在众核结构上支持类似线程管理、跳转 执行、快速同步等机制后才能得到较好的加速效果。 如果设计采用的是集中控制的方式,甚至片上存储采 用的是显示编址的存储方式,那么算法在这样的结构 上虽然可以做到性能可控,但编程的难度会相当大, 导致设计的应用推广受限,如 IBM 的 Cell 和 Cyclops 设计。 综上所述,当判断一个应用是否适合众核设计时, 首先要考虑算法是否可并行化、计算访存比、是否强 调单线程性能,如果这些条件满足,可以结合特定众 核结构分析算法可并行化的并行粒度和非规则属性, 最终判断算法是否可以在特定众核结构上得到很好的 加速。 四、计算所在众核设计上开展了哪些工作? 我所非常重视众核设计的研究工作。前瞻研究中 心努力将众核设计同生物计算等应用研究相结合,体 现交叉学科优势,已经取得了一定成效。系统结构重 点实验室也将多核和众核设计规划为未来五年的研究 重点,努力同编译技术、操作系统研究、高可靠性和 可测试性研究等工作相结合,在系统上取得群体优势。 众核研究在项目上也得到了有力支持,李国杰所长负 责的 973 重大专项项目和刘志勇研究员负责的基金重 点项目都是围绕多核和众多核研究的项目,同时我所 在此研究领域上还获得了一些 863 探索、基金面上项 目和国际合作项目的支持。 目前,我们所在众核研究上已经取得了一定的 进展。在理论方面,在存储模型一致性上证明了新的 结论;在结构方面,设计了更高效的流处理众核设计 和更灵活的 GodsonT 众核设计,在片上同步机制、数 据共享和分配策略、可配置属性上都采用了新的结构 设计方法; 在运行时系统软件上,结合处理器结构 设计了 GodRun 运行时海量线程管理系统,并将学术 界很有影响的 CILK 运行时系统移植到了我们的众核 平台上;在应用方面,结合计算所在应用研究上的积 累,探索了将生物计算和传统高性能科学计算算法在 众核设计上的尝试;在实验方法上,已经完成大规模 FPGA 系统的构建,并完成了可扩展 FPGA 众核模拟 系统的方案设计和专利提炼。相信在未来两年经过踏 实工作,会取得更有显效的成果。 技术变革带来了创新的机会,但众核设计的技术 路线仍不明朗,有很多方法需要尝试,有很多设计思 想有待验证,但我们只有始终秉承着“求实、求实、 求实、创新”的龙芯精神,坚持努力,才能在技术变 革中抓住机会,有所作为。 【专家视点】