Google Drive、DropBox、微软的Skydrive。基于上述认识,近年来,越来越多的研究者开 始关注集中式的感知数据管理机制。在集中式数据管理系统中,各传感器按照一定的采样规 则,将所采集的数据上传到数据中心进行统一的存储管理,使得查询处理可以直接在数据中 心完成。在集中式的传感器数据处理方面,最直接的方法是采用云数据管理技术25,3川,大多 是“键值”数据库,其与传统关系型数据库不同,是一种基于键值存储的新型数据库管理系统, 常见的键值数据库有Bigtable、Dynamo、HBase、HIVE等,这为物联网海量数据处理提 供了一种可能的解决方案:另一种集中式的存储方案是采用并行数据库技术。并行数据 库通过将多个关系数据库组织成数据库集群来支持海量结构化数据的处理,但是该方法尚不 能有效地支持物联网中传感器时空相关数据的并行存储与查询处理,目前研究者们正致力于 该问题的解决。 (2)数据挖掘与融合 作为决策支持和过程控制的重要技术手段,数据挖掘己经从传统意义上的数据统计分 析、潜在模式的发现与挖掘,继而成为物联网中不可缺少的工具和环节。物联网特有的分布 式特征,决定了物联网中的数据挖掘算法必须具有高效并行、分布式处理、隐私保护等特征 属性。 传统的数据挖掘主要分为两类:预测和寻证分析,前者主要用于在了解现状的情况下,推测 系统在近期或者中远期的状态:后者是当系统出现问题或者达不到预期效果时,分析它在运 行过程中哪个环节出现了问题。根据所挖掘出的知识差异,数据挖掘的基本类型包括如下几 类:关联分析、聚类分析、利群点分析、分类与预测和演化分析。从目前的研究进展来看, 物联网环境下的数据挖掘还存在很多挑战,由于物联网的计算设备和数据在物理上是天然分 布的,收集到的数据来源广、异构性强,需要云存储和云计算模式,因此不得不采用分布式 并行数据挖掘:物联网环境下,还需要对瞬息万变的环境实时分析并做出反应和处理,这些 特性决定了物联网中数据挖掘算法必须具有高效、分布式、并行等特点。 由于物联网中数据节点计算能力和存储量有限,采用集中式的方式实现基于云服务的数 据挖掘可以很好地解决这些问题。在国内,中国科学院计算技术研究所于2008年底开发完 成了基于Hadoop的并行分布式数据挖掘系统PDMiner。中国移动进一步建设了256台服务 器、1000个CPU、256TB存储组成的"大云"试验平台:在国际上,斯坦福大学的Chu等人 B3采用Map-Reduce并行编程模式实现了机器学习算法,这是在多核环境下并行算法的实 现。另外,在多节点的云计算平台上的开源项目Apache Mahout于2011年5月27日发布B4 随着智能手机等设备的普及和使用,使得智能感知节点的计算能力得到了一个大幅度的 上升。物联网环境下,越来越多的基于智能感知终端的数据挖掘应用使得分布式的数据挖掘 方案成为一个新的趋势。例如,新加坡南洋理工大学的Pengfei Zhou等人利用众包原理收集 245
245 Google Drive、DropBox、微软的 Skydrive。基于上述认识,近年来,越来越多的研究者开 始关注集中式的感知数据管理机制。在集中式数据管理系统中,各传感器按照一定的采样规 则,将所采集的数据上传到数据中心进行统一的存储管理,使得查询处理可以直接在数据中 心完成。在集中式的传感器数据处理方面,最直接的方法是采用云数据管理技术[25,31],大多 是“键值”数据库,其与传统关系型数据库不同,是一种基于键值存储的新型数据库管理系统, 常见的“键值”数据库有 Bigtable、Dynamo、HBase、HIVE 等,这为物联网海量数据处理提 供了一种可能的解决方案;另一种集中式的存储方案是采用并行数据库技术[32]。并行数据 库通过将多个关系数据库组织成数据库集群来支持海量结构化数据的处理,但是该方法尚不 能有效地支持物联网中传感器时空相关数据的并行存储与查询处理,目前研究者们正致力于 该问题的解决。 (2)数据挖掘与融合 作为决策支持和过程控制的重要技术手段,数据挖掘已经从传统意义上的数据统计分 析、潜在模式的发现与挖掘,继而成为物联网中不可缺少的工具和环节。物联网特有的分布 式特征,决定了物联网中的数据挖掘算法必须具有高效并行、分布式处理、隐私保护等特征 属性。 传统的数据挖掘主要分为两类:预测和寻证分析,前者主要用于在了解现状的情况下,推测 系统在近期或者中远期的状态;后者是当系统出现问题或者达不到预期效果时,分析它在运 行过程中哪个环节出现了问题。根据所挖掘出的知识差异,数据挖掘的基本类型包括如下几 类:关联分析、聚类分析、利群点分析、分类与预测和演化分析。从目前的研究进展来看, 物联网环境下的数据挖掘还存在很多挑战,由于物联网的计算设备和数据在物理上是天然分 布的,收集到的数据来源广、异构性强,需要云存储和云计算模式,因此不得不采用分布式 并行数据挖掘;物联网环境下,还需要对瞬息万变的环境实时分析并做出反应和处理,这些 特性决定了物联网中数据挖掘算法必须具有高效、分布式、并行等特点。 由于物联网中数据节点计算能力和存储量有限,采用集中式的方式实现基于云服务的数 据挖掘可以很好地解决这些问题。在国内,中国科学院计算技术研究所于 2008 年底开发完 成了基于 Hadoop 的并行分布式数据挖掘系统 PDMiner。中国移动进一步建设了 256 台服务 器、1000 个 CPU、256TB 存储组成的"大云"试验平台;在国际上,斯坦福大学的 Chu 等人 [33]采用 Map-Reduce 并行编程模式实现了机器学习算法,这是在多核环境下并行算法的实 现。另外,在多节点的云计算平台上的开源项目 Apache Mahout 于 2011 年 5 月 27 日发布[34]. 随着智能手机等设备的普及和使用,使得智能感知节点的计算能力得到了一个大幅度的 上升。物联网环境下,越来越多的基于智能感知终端的数据挖掘应用使得分布式的数据挖掘 方案成为一个新的趋势。例如,新加坡南洋理工大学的 Pengfei Zhou 等人利用众包原理收集
大量公交车乘客携带的智能手机所感知的周围环境数据,准确预测公交车的到达时间: 美国约翰霍普金斯大学的Andong Zhan等人收集单车骑行者的手机加速度数据,以廉价的方 式计算卡路里的消耗量B6,类似于Andong Zhan的方法,美国弗吉尼亚大学的Shahriar Nirjon 等人B将数据挖掘应用到音乐智能推荐领域,伊利诺伊大学的Mehedi Bakht,.等人则用于在 移动环境下发现邻居用户[38。 (3)安全与隐私保障 物联网安全引起各国政府的高度重视。欧盟在2009年发布的《欧盟物联网研究战略路 线图》强调,物联网资源的发现和访问控制是物联网安全的关键支撑技术。工信部在2011 年3月公布的《卫星移动通信系统终端地球站管理办法》对物联网行业安全制定了防范措施, 从机制上确保了我国物联网安全。在学术界,也有一些研究人员开始研究物联网隐私保护方 法B),并讨论了物联网隐私保护的法律框架4。 目前,物联网隐私保护主要分为基于数据的隐私保护和基于位置的隐私保护。基于数据 的隐私保护主要是指物联网中数据采集、传输和处理等过程中的秘密信息泄露,如RFD数 据安全保护,RFD标签可能存储大量隐私信息,由于RFD芯片计算能力较弱、存储空间 较小,如遵循EPCglobal Class-1Gen-2RFID规范的标签,通信频段在800-960MHZ,仅支 持16bit的伪随机数生成器和循环冗余码的计算4,所以有很多的密码算法在RFD标签上 都无法使用,当前实现RFD安全机制所采用的方法大致可分为物理方法(如扼杀标签、阻 止标签)和采用密码算法的方法两种类型。物理方法通常采用在售出商品时毁坏或是移除标 签来实现对标签信息保护(扼杀标签的方法),或通过增设一个屏蔽装置对标签实施屏蔽, 使得标签无法接收到外界的电磁波(阻止标签方法)[,现在研究更多的是采用密码算法 设计安全认证协议以抵抗RFID的安全威胁问题,如Hash-Lock协议、随机化Hash-Lock协 议、Hash链协议、基于杂凑的ID变化协议、LCAP协议等43,4:基于位置的隐私保护,主 要指物联网中各节点的位置隐私以及物联网在提供各种位置服务时面临的位置隐私泄露问 题,可以利用匿名技术5,46实现对用户位置信息的保护。 2.2.3应用层面 随着对物联网技术的进一步深入探索,目前的一些物联网技术已经应用于制造、物流和 零售等各领域。物联网“十二五”发展规划中,重点领域应用示范工程包括智能工业、智能农 业、智能物流、智能交通、智能电网、智能环保、智能安防、智能医疗、智能家居。根据应 用模式的分类,我们将目前物联网应用层面的进展阐述如下: 246
246 大量公交车乘客携带的智能手机所感知的周围环境数据,准确预测公交车的到达时间[35]; 美国约翰霍普金斯大学的 Andong Zhan 等人收集单车骑行者的手机加速度数据,以廉价的方 式计算卡路里的消耗量[36];类似于 Andong Zhan 的方法,美国弗吉尼亚大学的 Shahriar Nirjon 等人[37]将数据挖掘应用到音乐智能推荐领域,伊利诺伊大学的 Mehedi Bakht,等人则用于在 移动环境下发现邻居用户[38]。 (3)安全与隐私保障 物联网安全引起各国政府的高度重视。欧盟在 2009 年发布的《欧盟物联网研究战略路 线图》强调,物联网资源的发现和访问控制是物联网安全的关键支撑技术。工信部在 2011 年 3 月公布的《卫星移动通信系统终端地球站管理办法》对物联网行业安全制定了防范措施, 从机制上确保了我国物联网安全。在学术界,也有一些研究人员开始研究物联网隐私保护方 法[39],并讨论了物联网隐私保护的法律框架[40]。 目前,物联网隐私保护主要分为基于数据的隐私保护和基于位置的隐私保护。基于数据 的隐私保护主要是指物联网中数据采集、传输和处理等过程中的秘密信息泄露,如 RFID 数 据安全保护,RFID 标签可能存储大量隐私信息,由于 RFID 芯片计算能力较弱、存储空间 较小,如遵循 EPCglobal Class-1 Gen-2 RFID 规范的标签,通信频段在 800-960MHZ,仅支 持 16bit 的伪随机数生成器和循环冗余码的计算[41],所以有很多的密码算法在 RFID 标签上 都无法使用,当前实现 RFID 安全机制所采用的方法大致可分为物理方法(如扼杀标签、阻 止标签)和采用密码算法的方法两种类型。物理方法通常采用在售出商品时毁坏或是移除标 签来实现对标签信息保护(扼杀标签的方法),或通过增设一个屏蔽装置对标签实施屏蔽, 使得标签无法接收到外界的电磁波(阻止标签方法)[42],现在研究更多的是采用密码算法 设计安全认证协议以抵抗 RFID 的安全威胁问题,如 Hash-Lock 协议、随机化 Hash-Lock 协 议、Hash 链协议、基于杂凑的 ID 变化协议、LCAP 协议等[43,44];基于位置的隐私保护,主 要指物联网中各节点的位置隐私以及物联网在提供各种位置服务时面临的位置隐私泄露问 题,可以利用匿名技术[45,46]实现对用户位置信息的保护。 2.2.3 应用层面 随着对物联网技术的进一步深入探索,目前的一些物联网技术已经应用于制造、物流和 零售等各领域。物联网“十二五”发展规划中,重点领域应用示范工程包括智能工业、智能农 业、智能物流、智能交通、智能电网、智能环保、智能安防、智能医疗、智能家居。根据应 用模式的分类,我们将目前物联网应用层面的进展阐述如下: