当前位置：和泉文库 > 计算机 > 浏览文档

云计算 Cloud Computing（PPT讲稿）MapReduce进阶

简介复合键值对的使用用户定制数据类型用户定制输入/输出格式用户定制Partitioner和Combiner 组合式MapReduce计算作业多数据源的连接全局参数/数据文件的传递与使用关系数据库的连接与访问

文件格式：PPT，文件大小：3.46MB，售价：9.12元

文档详细内容（约40页）

巧用复合键让系统完成排序丶Map计算过程中,系统自动按照Map的输出键进行排序, 因此进入 Reduce的键值对都是按照key值排序的,但有时希望vaue也按一定规则排序。方法1:在 Reduce过程中对{aue刚表中的值进行本地排序,但当{ value刚列表数据量巨大时必须使用复杂的外排算法,会很耗时。方法2:将vaue中需要排序的部分加入到key中, 形成复合键,这样能利用 Mapreduce系统的排序功能自动完成排序

 Map计算过程中，系统自动按照Map的输出键进行排序，因此进入Reduce的键值对都是按照key值排序的，但有时希望value也按一定规则排序。  方法1：在Reduce过程中对{value}列表中的值进行本地排序，但当{value}列表数据量巨大时必须使用复杂的外排算法，会很耗时。  方法2：将value中需要排序的部分加入到key中，形成复合键，这样能利用MapReduce系统的排序功能自动完成排序

用户定制数据类型 Hadoop内置的数据类型 Booleanwritable:标准布尔型数值 ByteWritable:单字节数值 Doublewritable:双字节数 F| oatwritab|e:浮点数 wrItable:整型数 LongWritable:长整型数 Text:使用UTF8格式存储的文本 Nullwritable:当<key,vaue>中的key或vaue为空时使用

 Hadoop内置的数据类型 BooleanWritable：标准布尔型数值 ByteWritable：单字节数值 DoubleWritable：双字节数 FloatWritable：浮点数 IntWritable：整型数 LongWritable：长整型数 Text：使用UTF8格式存储的文本 NullWritable：当<key, value>中的key或value为空时使用

用户定制数据类型自定义数据类型的实现 0首先实现 Writable接口,以便该数据能被序列化后完成网络传输或文件输入/输出其次,如果该数据需要作为key使用,或者要比较数值大小时,则需要实现 Writable comparable接囗例如将一个三维坐标PX,y,z)定制为一个数据类型 pubic class Point3D implements Writable< Point3D> private float x,y, Z public void readFields(DataInput in) throws IOException public void write(DataOutput out) throws IOException

 自定义数据类型的实现 ◦ 首先实现Writable接口，以便该数据能被序列化后完成网络传输或文件输入/输出； ◦ 其次，如果该数据需要作为key使用，或者要比较数值大小时，则需要实现 WritableComparable接口。 ◦ 例如将一个三维坐标P(x,y,z)定制为一个数据类型 pubic class Point3D implements Writable<Point3D> { private float x,y,z; public void readFields(DataInput in) throws IOException {……} public void write(DataOutput out) throws IOException {……} }

用户定制数据类型如果 Point3D还需要作为主键值使用,或者需要比较大小时,还应该实现 Writab| e comparable接口 pubic class Point 3D implements Writable Comparable< Point3D> private float x, y, z public void read Fields(Datainput in) throws IoException public void write(Data Output out) throws IOException

 如果Point3D还需要作为主键值使用，或者需要比较大小时，还应该实现WritableComparable接口 pubic class Point3D implements WritableComparable<Point3D> { private float x,y,z; public void readFields(DataInput in) throws IOException {……} public void write(DataOutput out) throws IOException {……} }

用户定制输入/输出格式 Hadoop内置数据输入格式和 RecordReader TextInputFormat:是系统默认的数据输入格式,可以文本文件分块逐行读入,读入一行时,所产生的kye为当前行在整个文件中的字节偏移位置,而 ivalue就是行内容。 KeyvalueInputFormat:是另一个常用的数据输入格式, 可将一个安照<key, value>格式逐行存放的文件逐行读出,并自动解析成相应的key和va|ue

 Hadoop内置数据输入格式和RecordReader ◦ TextInputFormat：是系统默认的数据输入格式，可以文本文件分块逐行读入，读入一行时，所产生的kye为当前行在整个文件中的字节偏移位置，而value就是行内容。 ◦ KeyValueInputFormat：是另一个常用的数据输入格式，可将一个安照<key, value>格式逐行存放的文件逐行读出，并自动解析成相应的key和value

点击进入文档下载页（PPT格式）

共40页，可试读14页，点击继续阅读 ↓↓

您可能感兴趣的文档

四川大学：《数据库技术》课程教学资源（PPT课件讲稿）数据库设计
《程序设计基础》课程PPT教学课件（C++）第3讲 C++程序控制结构
MSCIT 5210/MSCBD 5002：Knowledge Discovery and Data Mining：Chapter 4：Data Warehousing, On-line Analytical Processing and Data Cube
香港中文大学：Achieving Secure and Cooperative Wireless Networks with Trust Modeling and Game Theory
北京大学：《项目成本管理》课程教学资源（PPT课件讲稿）项目范围计划（主讲：周立新）
《网上开店实务》课程教学资源（PPT讲稿）学习情境3 网店装修
中国科学技术大学：Linux内核源代码导读（PPT讲稿，陈香兰）
《The C++ Programming Language》课程教学资源（PPT课件讲稿）Lecture 04 Object-Based Programming
北京航空航天大学：SimplyDroid - Efficient Event Sequence Simplification for Android Application
南京大学：《计算机图形学》课程教学资源（PPT课件讲稿）第7讲图元填充与裁剪算法
香港浸会大学：Introduction to Linux and PC Cluster
《C语言程序设计》课程教学资源（PPT课件讲稿）第8章结构体、共用体与枚举类型
《C语言程序设计》课程电子教案（PPT课件讲稿）第7章用函数实现模块化程序设计
中国科学技术大学：云计算及安全（PPT讲稿）Cloud Computing & Cloud Security
中国科学技术大学：《信号与图像处理基础 Signal and Image Processing》课程教学资源（PPT课件讲稿）数字图像处理基础 Basics of Digital Image Processing
中国科学技术大学：《信号与图像处理基础 Signal and Image Processing》课程教学资源（PPT课件讲稿）图像压缩编码 Image Compression
《计算机组成原理》课程教学资源（PPT课件讲稿）第3章计算机的算术运算
Analysis of Algorithms（PPT讲稿）Data Structures and Data Management
《C语言程序设计》课程电子教案（PPT课件讲稿）第七章数组
《计算机网络与因特网 Computer Networks and Internets》课程教学资源（PPT课件讲稿）第二讲互联网应用软件
《计算机操作系统》课程教学资源（PPT课件讲稿）第四章存储器管理
《单片机应用技术》课程PPT教学课件（C语言版）第10章单片机测控接口
中国科技大学计算机系：《黑客反向工程》课程教学资源（PPT课件讲稿）黑客反向工程导论（陈凯明）
香港科技大学：Record Linkage for Big Data

点击购买下载（PPT）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录