3,数据存储容量单位1KB(Kilobyte)=210B1MB(Megabyte)=210KB=220B1GB(Gigabyte)=210MB=-220KB=230B1TB(Terabyte)=210GB=220MB=230KB=240B1PB(Petabyte)=210TB=220GB=230MB=240KB-250B1EB(Exabyte)=210PB=220TB=230GB=240MB=250KB=260B1ZB(Zettabyte)=210EB-220PB-230TB-240GB-250MB-260KB-270B1YB(Yottabyte)=210ZB-220EB-230PB=240TB=250GB=260MB-270KB-280B1NB(NonaByte)=210YB-220ZB=230EB=240PB=250TB=260GB=270MB-280KB-290B1DB(DoggaByte)=210NB-220YB=230ZB=240EB=250PB=260TB=270GB=-280MB-290KB-2100B
L o g o 3 .数据存储容量单位 1.1 数据 1 K B ( K i l o b y t e ) = 2 1 0 B 1 M B ( M e g a b y t e ) = 2 1 0 K B = 2 2 0 B 1 G B ( G i g a b y t e ) = 2 1 0 M B = 2 2 0 K B = 2 3 0 B 1 T B ( T e r a b y t e ) = 2 1 0 G B = 2 2 0 M B = 2 3 0 K B = 2 4 0 B 1 P B ( P e t a b y t e ) = 2 1 0 T B = 2 2 0 G B = 2 3 0 M B = 2 4 0 K B = 2 5 0 B 1 E B ( E x a b y t e ) = 2 1 0 P B = 2 2 0 T B = 2 3 0 G B = 2 4 0 M B = 2 5 0 K B = 2 6 0 B 1 Z B ( Z e t t a b y t e ) = 2 1 0 E B = 2 2 0 P B = 2 3 0 T B = 2 4 0 G B = 2 5 0 M B = 2 6 0 K B = 2 7 0 B 1 Y B ( Y o t t a b y t e ) = 2 1 0 Z B = 2 2 0 E B = 2 3 0 P B = 2 4 0 T B = 2 5 0 G B = 2 6 0 M B = 2 7 0 K B = 2 8 0 B 1 N B ( N o n a B y t e ) = 2 1 0 Y B = 2 2 0 Z B = 2 3 0 E B = 2 4 0 P B = 2 5 0 T B = 2 6 0 G B = 2 7 0 M B = 2 8 0 K B = 2 9 0 B 1 D B ( D o g g a B y t e ) = 2 1 0 N B = 2 2 0 Y B = 2 3 0 Z B = 2 4 0 E B = 2 5 0 P B = 2 6 0 T B = 2 7 0 G B = 2 8 0 M B = 2 9 0 K B = 2 1 0 0 B
数据规模与利用率之间的矛盾日益凸显4.3心一方面,数据规模的“存量”和“增量”在快速增长。IDC曾估计2013年全球数据总量大约为4.4ZB,而2020年将增长至40ZB,人均达到5.2TB纽约证券交易所:4~5TB/天Facebook:7PB/月;大型强子对撞机(LargeHadronCollider):3OPB/年InternetArchive项目已存储大约18.5PB的数据。心另一方面,缺乏对“大数据”自的开发利用能力
L o g o 4. 数据规模与利用率之间的矛盾日益凸显。 ❖一方面,数据规模的“存量”和“增量”在快速 增长。 ▪ IDC曾估计2013年全球数据总量大约为4.4ZB,而2020年 将增长至40ZB,人均达到5.2TB ▪ 纽约证券交易所:4~5TB/天 ▪ Facebook:7PB/月; ▪ 大型强子对撞机(Large Hadron Collider):30PB/年 ▪ Internet Archive项目已存储大约18.5PB的数据。 ❖另一方面,缺乏对 “大数据”的开发利用能力。 1.1 数据
5.数据模型心数据的异构性问题■专用格式·与特定应用程序(及开发语言)相关·docx,Pptx,class 等通用格式·与特定应用程序(及开发语言)无关的·关系(二维表/矩阵)、CSV(CommaSeparatedValue)、JSON(JavaScriptObjectNotation)、XML(Extensible MarkupLanguage)、RDF(ResourceDescriptionFramework)和OWL(WebOntologyLanguage)等
L o g o 5. 数据模型 ❖数据的异构性问题 ▪ 专用格式 • 与特定应用程序(及开发语言)相关 • docx, pptx,class 等 ▪ 通用格式 • 与特定应用程序(及开发语言)无关的 • 关系(二维表/矩阵)、CSV (Comma Separated Value )、JSON(JavaScript Object Notation)、XML (Extensible Markup Language)、RDF(Resource Description Framework)和OWL(Web Ontology Language)等。 1.1 数据
6.数据分类结构化数据、非结构化数据与半结构化数据类型含义本质举例结构化直接可以用传统关系数据库存储先有结构,后有数据关系型数据库中的数据数据和管理的数据非结构没有(或难以发现)统无法用关系数据库存储和管理的语音、图像文件等数据化数据一结构的数据半结构经过一定转换处理后可以用传统HTML、XML文件先有数据,后有结构(或等化数据较容易发现其结构)关系数据库存储和管理的数据
L o g o 6. 数据分类 1.1 数据 结构化数据、非结构化数据与半结构化数据
(1)结构化数据结构化数据是一种用户定义的数据类型。它包含了一系列的属性,每一个属性都有一个数据类型存储在关系数据库里,可以用二维表结构来表达实现的数据。大多数系统都有大量的结构化数据,一般存储在Oracle或SQLServer等关系型数据库中,当系统规模大到单一节点的数据库无法支撑时,一般有两种方法:垂直扩展与水平扩展
L o g o (1)结构化数据 • 结构化数据是一种用户定义的数据类型,它包含 了一系列的属性,每一个属性都有一个数据类型, 存储在关系数据库里,可以用二维表结构来表达 实现的数据。 • 大多数系统都有大量的结构化数据,一般存储在 Oracle或SQL Server等关系型数据库中,当系统 规模大到单一节点的数据库无法支撑时,一般有 两种方法:垂直扩展与水平扩展