3.2Web2.0对关系数据库带来的技术挑战 伴随现代社会的发展,一个技术越来越强大,功能越来越完备,能够 从各个层面促进社会全面发展的泛化集成的数据管理体系,逐渐发展为现 代社会必需的一个技术引擎。 数据 形式化:1946年以前 计算机数字化:始于1946年的第一台计算机 传统媒介 电子数据 无结构化规约 可结构化:如关系模型 狭义大数据技术 关系数据库技术 无序的数据 优势互补,技术融合 有序的数据 客观世界的全面描述(广义大数据技术) 图3-5一个基于技术融合泛化集成的数据管理体系
伴随现代社会的发展, 一个技术越来越强大,功能越来越完备,能够 从各个层面促进社会全面发展的泛化集成的数据管理体系,逐渐发展为现 代社会必需的一个技术引擎。 3.2 Web 2.0对关系数据库带来的技术挑战
3.3大数据关键技术的分析研究 从“狭义”和“广义”两个角度,重点分析结 构化的数据库技术和非结构化的大数据技术之 间的区别和联系,从而揭示大数据的核心技术 原理
3.3 大数据关键技术的分析研究 从“狭义”和“广义”两个角度,重点分析结 构化的数据库技术和非结构化的大数据技术之 间的区别和联系,从而揭示大数据的核心技术 原理
3.3大数据关键技术的分析研究 3.3.1SQL数据库VS NoSQL数据库:数据结构方面的对比分析 传统的关系数据库技术,具有非常严谨完备的关系模型理论;基于关系表的 关系模式,是关系数据库中基本的数据结构:基于这一理论框架而建立的关系数 据库,具有高效的优化查询机制。在紧耦合、强相关的数据处理场景下,这是传 统数据库的技术优势。 在基于松耦合、弱相关特点的互联网环境下,数据模型比较简单,数据一致 性要求不高,复杂的结构化查询少。尤其是Wb应用之间良好的可扩展性,要求 更加灵活的数据模型来支持互联网环境下大量异构平台间的数据查询和管理,这 就给传统的结构化关系数据库系统带来了技术上的挑战。 从数据结构的角度,“One size fits all”的单一的关系数据库管理模式,很 难适用于Web2.0环境下遍布的异构业务场景,尤其是不同业务应用模式并存的 互联网环境。 互联网环境下,支持Wb2.O应用需求的数据结构,必须具备良好的可扩展 性,能够灵活有效地应对互联网环境下非结构化或不可预知的数据类型,这是保 证Wb应用高性能、高可用性和可伸缩性扩展的前提条件。为了适应互联网环境 Web应用之间良好的可扩展性,很多非结构化数据表示方法在Web应用中逐渐发 展并成熟起来
3.3.1 SQL数据库 VS NoSQL数据库:数据结构方面的对比分析 传统的关系数据库技术,具有非常严谨完备的关系模型理论;基于关系表的 关系模式,是关系数据库中基本的数据结构;基于这一理论框架而建立的关系数 据库,具有高效的优化查询机制。在紧耦合、强相关的数据处理场景下,这是传 统数据库的技术优势。 在基于松耦合、弱相关特点的互联网环境下,数据模型比较简单,数据一致 性要求不高,复杂的结构化查询少。尤其是Web应用之间良好的可扩展性,要求 更加灵活的数据模型来支持互联网环境下大量异构平台间的数据查询和管理,这 就给传统的结构化关系数据库系统带来了技术上的挑战。 从数据结构的角度,“One size fits all”的单一的关系数据库管理模式,很 难适用于Web2.0环境下遍布的异构业务场景,尤其是不同业务应用模式并存的 互联网环境。 互联网环境下,支持Web2.0应用需求的数据结构,必须具备良好的可扩展 性,能够灵活有效地应对互联网环境下非结构化或不可预知的数据类型,这是保 证Web应用高性能、高可用性和可伸缩性扩展的前提条件。为了适应互联网环境 Web应用之间良好的可扩展性,很多非结构化数据表示方法在Web应用中逐渐发 展并成熟起来。 3.3 大数据关键技术的分析研究
3.3大数据关键技术的分析研究 3.3.1SQL数据库VS NoSQL数据库:数据结构方面的对比分析 没有科学有效的数据结构作为理论支撑,建立快捷高效的大数据索 引机制,是不可想象的事情。因此,需要充分考虑支撑数据结构有效部 署配置的软硬件平台的特殊性。谷歌大数据搜索引擎的设计应用,充分 体现了支持大数据应用创新的数据结构设计的重要性。这里,我们将以 谷歌大数据搜索引擎的技术应用为例,分析数据结构的重要性
没有科学有效的数据结构作为理论支撑,建立快捷高效的大数据索 引机制,是不可想象的事情。因此,需要充分考虑支撑数据结构有效部 署配置的软硬件平台的特殊性。谷歌大数据搜索引擎的设计应用,充分 体现了支持大数据应用创新的数据结构设计的重要性。这里,我们将以 谷歌大数据搜索引擎的技术应用为例,分析数据结构的重要性。 3.3 大数据关键技术的分析研究 3.3.1 SQL数据库 VS NoSQL数据库:数据结构方面的对比分析
3.3大数据关键技术的分析研究 3.3.1SQL数据库VS NoSQL数据库:数据结构方面的对比分析 截至2019年,Google在Alexa流量排名上已经连续多年第一。Google 大约有100多万台服务器,超过500个计算机集群,处理不同地域的不同任 务,支撑其主流的搜索功能。这其中没有类似“蓝色基因”那样的超级计 算机,100多万台服务器大都是非常普通的P℃级别的服务器,更为极端地 是采用PC级主板而非昂贵的服务器专用主板。Google的集群也全部是自己 搭建的,没有采用先进昂贵的集群连接技术。 那么Google的存储呢?Google存储着海量的资讯,近千亿个网页、数 百亿张图片等。早在2004年,G0ogle的存储容量就己经达到了5PB。但是 , 让人惊奇的是,Google没有使用任何磁盘阵列,哪怕是低端的磁盘阵列 也没用。 Google的方法是将集群中的每一台PC级服务器,配备两个普通IDE硬 盘来存储
截至2019年,Google在Alexa流量排名上已经连续多年第一。Google 大约有100多万台服务器,超过500个计算机集群,处理不同地域的不同任 务,支撑其主流的搜索功能。这其中没有类似“蓝色基因”那样的超级计 算机,100多万台服务器大都是非常普通的PC级别的服务器,更为极端地 是采用PC级主板而非昂贵的服务器专用主板。Google的集群也全部是自己 搭建的,没有采用先进昂贵的集群连接技术。 那么Google的存储呢?Google存储着海量的资讯,近千亿个网页、数 百亿张图片等。早在2004年,Google的存储容量就已经达到了5PB。但是 ,让人惊奇的是,Google没有使用任何磁盘阵列,哪怕是低端的磁盘阵列 也没用。 Google的方法是将集群中的每一台PC级服务器,配备两个普通IDE硬 盘来存储。 3.3 大数据关键技术的分析研究 3.3.1 SQL数据库 VS NoSQL数据库:数据结构方面的对比分析