信息检索与数据挖掘 2019/3/31 1 信息检索与数据挖掘 第8章概率模型
信息检索与数据挖掘 2019/3/31 1 信息检索与数据挖掘 第8章 概率模型
信息检索与数据挖掘 2019/3/31 2 书上第10章XML检索[自学] ·上世纪90年代末,使用不同的数据管理系统来存储 和搜索他们的关键数据。 ·2001年进入了XML时代。分析企业中的非结构化 和半结构化数据的时代诞生。 如今,所有类型数据的激增。我们处于另一个演化 方向的顶端,通常称为大数据 。 表10-1RDB搜索、非结构化IR及结构化IR。对于结构化检索来说,尽管很多学者都认为Xquery(10.5 节)将会成为结构化查询的标准,但是关于这一点目前还没有最后定论 RDB搜索 非结构化检索 结构化检索 对象 记录 非结构化文档 以文本为叶节点的树 模型 关系模型 向量空间或其他 主要数据结构 表格 倒排索引 查询语言 SQL查询 自由文本查询 http://www.ibm.com/developerworks/cn/bigdata/ebook/
信息检索与数据挖掘 2019/3/31 2 书上第10章 XML检索[自学] • 上世纪 90 年代末,使用不同的数据管理系统来存储 和搜索他们的关键数据。 • 2001 年进入了 XML 时代。分析企业中的非结构化 和半结构化数据的时代诞生。 • 如今,所有类型数据的激增。我们处于另一个演化 方向的顶端,通常称为大数据。 http://www.ibm.com/developerworks/cn/bigdata/ebook/
信息检索与数据挖掘 2019/3/313 is0(1) org MIB(management information base) dod 树形结构的数据随 internet 处可见,人们习惯 mgmt private 于有序地组织所有 17 的数据。这类数据 mib-2 enterprises 的检索既不同于传 11 140 统的RDMS,也不 system snmp bea 同于自由文本检索。 个不 个 305 beaDomainList 300 200 beaSystem bealntAgt tuxedo 不 .1.3.6.1.4.1.140.300 absolute OID for "tuxedo"MIB
信息检索与数据挖掘 2019/3/31 3 MIB(management information base) 树形结构的数据随 处可见,人们习惯 于有序地组织所有 的数据。这类数据 的检索既不同于传 统的RDMS,也不 同于自由文本检索
信息检索与数据挖掘 2019/3/314 使用流计算,执行一种类似于持 V3→V4 续查询,得到持续更新的结果 80%的信息是非结构化的。 非结构化信息正在以15倍孑 结构化和非结 结构化信息的速率增长。 构化 批量数据 ariety Big Vel ocity Value 结构化 Data 流数据 TB ZB 1 Terabyte(TB)=1024 GL 1 Petabyte(PB)=1024 TB Volume 1 Exabyte(EB)=1024 PB 1 Zettabyte(ZB)=1024 EB 可用3个特征来定义大数据:数量、种类和速度
信息检索与数据挖掘 2019/3/31 4 V 3V 4 可用 3 个特征来定义大数据:数量、种类和速度 1 Terabyte (TB) = 1024 GB 1 Petabyte (PB) = 1024 TB 1 Exabyte (EB) = 1024 PB 1 Zettabyte (ZB) = 1024 EB 使用流计算,执行一种类似于持 续查询,得到持续更新的结果 80% 的信息是非结构化的。 非结构化信息正在以 15 倍于 结构化信息的速率增长。 Value
信息检索与数据挖掘 2019/3/315 信息检索与数据挖掘 第8章概率模型
信息检索与数据挖掘 2019/3/31 5 信息检索与数据挖掘 第8章 概率模型