HTML的局限性 ■搜索引擎简介 垂直搜索引擎 结构化数据 网信息抓取 提取模块 据库 分词模块 分词 结果 关键字 查润询页面 索引模块 关键字 查询结 分词模块 引库 查询模块
HTML的局限性 搜索引擎简介 垂直搜索引擎
HTML的局限性 ■搜索引擎简介 智能搜索引擎? “这是Web将以一种智能的方式为我们服务、为我们完成乏味 任务的时代的开始。Web和信息量的增长速度非常快,开发智 能化的搜索系统是势在必行的。” Medstory的创始人、首席执行官阿莱因
HTML的局限性 搜索引擎简介 智能搜索引擎? “这是Web 将以一种智能的方式为我们服务、为我们完成乏味 任务的时代的开始。Web 和信息量的增长速度非常快,开发智 能化的搜索系统是势在必行的。” — Medstory的创始人、首席执行官阿莱因
HTML的局限性 与应用程序的数据自动交换受限制 n服务器端在HTML中嵌入动态数据是非常困难的 客户端应用程序也很难自动从HTML中获取所需的数据 描述能力有限 HTML语言不能描述矢量图形、数学公式、化学符号等特殊对象 链接功能有限 链路丢失后不能自动纠正 HTML不能维持文档间的任何历史和关系,因此如果页面的URL地址变 化了,浏览这些页面时就会遇到烦人的404URL地址未找到的信息。 n链接方式是纯单向的 n虽然链接文档知道它要链接到的地法,但被链接的文档却无法知道它是 从何处被链接的,而这一点对于开发者往往是很重要的信息
HTML的局限性 与应用程序的数据自动交换受限制 服务器端在HTML中嵌入动态数据是非常困难的 客户端应用程序也很难自动从HTML中获取所需的数据 描述能力有限 HTML语言不能描述矢量图形、数学公式、化学符号等特殊对象 链接功能有限 链路丢失后不能自动纠正 HTML不能维持文档间的任何历史和关系,因此如果页面的URL地址变 化了,浏览这些页面时就会遇到烦人的404 URL地址未找到的信息。 链接方式是纯单向的 虽然链接文档知道它要链接到的地法,但被链接的文档却无法知道它是 从何处被链接的,而这一点对于开发者往往是很重要的信息
sGML简介 SGML是标准通用化标记语言( Standard Generalized Markup Language)的简称,是一种用标记(tag)来描述文档资料的国际 标准通用语言 web发明之前就存在了,是HTML和XML的基础 SGML中包含了一系列的文档类型定义(简称DTD),用于定义 标记的含义,因而它的语法是可以扩展的 优点:SGML的语义标记有助于计算机分类和索引,并且可扩展 成处理新数据格式的各种方法 缺点:SGML十分庞大,不易学,不易用,在计算机上尤其是 web上实现也十分困难。SGML也代表“听起来很棒,但或许以 后会用( Sounds great, Maybe Later)
SGML简介 SGML是标准通用化标记语言(Standard Generalized Markup Language)的简称,是 种用标记 一 (tag)来描述文档资料的国际 来描述文档资料的国际 标准通用语言 Web发明之前就存在了,是HTML和XML的基础。 SGML中包含 档 了一系列的文档类型定义(简称DTD),用于定义 标记的含义,因而它的语法是可以扩展的 优点: SGML的语义标记有助于计算机分类和索引 的语义标记有助于计算机分类和索引,并且可扩展 成处理新数据格式的各种方法 缺点: SGML十分庞大,不易学,不易用,在计算机上尤其是 在计算机上尤其是 web上实现也十分困难。SGML 也代表“听起来很棒,但或许以 后会用(Sounds Great, Maybe Later)
XML的设计目的 其设计目的在于使得在Web上以现有的HTML方式提供、 接收和处理通用的SGML成为可能 Its goal is to enable generic SGML to be served, received, and processed on the Web in the way that is now possible with HTML. XML has been designed for ease of implementation and for interoperability with both SGML and HTml (XMD). W3C Recommendation W3C建议的XML10中对XML设计目标: (1)应该可以在 nternet上直接使用 (2)应该广泛的支持不同的应用 (3)与SGML兼容 (4)处理XML的文档应该容易编写 (5)可选特征应该尽可能少,最好为0 (6)XML文件要易读清晰 (7)XML应易于设计。 (8)XML的设计应该正式而且简洁
XML的设计目的 其设计目的在于使得在Web上以现有的HTML方式提供、 接收和处理通用的SGML成为可能 Its goal is to enable generic SGML to be served, received, and processed on the Web in th h i ibl i h HTML XML h b d i d f f he way that is now possible with HTML. XML has been designed for ease of implementation and for interoperability with both SGML and HTML. -------(XML) 1.1 W3C Recommendation W3C建议的XML 1.0中对XML设计目标: (1)应该可以在Internet上直接使用 (2)应该广泛的支持不同的应用 (3)与SGML兼容 (4)处理XML的文档应该容易编写 (5)可选特征应该尽可能少,最好为0 (6)XML文件要易读,清晰 (7)XML应易于设计。 (8)XML的设计应该正式而且简洁