基于RSS的企业Web搜索引擎研究与设计 第一章绪论 第一章绪论 1.1选题的意义 广义的企业搜索引擎( Enterprise Search Engine,简称ESE)中的企业并非 指单纯的企业。因为政府、教育、科研、媒体、医疗、军队、安全等部门都有类 似的应用需求,所以这里的“企业”可以理解为“企业级”,即企业级搜索引擎。 随着网上内容的极大丰富,信息本身的价值正在被创造海量信息的网络本身 所消减,“信息时代”正在被“信息经济时代”所取代。在 Google、百度这样的 公共搜索引擎上寻找信息、产品或服务时,出来的结果有时还是几千或几万个, 仍然是一个范围缩小了的“信息海洋”。在“信息经济时代”,只有解决了信息的 甄别、加工、提纯和挖掘,从海量的信息中发现真正的知识,才能带来价值的提 升。因此,问题的关键不是能否快速、海量地提供和传递信息,而是能否在期望 的时间和地点,以期望的方式和成本,获取所期望的信息。换言之,搜索要真正 有价值,必须削减信息的海量带来的不确定性。 随着互联网的迅猛发展和全面普及,搜索发现商业机会,是企业利用互联网 制胜的秘诀。企业对信息的处理方式也发生了巨大的改变。一方面,互联网上的 信息量不断增长,越来越多的企业所关心的信息正在源源不断的向互联网上转 移。据统计,目前企业所需要的信息90%可以在互联网上收集到凹。另一方面, 随着市场竞争的日益激烈,企业必须对市场环境变化进行快速响应,这也需要及 时掌握市场动态、随时了解竞争对手信息、准确把握行业发展趋势和相关最新政 策。信息价值的凸显以及信息海量化与企业信息需求之间的矛盾,让搜索服务的 重要性与战略性日益显现,因此,搜索引擎技术向企业应用转移,是搜索引擎领 域研究的一大趋势和热点。高效、低成本的企业Web搜索引擎对信息经济时代 提升企业的竞争能力具有重要的意义 1.2国内外搜索引擎技术发展现状 目前,国内外研究开发了一些网络搜索引擎,它们不断采用新技术提高搜索 效率和质量,并得到了人们的认可。比较知名的有国外的 Google, Yahoo Altavista, Infoseek, Lycos等,国内的百度、中搜、一搜、搜狐、网易等 第1页共47页
基于 RSS 的企业 Web 搜索引擎研究与设计 第一章 绪 论 第 1 页 共 47 页 第一章 绪 论 1.1 选题的意义 广义的企业搜索引擎(Enterprise Search Engine,简称 ESE)中的企业并非 指单纯的企业。因为政府、教育、科研、媒体、医疗、军队、安全等部门都有类 似的应用需求,所以这里的“企业”可以理解为“企业级”,即企业级搜索引擎。 随着网上内容的极大丰富,信息本身的价值正在被创造海量信息的网络本身 所消减,“信息时代”正在被“信息经济时代”所取代。在 Google、百度这样的 公共搜索引擎上寻找信息、产品或服务时,出来的结果有时还是几千或几万个, 仍然是一个范围缩小了的“信息海洋”。在“信息经济时代”,只有解决了信息的 甄别、加工、提纯和挖掘,从海量的信息中发现真正的知识,才能带来价值的提 升。因此,问题的关键不是能否快速、海量地提供和传递信息,而是能否在期望 的时间和地点,以期望的方式和成本,获取所期望的信息。换言之,搜索要真正 有价值,必须削减信息的海量带来的不确定性。 随着互联网的迅猛发展和全面普及,搜索发现商业机会,是企业利用互联网 制胜的秘诀。企业对信息的处理方式也发生了巨大的改变。一方面,互联网上的 信息量不断增长,越来越多的企业所关心的信息正在源源不断的向互联网上转 移。据统计,目前企业所需要的信息 90%可以在互联网上收集到[1]。另一方面, 随着市场竞争的日益激烈,企业必须对市场环境变化进行快速响应,这也需要及 时掌握市场动态、随时了解竞争对手信息、准确把握行业发展趋势和相关最新政 策。信息价值的凸显以及信息海量化与企业信息需求之间的矛盾,让搜索服务的 重要性与战略性日益显现,因此,搜索引擎技术向企业应用转移,是搜索引擎领 域研究的一大趋势和热点。高效、低成本的企业 Web 搜索引擎对信息经济时代 提升企业的竞争能力具有重要的意义。 1.2 国内外搜索引擎技术发展现状 目前,国内外研究开发了一些网络搜索引擎,它们不断采用新技术提高搜索 效率和质量,并得到了人们的认可。比较知名的有国外的 Google,Yahoo, AltaVista,Infoseek,Lycos 等,国内的百度、中搜、一搜、搜狐、网易等
基于RSS的企业Web搜索引擎研究与设计 第一章绪论 1.2.1国外技术发展现状 在国外,搜索引擎已有比较成熟的实用产品,并应用于许多著名的Web站点, 如 Altavista, Infoseek, Excite, Yahoo等。国外搜索引擎的主要特点包括 (1)在搜索引擎上同时支持目录导航和页面全文检索; (2) Robot向智能化和自动化方向发展,无需人工干预,有选择地收集有用 信息,自动分类,周期性自动更新: (3)支持海量数据管理,提供快速检索; (4)提供查询的自然语言接口; (5)对检索结果提供相关性排序输出,并可对检索结果优化处理; (6)支持相似性检索。 目前,国外搜索引擎还需要在自然语言接口、相关排序、结果优化等方面不 断完善。 1.2.2国内技术发展现状 目前国内的中文搜索引擎与国外优秀的中文搜索引擎还有一定的差距,但在 些相关领域已经有了很大的发展。例如:中文自动分词技术、中文自动分类技 术、中文信息过滤技术、简体/繁体自动转换技术 中文搜索引擎绝不仅仅是国外搜索引擎的汉化,因为搜索引擎是一个具有语 言文化背景的领域,中文搜索引擎需要人文特色,而不是“汉字搜索引擎”。虽 然Yaho推出了中文搜索引擎, Altavista也具有对汉字的搜索支持,但它们在 中文搜索引擎中的地位却不能与在西文搜索引擎中的地位相提并论。目前国内比 较有特色的中文搜索引擎都具备了以下功能: (1)同时提供目录导航和页面全文搜索; (2)提供简繁体(GB-2312/BIG-5)的自动跟踪转换功能,使用户在一种汉字 环境中可以浏览简体和繁体页面 (3)提供中文按词的全文检索,提高查准率。 建立一个优秀的中文搜索引擎是一项庞大复杂的工程,在技术和设备上的投 入都比较高。中文搜索引擎在査询速度、查全率和查准率上还需要进一步改进 1.2.3企业搜索引擎的研究现状 企业级搜索市场成为继互联网搜索经济之后的又一大热点: Google、百度、 第2页共47页
基于 RSS 的企业 Web 搜索引擎研究与设计 第一章 绪 论 第 2 页 共 47 页 1.2.1 国外技术发展现状 在国外,搜索引擎已有比较成熟的实用产品,并应用于许多著名的 Web 站点, 如 Altavista,Infoseek,Excite,Yahoo 等。国外搜索引擎的主要特点包括: (1)在搜索引擎上同时支持目录导航和页面全文检索; (2)Robot 向智能化和自动化方向发展,无需人工干预,有选择地收集有用 信息,自动分类,周期性自动更新: (3)支持海量数据管理,提供快速检索; (4)提供查询的自然语言接口; (5)对检索结果提供相关性排序输出,并可对检索结果优化处理; (6)支持相似性检索。 目前,国外搜索引擎还需要在自然语言接口、相关排序、结果优化等方面不 断完善。 1.2.2 国内技术发展现状 目前国内的中文搜索引擎与国外优秀的中文搜索引擎还有一定的差距,但在 一些相关领域已经有了很大的发展。例如:中文自动分词技术、中文自动分类技 术、中文信息过滤技术、简体/繁体自动转换技术。 中文搜索引擎绝不仅仅是国外搜索引擎的汉化,因为搜索引擎是一个具有语 言文化背景的领域,中文搜索引擎需要人文特色,而不是“汉字搜索引擎”。虽 然 Yahoo 推出了中文搜索引擎,Altavista 也具有对汉字的搜索支持,但它们在 中文搜索引擎中的地位却不能与在西文搜索引擎中的地位相提并论。目前国内比 较有特色的中文搜索引擎都具备了以下功能: (1) 同时提供目录导航和页面全文搜索; (2) 提供简繁体(GB-2312/BIG-5)的自动跟踪转换功能,使用户在一种汉字 环境中可以浏览简体和繁体页面; (3) 提供中文按词的全文检索,提高查准率。 建立一个优秀的中文搜索引擎是一项庞大复杂的工程,在技术和设备上的投 入都比较高。中文搜索引擎在查询速度、查全率和查准率上还需要进一步改进。 1.2.3 企业搜索引擎的研究现状 企业级搜索市场成为继互联网搜索经济之后的又一大热点:Google、百度
基于RSS的企业Web搜索引擎研究与设计 第一章绪论 Yahoo等传统互联网搜索引擎厂商纷纷转向企业搜索引擎市场;IBM、 Oracle、 微软等IT厂商也在向企业搜索市场渗透。企业搜索引擎按搜索的范围可以分为 对企业外部信息的搜索和对企业内部信息搜索两种类型。目前,商用的企业搜索 引擎大多都支持对企业内外部信息的搜索。技术的走向来看,企业搜索引擎基本 上可以分成三种流派: 是数据库厂商在自身的关系型数据库中增强检索服务能力。例如,IBM刚 刚推出的 Web Sphere Information Integrator Omni Find Version8.2是一个包含了 可提供各种技术的信息集成中间件,通过企业搜索、联邦、转型、数据布置(包 括复制与缓存)和数据事件发布等技术的综合利用,使企业能够实时、综合地访 问企业内和企业外的结构化与非结构化、大型机与分布式、公开与保密的商业信 息 二是从事传统的内容管理厂商,针对企业搜索引擎服务,提出了企业搜索平 台( Enterprise Search Platfor,简称ESP)的提法。这一“技术流派”的支持者 以国内的TRS为代表,还有国外的 Autonomy以及 Verity等公司。TRS公司推 出的企业搜索引擎解决方案,利用TRS自主开发的 Database server作为企业搜 索引擎服务的平台,辅助以各种数据索引工具,再配套以数据内容分发服务模块, 构建成一个完整的、能够索引企业内部全面的信息内容,提供安全的分级授权企 业搜索引擎服务。而 Autonomy推出的新型搜索工具 Blinkx,可以提供类似“模 糊搜索”或“语义搜索”的功能。该系统经过“学习”积累了一定“经验”后, 可以满足用户类似“最便宜的笔记本电脑是什么”这样的搜索需求。另外, Blinkx 不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联 网内容,还可以搜索本机和局域网上的内容。 Blinkx同时还可以搜索不同的文本 格式内容,如Text、Word、 Excel、PPT、PDF以及各种数据库中的数据格式。 另外一类就是由传统的互联网厂商如 Google、百度等将互联网搜索引擎技术 延续到企业搜索引擎市场中。例如,百度企业软件是以实时大规模信息检索技术 和语言处理技术为核心,专门针对企业和政府对信息管理与检索的需求,推出了 网事通产品系列、企业竞争情报产品系列、数据库检索系统构成的三大产品系列, 并已经为国内几百家企业和政府提供了解决方案。 Google公司推出了面向中小 企业的 Google mini,能够索引10万个文档或独立的URL地址。 本文主要讨论针对企业外部Web信息的搜索引擎,从技术流派的角度而言, 属于第三种流派。这里需要指出的是,目前在这一技术流派中大多都采用基于 pull模式的 Robot方式进行信息的搜集。 第3页共47页
基于 RSS 的企业 Web 搜索引擎研究与设计 第一章 绪 论 第 3 页 共 47 页 Yahoo 等传统互联网搜索引擎厂商纷纷转向企业搜索引擎市场;IBM、Oracle、 微软等 IT 厂商也在向企业搜索市场渗透。企业搜索引擎按搜索的范围可以分为 对企业外部信息的搜索和对企业内部信息搜索两种类型。目前,商用的企业搜索 引擎大多都支持对企业内外部信息的搜索。技术的走向来看,企业搜索引擎基本 上可以分成三种流派: 一是数据库厂商在自身的关系型数据库中增强检索服务能力。例如,IBM 刚 刚推出的 Web Sphere Information Integrator Omni Find Version 8.2 是一个包含了 可提供各种技术的信息集成中间件,通过企业搜索、联邦、转型、数据布置(包 括复制与缓存)和数据事件发布等技术的综合利用,使企业能够实时、综合地访 问企业内和企业外的结构化与非结构化、大型机与分布式、公开与保密的商业信 息。 二是从事传统的内容管理厂商,针对企业搜索引擎服务,提出了企业搜索平 台(Enterprise Search Platform,简称 ESP)的提法。这一“技术流派”的支持者 以国内的 TRS 为代表,还有国外的 Autonomy 以及 Verity 等公司。TRS 公司推 出的企业搜索引擎解决方案,利用 TRS 自主开发的 Database Server 作为企业搜 索引擎服务的平台,辅助以各种数据索引工具,再配套以数据内容分发服务模块, 构建成一个完整的、能够索引企业内部全面的信息内容,提供安全的分级授权企 业搜索引擎服务。而 Autonomy 推出的新型搜索工具 Blinkx,可以提供类似“模 糊搜索”或“语义搜索”的功能。该系统经过“学习”积累了一定“经验”后, 可以满足用户类似“最便宜的笔记本电脑是什么”这样的搜索需求。另外,Blinkx 不仅可以搜索文本内容,还可以搜索电影电视等多媒体内容,不仅可以搜索互联 网内容,还可以搜索本机和局域网上的内容。Blinkx 同时还可以搜索不同的文本 格式内容,如 Text、Word、Excel、PPT、PDF 以及各种数据库中的数据格式。 另外一类就是由传统的互联网厂商如 Google、百度等将互联网搜索引擎技术 延续到企业搜索引擎市场中。例如,百度企业软件是以实时大规模信息检索技术 和语言处理技术为核心,专门针对企业和政府对信息管理与检索的需求,推出了 网事通产品系列、企业竞争情报产品系列、数据库检索系统构成的三大产品系列, 并已经为国内几百家企业和政府提供了解决方案。Google 公司推出了面向中小 企业的 Google Mini,能够索引 10 万个文档或独立的 URL 地址。 本文主要讨论针对企业外部 Web 信息的搜索引擎,从技术流派的角度而言, 属于第三种流派。这里需要指出的是,目前在这一技术流派中大多都采用基于 pull 模式的 Robot 方式进行信息的搜集
基于RSS的企业Web搜索引擎研究与设计 第一章绪论 1.3搜索引擎设计模型 搜索引擎一般由搜索器、索引器、检索器和用户接口等四个部分组成: (1)搜索器(采集器)。搜索器的功能是发现和搜集信息。它常常是一个计算 机程序,需要尽可能多、尽可能快地搜集各种类型的新信息 (2)索引器。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项, 用于形成文档以及生成文档库的索引表。索引器可以使用集中式索引算法或分布 式索引算法。当数据量很大时,必须实现实时索引,否则不能够跟上信息量急剧 增加的速度。索引算法对索引器的性能(如大规模峰值査询时的响应速度)有很 大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。 (3)检索器。检索器的功能是根据用户的査询在索引库中快速检出文档,进 行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关 性反馈机制。 (4)用户接口。用户接口的作用是输入用户查询、显示查询结果、提供用户 相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜 索引擎中得到及时、有效的信息。用户接口的设计和实现使用人机交互的理论和 方法,以充分适应人类的思维习惯 1.4本文的研究内容 1.4.1问题的提出 目前互联网上的公共搜索引擎经过多年的发展,在信息采集、自动标引、分 类、索引技术和检索技术等方面取得了长足的进步,并得到了日益广泛的应用 但公共搜索引擎技术的一些优势在企业应用中常常不起作用,有时甚至变成劣 势。其主要表现在以下几方面 (1)公共搜索引擎普遍采用基于 Robot的自动信息采集技术。虽然这种技术 具有不需要大量人工介入,搜集信息量大,覆盖面较广,搜索结果查全率较高的 优点,但其在企业搜索引擎的应用中的缺点也是显而易见的: ①刷新周期长,实效性差。 Robot主动去查询wb站点的更新信息,而面 对总量超过100亿个的web页面,这种轮询方式不仅会占用搜索引擎的大量资 源,而且工作效率也十分低下,使得信息更新时间少则为几天,多则几个月,导 致一些新信息不能及时被查询。企业级搜索服务,需要将搜索结果用于企业的运 营和决策,这就要求信息能够反应出实时情况,不允许出现象公共引擎那样信息 第4页共47页
基于 RSS 的企业 Web 搜索引擎研究与设计 第一章 绪 论 第 4 页 共 47 页 1.3 搜索引擎设计模型 搜索引擎一般由搜索器、索引器、检索器和用户接口等四个部分组成: (1)搜索器(采集器)。搜索器的功能是发现和搜集信息。它常常是一个计算 机程序,需要尽可能多、尽可能快地搜集各种类型的新信息。 (2)索引器。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项, 用于形成文档以及生成文档库的索引表。索引器可以使用集中式索引算法或分布 式索引算法。当数据量很大时,必须实现实时索引,否则不能够跟上信息量急剧 增加的速度。索引算法对索引器的性能(如大规模峰值查询时的响应速度)有很 大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。 (3)检索器。检索器的功能是根据用户的查询在索引库中快速检出文档,进 行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关 性反馈机制。 (4)用户接口。用户接口的作用是输入用户查询、显示查询结果、提供用户 相关性反馈机制。主要的目的是方便用户使用搜索引擎,高效率、多方式地从搜 索引擎中得到及时、有效的信息。用户接口的设计和实现使用人机交互的理论和 方法,以充分适应人类的思维习惯。 1.4 本文的研究内容 1.4.1 问题的提出 目前互联网上的公共搜索引擎经过多年的发展,在信息采集、自动标引、分 类、索引技术和检索技术等方面取得了长足的进步,并得到了日益广泛的应用。 但公共搜索引擎技术的一些优势在企业应用中常常不起作用,有时甚至变成劣 势。其主要表现在以下几方面: (1) 公共搜索引擎普遍采用基于 Robot 的自动信息采集技术。虽然这种技术 具有不需要大量人工介入,搜集信息量大,覆盖面较广,搜索结果查全率较高的 优点,但其在企业搜索引擎的应用中的缺点也是显而易见的: ①刷新周期长,实效性差。Robot 主动去查询 Web 站点的更新信息,而面 对总量超过 100 亿个的 Web 页面,这种轮询方式不仅会占用搜索引擎的大量资 源,而且工作效率也十分低下,使得信息更新时间少则为几天,多则几个月,导 致一些新信息不能及时被查询。企业级搜索服务,需要将搜索结果用于企业的运 营和决策,这就要求信息能够反应出实时情况,不允许出现象公共引擎那样信息
基于RSS的企业Web搜索引擎研究与设计 第一章绪论 滞后更新的现象。 ②实施成本高。为了提高信息更新速度,基于 Robot的公共搜索引擎在设 计时大多采用多线程技术和分布式系统架构,这不仅需要较宽的网络带宽,还需 要多台高性能的服务器协同工作。这样高额的部署实施成本和运行成本对大多数 企业来说是不合适。 (2)企业检索信息是基于内容的相关性排序的。一些公共搜索引擎所谓的链 接分析专利技术以及内容聚类对查询结果的排序基本不起作用。链接分析是以 个网页被链接次数的多少作为重要性依据的,而一个网站内部网页的链接是由网 站内容采编发布系统决定的,其链接次数完全是由偶然因素决定。对企业而言, 这并不能作为判别重要性的依据。企业级搜索服务,搜索结果将直接参与到企业 的运营、决策中,所以对搜索结果的处理需要采用相关度分析技术,使相关度较 高的结果排在搜索结果列表的前面,相关度较低的结果排在后面,并屏蔽无用和 错误的信息,这有利于企业对信息资源的高效利用。 (3)企业应用中要求搜索结果是稳定的,但公共搜索引擎常常做不到这一点 在许多公共搜索引擎应用中,为了在大规模网页下提髙检索速度所采用的检索策 略、技巧以及索引方法常常导致检索结果的不稳定和不可理解,使检索结果重现 性差 (4)公共搜索引擎的索引和服务是分开的,这就不能适应企业应用中数据的 动态性增长和修改 (5)公共搜索引擎都基于文件系统,但企业应用中一般要求信息安全和集中 地存放在数据仓库中。公共搜索引擎注重的只是搜索的结果,而企业搜索的结果 并不是最重要的,在搜索后对数据的挖掘、聚类、提取、应用、管理等工作更加 重要,需要对收集到的信息建立数据库进行管理 1.4.2研究的思路 企业搜索引擎与公共搜索引擎的核心技术基本相同,但企业搜索并不是简单 的将公共搜索技术应用于企业。企业搜索对相关核心技术的要求更高,如要求信 息刷新速率更快,部署实施成本和运行成本更低,能够定向定量采集,以信息内 容为核心的相关度排序方式等。 基于 Robot的信息采集方式是采用传统的请求/应答的P山l模式,即由搜索 引擎主动发出请求,web服务器响应请求后再发送数据。 Robot再根据网页上的 链接采用图的遍历算法实现对互联网的搜索。虽然采用Pul技术可以使信息采 集更具有针对性和可控性,但这也是造成信息采集迟滞和部署运行成本髙的主要 第5页共47页
基于 RSS 的企业 Web 搜索引擎研究与设计 第一章 绪 论 第 5 页 共 47 页 滞后更新的现象。 ②实施成本高。为了提高信息更新速度,基于 Robot 的公共搜索引擎在设 计时大多采用多线程技术和分布式系统架构,这不仅需要较宽的网络带宽,还需 要多台高性能的服务器协同工作。这样高额的部署实施成本和运行成本对大多数 企业来说是不合适。 (2) 企业检索信息是基于内容的相关性排序的。一些公共搜索引擎所谓的链 接分析专利技术以及内容聚类对查询结果的排序基本不起作用。链接分析是以一 个网页被链接次数的多少作为重要性依据的,而一个网站内部网页的链接是由网 站内容采编发布系统决定的,其链接次数完全是由偶然因素决定。对企业而言, 这并不能作为判别重要性的依据。企业级搜索服务,搜索结果将直接参与到企业 的运营、决策中,所以对搜索结果的处理需要采用相关度分析技术,使相关度较 高的结果排在搜索结果列表的前面,相关度较低的结果排在后面,并屏蔽无用和 错误的信息,这有利于企业对信息资源的高效利用。 (3) 企业应用中要求搜索结果是稳定的,但公共搜索引擎常常做不到这一点。 在许多公共搜索引擎应用中,为了在大规模网页下提高检索速度所采用的检索策 略、技巧以及索引方法常常导致检索结果的不稳定和不可理解,使检索结果重现 性差。 (4) 公共搜索引擎的索引和服务是分开的,这就不能适应企业应用中数据的 动态性增长和修改。 (5) 公共搜索引擎都基于文件系统,但企业应用中一般要求信息安全和集中 地存放在数据仓库中。公共搜索引擎注重的只是搜索的结果,而企业搜索的结果 并不是最重要的,在搜索后对数据的挖掘、聚类、提取、应用、管理等工作更加 重要,需要对收集到的信息建立数据库进行管理。 1.4.2 研究的思路 企业搜索引擎与公共搜索引擎的核心技术基本相同,但企业搜索并不是简单 的将公共搜索技术应用于企业。企业搜索对相关核心技术的要求更高,如要求信 息刷新速率更快,部署实施成本和运行成本更低,能够定向定量采集,以信息内 容为核心的相关度排序方式等。 基于 Robot 的信息采集方式是采用传统的请求/应答的 Pull 模式,即由搜索 引擎主动发出请求,Web 服务器响应请求后再发送数据。Robot 再根据网页上的 链接采用图的遍历算法实现对互联网的搜索。虽然采用 Pull 技术可以使信息采 集更具有针对性和可控性,但这也是造成信息采集迟滞和部署运行成本高的主要