第4节网络检索 网络检索的概念和特征 、 Internet基本知识 三、 Internet信息检索模式 ?思考题
1 第4节 网络检索 一、网络检索的概念和特征 二、Internet基本知识 三、Internet信息检索模式 思考题
网络检索的概念和特征 1、网络检索的概念 网络就是利用通信线路将多台计算机连接起来,进行计算机与计算机之 间的通信。计算机网络按其规模大小和分布池围可分为LAN、MAN WAN和 Internet。LAN就是局部区域的计算机网络在局域网中连在 起的计算机分布范围一般在10米以上和几公里之内它具有结构简单、 投资少、数据传输速度快、可靠性好、保密性强等优点。WAN是在较 大范围内实现计算机之间通信和数据交换,典型的代表是美国的主干网 ARPAnet和 NSFnet、我国的 Chinanet、 Cernet、 ChinagBn和 CSTnet等。 这些是 Internet的基础设施。 ARPAnet既是 Internet的前身,又是最早的广 域网结构。 Internet的出现是由于计算机网络的广泛应用,网络用户需要 在更大范围内实现相互通信和资源共享的结果,是成千上万个公共和专 用网连接在一起构成的全球规模最大、影响最广的计算机互联网络系统, 是全球计算机信息资源的最大规模的集成。 ·网络检索是指利用E-mail、FTP、 Telnet、 Archie、WAIS、 Gopher、 Veronica、wwW等检索工具,在 Internet等全球性网络上进行信息存取 的行为
2 一、网络检索的概念和特征 1、网络检索的概念 ⚫ 网络就是利用通信线路将多台计算机连接起来,进行计算机与计算机之 间的通信。计算机网络按其规模大小和分布范围可分为LAN、MAN、 WAN和Internet。 LAN就是局部区域的计算机网络,在局域网中连在一 起的计算机分布范围一般在10米以上和几公里之内。它具有结构简单、 投资少、数据传输速度快、可靠性好、保密性强等优点。WAN是在较 大范围内实现计算机之间通信和数据交换,典型的代表是美国的主干网 ARPAnet和NSFnet、我国的Chinanet、Cernet、ChinaGBN和CSTnet等。 这些是Internet的基础设施。ARPAnet既是Internet的前身,又是最早的广 域网结构。Internet的出现是由于计算机网络的广泛应用,网络用户需要 在更大范围内实现相互通信和资源共享的结果,是成千上万个公共和专 用网连接在一起构成的全球规模最大、影响最广的计算机互联网络系统, 是全球计算机信息资源的最大规模的集成。 ⚫ 网络检索是指利用E-mail、FTP、Telnet、Archie、WAIS、Gopher、 Veronica、WWW等检索工具,在Internet等全球性网络上进行信息存取 的行为
2、网络信息检索的基本特征。 第1点,两种不同的系统结构:集中式与分布式。 传统的联机检索系统绝大多数是集中式管理的,即整个系统有专人负责维护, 系统中的信息定期更新:绝大部分的检索工作都是在主机上完成的。 般的信息检索系统都采用昂贵的大型主机及大谷量的外存介质。这种集 中式系统的主要优点是集中的安全性以及在存储设备上处理大量数据的 功能。但缺点是过分依赖主机;网络的扩展性能差:由于所采用的技术 标准原则上是不公开的,因此相关技术缺乏发展的动力,灵活性较差 Internet是一个由许多类型、结构不同的分组交换网通过路由器连接而成的 种庞大的、能整体运行的网络。在因特网中主要采用了分布式的计算 杋系统,它与髙性能的并行计算机及大型的数据库管理系统共同管理、 调度和分配网中的通道和信息资源。其主要特点是模块性和并行性。系 统中的资源冗余和自治控制方式使系统具有动态重构的能力,即使受到 局部性的破坏,也能继续工作。系统以模块作为系统发展和资源更新的 增量,不必象集中式那样常常得替换整个系统或更改系统中很大的一部 分。这些优点有利于系统的维护和扩展,便于使用。同时,因特网上的 数据库的分布也不象联机检索系统那样集中于检索中心,而是分布在网 络中的各个主机上,这种分布使用户对数据可以分布式存取、分布式存 储和分布式处理
3 2、网络信息检索的基本特征。 第1点,两种不同的系统结构:集中式与分布式。 传统的联机检索系统绝大多数是集中式管理的,即整个系统有专人负责维护, 系统中的信息定期更新;绝大部分的检索工作都是在主机上完成的。一 般的信息检索系统都采用昂贵的大型主机及大容量的外存介质。这种集 中式系统的主要优点是集中的安全性以及在存储设备上处理大量数据的 功能。但缺点是过分依赖主机;网络的扩展性能差;由于所采用的技术 标准原则上是不公开的,因此相关技术缺乏发展的动力,灵活性较差。 Internet是一个由许多类型、结构不同的分组交换网通过路由器连接而成的 一种庞大的、能整体运行的网络。在因特网中主要采用了分布式的计算 机系统,它与高性能的并行计算机及大型的数据库管理系统共同管理、 调度和分配网中的通道和信息资源。其主要特点是模块性和并行性。系 统中的资源冗余和自治控制方式使系统具有动态重构的能力,即使受到 局部性的破坏,也能继续工作。系统以模块作为系统发展和资源更新的 增量,不必象集中式那样常常得替换整个系统或更改系统中很大的一部 分。这些优点有利于系统的维护和扩展,便于使用。同时,因特网上的 数据库的分布也不象联机检索系统那样集中于检索中心,而是分布在网 络中的各个主机上,这种分布使用户对数据可以分布式存取、分布式存 储和分布式处理
第2点,两种不同的服务模式:主仆式与客户服务器式。 在联机检索中,用户提交的査询经由通讯网络后交主机进行处理,所有的工 作都在主机上进行,这种运作交式称为主式在因特网:,畫要用 lent/server 客户方运作在微机或工作站上,分析从服条器上返回的数据,而服务方 则运行在从微机到大型机等各种计算 处理用户的各种请求并提供 服这种謇询檯式提高了网络的利用率,提高系统数据的独立性和 第3点,两种不同的信息组织方式:普通文本和超文本 在联机检索中,其数据库主要存贮有关主题领域各类文献资料的书目信息 它以文档的形式按线性组 文档的基本组成单位是记录,记录被划分 为若干个字段,用于检索和显示。每个字段均 段标识符。而在 Internet上,信 组织则来 文的结奶式别即客 种文本、图象、声音等信息数据的非线性组织形式。信息单元不是按线 性序列来组织的,而是依赖于数据库中信息单元之间知识内容的相关关 系和可能臣现的明显的连性。互普文本数据库不亘其餐据度不 点肉的信息可以是文本。图象、图形、动画、声章或其组会:而链路表 小这些节点间的网状关系。换言之,超文本数据库是由两个部分组成 息集合和连接集合中信息的链路网。超文本对信息的存储方式打破了 燝菂旻本绕頁罷按线性顺序存取的限制
4 第2点,两种不同的服务模式:主仆式与客户/服务器式。 在联机检索中,用户提交的查询经由通讯网络后交主机进行处理,所有的工 作都在主机上进行,这种运作方式称为主仆式。在因特网中,主要采用 先进的Client/Server模式。应用分前端的客户部分和后端的服务器部分, 客户方运作在微机或工作站上,分析从服务器上返回的数据,而服务方 则运行在从微机到大型机等各种计算机上,处理用户的各种请求并提供 服务。这种查询模式提高了网络的利用率,提高了系统数据的独立性和 完整性。提高了用户利用的便捷性。 第3点,两种不同的信息组织方式:普通文本和超文本。 在联机检索中,其数据库主要存贮有关主题领域各类文献资料的书目信息。 它以文档的形式按线性组织,文档的基本组成单位是记录,记录被划分 为若干个字段,用于检索和显示。每个字段均有一个供计算机识别的字 段标识符。而在Internet上,信息组织则采用了超文本的组织方式,即各 种文本、图象、声音等信息数据的非线性组织形式。信息单元不是按线 性序列来组织的,而是依赖于数据库中信息单元之间知识内容的相关关 系和可能出现的明显的连续性。与普通文本数据库不同。其数据库不是 由字符而是由Node和Link组成,节点表示知识单元、片段或其组合,节 点内的信息可以是文本、图象、图形、动画、声音或其组合;而链路表 示这些节点间的网状关系。换言之,超文本数据库是由两个部分组成: 信息集合和连接集合中信息的链路网。超文本对信息的存储方式打破了 原来的文本系统只能按线性顺序存取的限制
第4点,两种不同的检索机制:二次文献和搜索引擎。 联机检索系统中的文本常常是经过加工、标引之后,能够完整地描述 篇文献资料的信息集合,这样的信息集合称为二次文献。每篇这 样的二次文献称为一个记录,它充分地反映了文献的内容及特征。 每个记录一般都含有存取号、基本索引和辅助索引3种类型的字段。 在 nternet中,检索机制是随着服务器类型的不国而不同, Archie是 用于FTP的检索工具, Veronica是用于查找 Gopher的工具, Infoseek ycos等搜索引擎是用于WWW检索的。这些检索工具的组织有目录 式和索引式。 第5点,两种不同的检索结果:或长或短,时优时劣 信息质量差异 检索空间差异 检索便捷差异 检索速效差异 检索费用差异 检索安全性方面
5 第4点,两种不同的检索机制:二次文献和搜索引擎。 联机检索系统中的文本常常是经过加工、标引之后,能够完整地描述 一篇文献资料的信息集合,这样的信息集合称为二次文献。每篇这 样的二次文献称为一个记录,它充分地反映了文献的内容及特征。 每个记录一般都含有存取号、基本索引和辅助索引3种类型的字段。 在Internet中,检索机制是随着服务器类型的不同而不同,Archie是 用于FTP的检索工具,Veronica是用于查找Gopher的工具,Infoseek、 Lycos等搜索引擎是用于WWW检索的。这些检索工具的组织有目录 式和索引式。 第5点,两种不同的检索结果:或长或短,时优时劣。 ⚫ 信息质量差异 ⚫ 检索空间差异 ⚫ 检索便捷差异 ⚫ 检索速效差异 ⚫ 检索费用差异 ⚫ 检索安全性方面