《信息检索》电子教案 第一章信息检索概述 第一节信息资源的概念与类型 信息资源的概念 信息资源是人类存储与载体(包括人脑)上的已知或未知的可利用的 信息。信息中的载体信息和主体信息是使信息资源的最基本的组成部分。 信息资源的特点 1.客观性。信息不是能源,也不是物质,无论是否认识到,信息总是 存在着 寄载性。信息必须借助于一定的符号存储与一定的载体中(包括人 脑),才能被表现,没有载体,就没有信息。信息与载体,两者不能割 裂开 3.传递性。信息可以通过一定的载体在空间、时间上传递,从近到远, 从古到今都能传递 4.动态性。信息是对事物存在方式及运动方式的反映,随着事物的变 化,信息也将变化。这里动态性是指信息的时效性。 相对性。人们认识能力与认识条件不同,信息接受者(信宿)获得 信息与信息量的多寡不同,从这个意义上说,信息的价值具有相对性。 6.增长性。信息资源的使用,不但不会使信息资源减少,再利用中, 还会产生更多的信息。 7.共享性。使用同一种信息资源,均不需要任何的限制条件,信息资 源共享的双方或多方均不回损失信息内容,相反还会产生新的信息
1 《信息检索》电子教案 第一章信息检索概述 第一节信息资源的概念与类型 一、 信息资源的概念 信息资源是人类存储与载体(包括人脑)上的已知或未知的可利用的 信息。信息中的载体信息和主体信息是使信息资源的最基本的组成部分。 二、 信息资源的特点 1. 客观性。信息不是能源,也不是物质,无论是否认识到,信息总是 存在着。 2. 寄载性。信息必须借助于一定的符号存储与一定的载体中(包括人 脑),才能被表现,没有载体,就没有信息。信息与载体,两者不能割 裂开。 3. 传递性。信息可以通过一定的载体在空间、时间上传递,从近到远, 从古到今都能传递。 4. 动态性。信息是对事物存在方式及运动方式的反映,随着事物的变 化,信息也将变化。这里动态性是指信息的时效性。 5. 相对性。人们认识能力与认识条件不同,信息接受者(信宿)获得 信息与信息量的多寡不同,从这个意义上说,信息的价值具有相对性。 6. 增长性。信息资源的使用,不但不会使信息资源减少,再利用中, 还会产生更多的信息。 7. 共享性。使用同一种信息资源,均不需要任何的限制条件,信息资 源共享的双方或多方均不回损失信息内容,相反还会产生新的信息
规模性。信息资源作为整体要有一定的量,分散、片面地信息不能 较好地反映事物的情况。 信息资源的类型 按照信息资源的开发程度来区分,可分为潜在信息资源与现实信息资 源两大类。现实信息资源又可分为口语信息资源、体语信息资源、实物信 息资源、文献信息资源、网络信息资源和多媒体信息资源。 1.口语信息资源。交谈、聊天、授课、讨论等方式获得的信息资源。 特点是传递迅速,互动性强,但稍纵即逝、久传易出差异。因此通过 这种方式了解到的信息应记录下来,并加以证实 体语信息资源。以手势、表情、姿势如舞蹈、体育比赛、杂技等方 式传递的信息资源 特点是直观性强生动丰富、印象深刻、富有感染力,但此类信息的容 量有限。 实物信息资源。以实物如文物、产品样本、模型、碑刻、雕塑等形 式表示的信息资源 特点是直观性强、感觉实在、信息量大,但需要通过知识、智慧、经 验和工具挖掘大量隐含的信息。 4.文献信息资源。以文字、图形、符号、声频、视频等方式记录在各种载 体上的知识和信息,包括图书、连续出版物、小册子以及学位论文、专利、 标准、回忆录、政府出版物等特种文献。 特点是经过加工、整理,较为系统、准确、可靠,便于保存与利用, 但也存在信息相对滞后,部分信息尚待证实的情况
2 8. 规模性。信息资源作为整体要有一定的量,分散、片面地信息不能 较好地反映事物的情况。 三、 信息资源的类型 按照信息资源的开发程度来区分,可分为潜在信息资源与现实信息资 源两大类。现实信息资源又可分为口语信息资源、体语信息资源、实物信 息资源、文献信息资源、网络信息资源和多媒体信息资源。 1. 口语信息资源。交谈、聊天、授课、讨论等方式获得的信息资源。 特点是传递迅速,互动性强,但稍纵即逝、久传易出差异。因此通过 这种方式了解到的信息应记录下来,并加以证实。 2. 体语信息资源。以手势、表情、姿势如舞蹈、体育比赛、杂技等方 式传递的信息资源。 特点是直观性强生动丰富、印象深刻、富有感染力,但此类信息的容 量有限。 3. 实物信息资源。以实物如文物、产品样本、模型、碑刻、雕塑等形 式表示的信息资源。 特点是直观性强、感觉实在、信息量大,但需要通过知识、智慧、经 验和工具挖掘大量隐含的信息。 4.文献信息资源。以文字、图形、符号、声频、视频等方式记录在各种载 体上的知识和信息,包括图书、连续出版物、小册子以及学位论文、专利、 标准、回忆录、政府出版物等特种文献。 特点是经过加工、整理,较为系统、准确、可靠,便于保存与利用, 但也存在信息相对滞后,部分信息尚待证实的情况
文献的一些主要类型 1)图书。国家标准《情报与文献工作词汇·传统文献》(GB13143-91) 对图书(book)的解释是:一般不少以49页并构成一个书目单元的文 献。图书是文献中最古老、最重要的类型。按文种来分可分为:中文图 书、日文图书、西文图书等;按作用范围可分为通俗图书、教科书、工 具书等;按写作方式可分为专著、编著、翻译、编译等;按出版卷可 分为单卷本、多卷本等;按刊行情况可分为单性本、丛书、抽印本等 按版次情况可分为初版、重版、修订本等 2)连续出版物。具有同一题名、定期或不定期以分册形式出版、有卷 期或年月标识、计划无限期连续出版的文献。包括期刊、报纸、年度出 版物及其他连续报告、会议路、专著性丛刊等。连续出版物是与图书并 列的最主要的文献类型,其特点是内容新颖、报道及时、出版连续、信 息密集、形式一致等。据统计目前世界上连续出版物有130万种,限期 连续出版物约50万种 3)特种文献。有特定内容、特定用途、特定读者范围、特定出版发行 方式的文献,包括学位论文、研究报告、专利、标准、产品样本、会议 录、档案和政府出版物。国内外同行称这类文献为“灰色文献”(grey literature),尽管这类文献并非很成熟,但他们内容新颖专深、实用 性强、信息量大、参考性高,利用率大,是极为重要的信息资源 4)网络信息资源。以电子形式存贮于成千上万台计算机组成的网络中 的信息资源。它包括各类数据、电子文件、学术论文、图书、软件、商 业活动等各种信息
3 文献的一些主要类型: 1) 图书。国家标准《情报与文献工作词汇·传统文献》(GB13143—91) 对图书(book)的解释是:一般不少以 49 页并构成一个书目单元的文 献。图书是文献中最古老、最重要的类型。按文种来分可分为:中文图 书、日文图书、西文图书等;按作用范围可分为通俗图书、教科书、工 具书等;按写作方式可分为专著、编著、翻译、编译等;按出版卷 可 分为单卷本、多卷本等;按刊行情况可分为单性本、丛书、抽印本等; 按版次情况可分为初版、重版、修订本等。 2) 连续出版物。具有同一题名、定期或不定期以分册形式出版、有卷 期或年月标识、计划无限期连续出版的文献。包括期刊、报纸、年度出 版物及其他连续报告、会议路、专著性丛刊等。连续出版物是与图书并 列的最主要的文献类型,其特点是内容新颖、报道及时、出版连续、信 息密集、形式一致等。据统计目前世界上连续出版物有 130 万种,限期 连续出版物约 50 万种。 3) 特种文献。有特定内容、特定用途、特定读者范围、特定出版发行 方式的文献,包括学位论文、研究报告、专利、标准、产品样本、会议 录、档案和政府出版物。国内外同行称这类文献为“灰色文献”(grey literature),尽管这类文献并非很成熟,但他们内容新颖专深、实用 性强、信息量大、参考性高,利用率大,是极为重要的信息资源。 4) 网络信息资源。以电子形式存贮于成千上万台计算机组成的网络中 的信息资源。它包括各类数据、电子文件、学术论文、图书、软件、商 业活动等各种信息
因特网( internet)在20世纪70年代起源于美国,截至2000年底,已 连接全球200多个国家和地区近5万多个网络、485万台主机、1.2亿个用 户,并以每月20万个新用户的速度递增。 中国从1994年开始发展因特网,据《中国因特网发展状况统计报告》报道, 截止2002年6月30日,中国上网计算机总数已超过1613万台,上网用户 总数达到4580万,CN下注册的达126146个;ww站点数(包括 CN,COM,NET,ORG下的网站)约293213个。国外专家预计,中国将发展成 为全球网上第一大用户,届时网上的中文信息也将越来越多。 但在海量的信息中,重复交叉较多,垃圾信息也会很多 根据不同的标准,可将网络信息资源划分成各种不同的类型: 从利用性质上分,有开发性信息、注册式信息、交流式信息;从存取 方式分,有邮件型信息、电话型信息、揭示版型信息、广播型信息、图书 馆型信息、数目型信息;从内容上分,有商务信息、科技信息、社科信息、 教育信息、娱乐信息等。 5)多媒体信息资源 将电信、电视、计算机三网相互融合,集图、文、声于一体的信息资源。 包括网上广播电视、专题论坛、网上广告等。 多媒体信息打破了图书、报刊、广播、电视单项媒体的界限,形成交互式 媒体信息,可通过主题、文本、模版匹配,视频检索等方式对其进行检索 第二节信息检索的概念与类型 信息检索( Information Retrieval)又成为情报检索,萌芽于图书馆的 参考咨询工作,20世纪50年代才固定成专用术语
4 因特网(internet)在 20 世纪 70 年代起源于美国,截至 2000 年底,已 连接全球 200 多个国家和地区近 5 万多个网络、485 万台主机、1.2 亿个用 户,并以每月 20 万个新用户的速度递增。 中国从 1994 年开始发展因特网,据《中国因特网发展状况统计报告》报道, 截止 2002 年 6 月 30 日,中国上网计算机总数已超过 1613 万台,上网用户 总数达到 4580 万,CN 下注册的达 126146 个;WWW 站点数(包括 CN,COM,NET,ORG 下的网站)约 293213 个。国外专家预计,中国将发展成 为全球网上第一大用户,届时网上的中文信息也将越来越多。 但在海量的信息中,重复交叉较多,垃圾信息也会很多。 根据不同的标准,可将网络信息资源划分成各种不同的类型: 从利用性质上分,有开发性信息、注册式信息、交流式信息;从存取 方式分,有邮件型信息、电话型信息、揭示版型信息、广播型信息、图书 馆型信息、数目型信息;从内容上分,有商务信息、科技信息、社科信息、 教育信息、娱乐信息等。 5) 多媒体信息资源 将电信、电视、计算机三网相互融合,集图、文、声于一体的信息资源。 包括网上广播电视、专题论坛、网上广告等。 多媒体信息打破了图书、报刊、广播、电视单项媒体的界限,形成交互式 媒体信息,可通过主题、文本、模版匹配,视频检索等方式对其进行检索。 第二节信息检索的概念与类型 信息检索(Information Retrieval ) 又成为情报检索,萌芽于图书馆的 参考咨询工作,20 世纪 50 年代才固定成专用术语
信息检索的概念 代表性的定义有以下几种 1.信息检索过程说。《图书馆学百科全书》认为:信息检索是“知识的有 序化识别和查找的过程, 广义的情报检索包括情报的检索与存 储,而狭义的情报检索仅指后者” 2.全息检索说。上海交通大学信息检索专家王永成教授认为:全息检索就 是“可以从任意角度从存储的多种形式的信息中高速准确地查找,并可 以任意要求的信息形式和组织方式输出,也可仅输出人们所需要的一切 相关信息的电脑活动”。 3.概念信息检索说。 Chank等专家认为,概念信息检索是基于自然语言处 理中队只是在语义层次上的析取,并由此形成知识库,再根据对用户提 问的理解来检索其中的相关信息。它用概念而不是关键词来组织信息。 4.大量相关信息检索说。叶继元等教授认为,信息检索是从大量相关信息 中利用人一机系统等各种方法加以有序识别与组织以便及时找出用户 所需部分信息的过程 人一机系统”,“各种方法”是指利用关键词、主题词、概念分析方 法等人工或自动将信息有序化;“及时找出用户所需部分信息”是指一切以 用户为,本全方位、多角度提供检索入口和检索结果 信息检索包括存储与检索两个部分。存储是对有关信息进行选择、并 对信息特征进行著录标引和组织,建立信息数据库;检索则根据提问制定 策略和表达式,利用信息数据库 这里要理解概念分析。概念分析即将概念转化成系统语言,是存储与
5 一、 信息检索的概念 代表性的定义有以下几种: 1. 信息检索过程说。《图书馆学百科全书》认为:信息检索是“知识的有 序化识别和查找的过程,······广义的情报检索包括情报的检索与存 储,而狭义的情报检索仅指后者”。 2. 全息检索说。上海交通大学信息检索专家王永成教授认为:全息检索就 是“可以从任意角度从存储的多种形式的信息中高速准确地查找,并可 以任意要求的信息形式和组织方式输出,也可仅输出人们所需要的一切 相关信息的电脑活动”。 3. 概念信息检索说。Chank 等专家认为,概念信息检索是基于自然语言处 理中队只是在语义层次上的析取,并由此形成知识库,再根据对用户提 问的理解来检索其中的相关信息。它用概念而不是关键词来组织信息。 4. 大量相关信息检索说。叶继元等教授认为,信息检索是从大量相关信息 中利用人—机系统等各种方法加以有序识别与组织以便及时找出用户 所需部分信息的过程。 “人—机系统”,“各种方法”是指利用关键词、主题词、概念分析方 法等人工或自动将信息有序化;“及时找出用户所需部分信息”是指一切以 用户为,本全方位、多角度提供检索入口和检索结果。 信息检索包括存储与检索两个部分。存储是对有关信息进行选择、并 对信息特征进行著录标引和组织,建立信息数据库;检索则根据提问制定 策略和表达式,利用信息数据库。 这里要理解概念分析。概念分析即将概念转化成系统语言,是存储与