第二章检索语言与检索效果评价 体系分类法是一种直接体现知识分类的等级概念的标识系统。它根据一定的观点,以学 科分类为基础,以文献内容的科学性为对象,运用概念的划分(缩小)与概括(扩大)的方法,按 照知识门类的逻辑次序,从总到分,从简单到复杂,进行概念的层层划分。每划分一次,就产生 许多的类目。逐级划分,就产生许多不同等级的类目。所有不同等级的类目,层层隶属,形成 一个严格有序的直线性的知识类目的等级体系。而每个类目都用分类符号作为标记(即分类 号)。在一次划分或者概括过程中,对划分所得或被概括的概念称为种概念,也称下位类;被划 分或者概括所得的概念称为属概念,也称上位类;各下位类互称同位类,也称并列概念。例如 自动化技术、计算机技术”可以划分为“计算技术、计算机技术”、“自动化技术及设备”等,“计 算技术、计算机技术”又可划分为“计算机软件”、“一般计算器和计算机”、“电子数字计算机”等 等。层层划分的结果就使“自动化技术、计算机技术”这个概念形成一系列具有属种关系和并 列关系的更为专指的新概念。反之,也可以将许多专指的概念概括为泛指的概念。例如,“计 算杋软件”、“一般计算器和计算机”、“电子数字计算机”等等可以概括为“计算技术、计算机技 术”。“计算技术、计算机技术”、“自动化技术及设备”等又可进而概括为“自动化技术、计算机 技术”。若对概念的每一次划分所得到的类目给定分类号,就编成分类表,《中图法》的部分类 目与对应的类号见图21。 体系分类的主要特点是: ①它具有较强的族性查全功能。这是因为体系分类是一种体现知识分类的等级概念的分 类系统,它具有按学科和专业集中地系统地解释情报内容的功能。 ②不利于跨学科、跨专业和新型学科的文献检索。正是由于上述功能,体系分类对于从不 同学科不同专业论述同一事物以及相互渗透的学科难以反映,对于新兴的科学技术也不能迅 速反映,因此不利于跨学科、跨专业以及新兴学科的检索。 ③体系分类语言是先组定组型语言。由于体系分类语言在编制体系分类表时,列举了所 有类目及其对应的分类号并加以固定组配所以它是一种先组定组型检索语言。 2标题词语言 标题词语言是表征文献内容特征的经过规范化处理的名词术语(包括词和短语)。标题 词作为一种检索语言和体系分类法一样,也是一种列举式(先组式)的语言 标题词分为主标题词和副标题词,标题词和副标题词是固定组配的,不允许检索者将有 关标题词进行自由组配来表达检索提问。 标题词的基本结构形式是主标题词、删标题词和说明书。 主标题词:是用来称呼主题表示事物主体或方式过程的名词。 副标题词:它是对主标题进行修饰限定和细分的名词,表明主标题的某一方面,起着主题 分类的作用。例如: 主标题词 副标题词 两者关系 照相机 后者是前者的一部分 激光 测量 后者是前者的应用范围 物理学 原子 后者是前者的下位类 能作为标题词的词汇主要是名词、动名词和名词性短语,以及它们的一些复合形式,其他 词类如冠词介词数词感叹词、形容词等是不能作为标题词的
14 科技信息检索 3.关键词语言 它是从文献的题目、正文和摘要中抽选出来,用以揭示(或表达)文献主题内容特征,具有 实质意义,但未经规范化处理的自然语言词汇。 关键词索引是由未经规范的“自然语言编制的,其主要优点是检索时能达到较高专指度 和泛指度。同时,关键词语言也是科技人员习惯使用的语言,使用简便。但关键词的严重缺点 是语言未经规范,无词表控制,容易漏检 关键词索引是以文献中的一些主要关键词分别作为检索标识,按字顺排列,并指出文献出 处的一种索引。按其款目是否保留非关键词(冠词、介词、连词等)以及不同的排检方法分为 纯关键词索引、题内关键词索引题外关键词索引。 (1)纯关键词索引 纯关键词索引是指在索引条目中不包含非关键词(冠词、介词连词等),而纯粹由关键词 构成的索引。例如:“汽车排气中铅的消除”的题目按纯关键词索引可排列成下列四种(假定其 文献代号为00)。 检索入口洞 其他关键词 文献代号 汽车 排气铅消除 (001) 排气 铅消除汽车 (001) 铅 消除汽车排气 (001) 消除 汽车排气铅 (001) 它的特点是编制简单,不用查主题词表进行词语选择和控制,因而编制的速度快。但因词 未经规范检索时漏检率较高。另外,各关键词间无文法关系,不易判断文献的主题内容。 2)题内关键词索引 题内关键词索引又称为上、下文关键词索引。每个关键词都作为检索词,保留非关键词 (包括冠词介词连接词等),但非关键词不作为检索词。关键词居中,上、下文排在其两侧,关 键词后的词排不下时,可往前栏的空白处接着排,关键词前的词排不下时,可往中栏的空白处 接着排,后栏则排文献编号。例如“汽车排气中铅的消除”按题内关键词索引排列如下 左 中(检索入口词 文献编号 铅的消除 汽车排气中 题内关键词索引克服了纯关键词索引只有并列的关键词而无词间语法关系含义不清、容 易产生误检的缺点。它在列出关键词的冋时,也保留了非关键词,使关键词与非关键词组成· 条短语,即一条上、下文,以便明确各个关键词的含义,借以判断文献的主题内容。题内关键词 索引有编制简便,出版快和含义明确的优点。但是,索引排检复杂,明显性和易读性差。 (3)题外关键词索引 题外关键词索引是为了改进题内关键词索引易读性差的缺点而产生的。其形式是作为标 识的关键词抽出列人首位或提行,其后或下是文献题目和文献的收藏地址。例如:“汽车排气 中铅的消除”按题外关键词索引排列如下 检索入口洞 题目 收藏地址 汽车 汽车排气中铅的消除 其特点是题目完整,明显性、易读性好。 4.叙词语言
第二章检索语言与检索效果评价 15 它是从文献题目、正文或摘要中抽出来用以表达文献内容,采用表示单元概念的规范化名 词的组配来对文献内容进行描述的后组式词汇型标识系统的检索语言。 叙词的组配是拆义解析与后组式概念组配,而不是单纯的字面组配,概念组配是符合概念 逻辑关系的组配,字面组配(单元词基本是字面组配)有可能产生不符合逻辑的虚假组配,而虚 假组配会造成检索中的误检和漏检。例如“儿童病理学”按单元词解析为“儿童”与“病理学”两 个独立存在的单元词:而叙词则为“儿童”,“消化系统病理”,“内分泌系统病理”,“呼吸系统病 等一些代表病理学具体主题内容的叙词。 叙词是根据检索的需要临时进行组配的一种后组式检索语言。它以规范化的名词和动名 词作为主要词类,动词和虚词不能作为叙词。叙词吸收标题法中固定词组搭配词间关系的方 法,编制带有完善的参照系统的叙词表所有的叙词都受控于叙词表,叙词表是规范各学科领 域或某一专业领域名词术语的工具。我国编制的《汉语主题词表》就是典型的叙词语言 叙词语言不仅具备一般主题语言所具有的基本要素性能和特点,同时比其他类型的主题 语言更为全面、科学和完善。它最大的优点是可以自由组配检索概念,非常适用于计算机检 主题语言与体系分类语言的区别 主题语言与体系分类语言在原理土是一致的,都是为了表达文献主题。主要区别是标识 与组织方式不同,具体表现在 ①标识符号不同。体系分类语言采用一套由字母数字或二者混合构成的号码体系,作为 大小类目的标识符号。用体系分类语言编排组织的检索工具,主要是依据类号决定序列。类 号和类目必须紧密相联,才能完整地表达知识分类的等级概念,一旦分开,类号就失去了意义。 在使用过程中,要将文献学科内容转换成类号,或将类号转换成文献学科内容。 主题语言主要是采用规范化或直接采用自然语言中的语词,作为表达文献主题的标识符 号。这种符号直观明确,一目了然,概念与类目合二为一,不存在分类语言那样的转换工序,使 用方便易懂,迅速准确。 ②体系编排不同。休系分类表是按学科划分,按等级层累的逻辑分类进行编排,这种体系 能充分揭示事物之间的等级关系和相关关系;主题表是按主题诃的字顺进行编排,主题词排列 的先后顺序不体现事物之间的任何关系。 ③类目语义关系的表达方式不同。体系分类表类目之间的语义关系,主要依据类目的等 级划分,显示出上下位类目之间的隶属关系。同位类日之同的并列关系,采用参见法、交替法 以及类目注释说明等方法,显示出类目之间的同义、相关关系。主题词表中的主题词之同的语 义关系,主要是通过参照系统来显示。 ④用途不同。体系分类语言比较适用于图书或文集的处理和检索,而主题语言则比较适 用于单篇的文献资料,如期刊论文、研究报告、会议论文等等;体系分类语言既可用于编制分类 目录和分类索引,还可用于文摘编排文献报道藏书排架和统计,主题语言主要适用于编制主 题索引或主题目录。 ⑤检索特点不同。体系分类语言具有族性检索特点,而主题语言具有特性检索特点
16· 科技信息检索 第二节信息检索效果的评价 信息检索效果就是利用检索系统进行检索服务时所获得的有效结果。 评价信息检索效果,目的是为了准确掌握检索系统的各种性能水平,分析影响检索效果的 因素,调节检索策略,改进检索系统的性能提高检索效果满足用户信息检索的需求。 评价指标 评价指标是衡量检索系统性能和检索效果的标准,一般包括检全率、检准率漏检率、误检 率等四项指标 1.检全率 它是指检出的相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统检出 相关文献能力的尺度。可用下式表示 检出相关文献量 检全率二系统中相关文献总量×100% 2检准率 它是指检出的相关文献量与检出文献总量的比率,是衡量信息检索系统检出文献准确度 的尺度。可用下式表示: 检准率=拉出相关文献量×100% 检全率和检准率是评价信息检索系统的检索效率的主要指标,即检索系统中的全部相关 文献都被检出,检出的文献全部是相关文献。 然而,由于许多因素的影响,在实际检索中,检全率和检准率是不可能达到100%的,二者 存在着一种互逆关系,即在同一检索系统中检全率和检准率达到某一程度后,提高检全率,检 准率则会降低;反之,检准率提高,检全率则会下降。 3漏检率 它是指漏检相关文献量与检索系统中相关文献总量的比率,是衡量信息检索系统漏检文 献程度的尺度。可用下式表示: 漏检率=漏检相关文献量 系统中相关文献总量×100% 4.误检率 它是指误检(检出不相关)文献量与检出文献总量的比率,是衡量信息检索系统误检文献 程度的尺度。可用下式表示 误检率。误检文献到×100% 检出文献总量 漏检率和误检率是评价信息检索系统的检索误差的主要指标。 四个评价指标中检全率与漏检率之和为检准率与误检率之和为1 由此可见,产生漏检和误检的原因是影响信息检索系统效果的主要因素。误差越大效率 越低,检索系统的性能就越低;误差越小,效率越高,检索系统的性能就越高。 、影响检索效果的主要原因 ①检索语言不能全面地显示文献主题概念之间的等级和相关关系没有排除检索语言中
第二章检索语言与检索效果评价 的同义现象,造成同一主题文献分散而致漏检; 检索系统收录文献不全,检索途径不齐全; ③文献的标引深度不够,前后不一致或遗漏了原文的重要概念或选词不当等; ④检索人员不具备选择检索词以表达文献主题的能力以及把选出的检索词逻辑地完整地 组合在一起的能力等等。 我们可以把产生漏检和误检的原因分成主观和客观两个方面,客观方面是指检索工具,主 观方面是指标引人员和检索人员,因此,从这两方面人于才能降低漏检率和误检率。 三、提高检索效果的措施 提高检索效果,必须消除漏检和误检产生的原因,其主要措施有: ①选择好检索工具。既要注意选择质量较高的检索工具,又要选用适合检索课题需要的 检索工具。 ②准确使用检索语言。所用检索语言应能准确表达情报需求,灵活运用泛指性较强和专 指性较强的检索语言。 使用泛指性较强的检索语言(如上位类、上位主题词)能提高检全率但检准率下降。 使用专指性较强的检索语言(如下位类、下位主题词)能提高检准率,但检全率下降。 ③善于利用各种辅助索引。一种检索工具通常有许多辅助索引提供多种检索途径,应根 据检索需要综合运用,选用相应的索引进行检索。 ④提高检索策略制订水平。检索策略是一项技巧性很强的检索方案,不同的检索方案得 到的检索效果有着很大的差别,因此检索人员不仅要具备较高的专业素质,也要具有一定的 文献检索常识,能全面正确表达检索要求制订出科学、全面、合理细致的检索策略,这样才能 有效地降低漏检率和误检率,提高检索效果