D0I:10.13374/j.issn1001-053x.1982.01.015 北京钢铁学院学报 1982年第4期 M-150计算机定题情报检索系统 (SDI一1系统) 计算中心计算机检索科研组何德铸孙奎英 摘 要 定题情报服务对于查询世界有关课题的最新情况是一种较好的方式。本文简述 利用M150计算机及该机所配备的COBOL语言、汇编语言及实用数据库管理系统 PDM等软件编制成的定题情报检索系统。检索系统目前己开始检索美国金属学会 和英国金属学会联合编辑出版的“金属文摘”磁带(MET ADEX磁带)和“世界 铝文摘”磁带(WAA磁带)。查询文献时,只要提出有关的索引词(主题词或作者 名),应用检索程序,就可以将所命中文献的题目、文捕以及文献来源等内容打印 输出。由于磁带内容的文献数据库、作者名和主题词数据库是在PDM管理下工 作,因此,其检索速度较快,每个提问的检索时间平均在1秒左右。 一、前 言 情报收集是开展科学研究的重要前题。随着科学技术发展,使得各种资料的数量急刷增 加,仅供情报检索用的科技文献磁带就有几百种。它们直接反映了世界科学技术发展的最新 成果。面对这样浩瀚的文献资源,如何利用计算机进行自动检索,是当前情报检索中的一个 重要课题。 计算机检索国外早在60年代已开始进行,目前除定题服务外,大多已采用联机或通过网 络联机方式的专题追溯检素(Retrospective Search),即对累积多年的文献磁带进行专 题查询。 近年来,国内不少单位引进了国外文献磁带,在开展定题服务和试验性联机的专题追潮检 索方面取得了不少经验。同时为了弥补情报资源的不足,租用了国际终端,通过通讯卫星查找 美国“DIALOG”和“ORBIT”两大联机检索服务系统的数据库,开展了国际联机检索一 定题检索和追溯检索。 定题情报服务(Selective Dissemination of Information Service简称SDI), 是计算机情报检索系统的主要服务方式之一。用户根据科研、教学或生产中对情报的需求情 况,向检素系统预定检索题目,检索系统每隔一定时间,根据用户的题目用计算机检素最新 的文献磁带,并将检索结果提供给用户。这样,用户不仅可以迅速地获得有关研究课题的最 新资料线索,而且还可以作为累积资料的一种手段。 140
北 京 钢 铁 学 院 学 报 年第 期 一 计算机定题情报检索系统 一 系统 计算 中心 计 算机检 索科研 组 何德 铸 孙奎英 摘 要 定题 情报服 务对 于 查询世 界有关 裸题 的最 新情况 是一 种较好 的方 式 。 本文简述 利用 计算机及 该 机所配 备 的 语 言 、 汇 编语 言 及 实用 数据库管理 系统 等软件编 制成 的定题 情报检 索系统 。 枪 索系统 目前 己开 始 检 索美 国金 属学会 和英 国金 属学会联合 编辑出版 的 “ 金 属 文摘” 磁 带 磁 带 和 “ 世 界 铝 文摘” 磁 带 磁 带 。 查询 文 献 时 , 只 要 提 出有关 的索 引词 主题 词 或作者 名 , 应用 检 索程 序 , 就可 以将所命 中文 献的题 目 、 文摘 以及 文 献来源 等内容打 即 输 出 。 由于磁 带内容的 文 献数 据库 、 作 者名和 主 题 词数据库 是在 管理 下工 作 , 因 此 , 其检 索速度较 快 , 每个提 问 的检 索 时间平 均在 秒左 右 。 一 、 前 卜 口 情报收集是开 展 科学研究 的重要 前题 。 随 着科学技术发展 , 使得各种 资料的数盆 急剧增 加 , 仅供情报检索用 的科 技文献磁带就有几 百种 。 它们直 接反映 了世 界科学 技术发展 的最 新 成果 。 面 对这样浩瀚 的文 献 资源 , 如何利 用计 算机进 行 自动检索 , 是 当前情报检索中的一个 重要课 题 。 计算机检索国外早 在 年代 已开 始进 行 , 目前除定题服务外 , 大 多巳采用联机或通 过 网 络联机方式 的 专题追 溯检索 , 很口对累 积 多年的文献磁 带进行专 题 查询 。 近 年来 , 国 内不少 单位 引进 了国外文献磁带 , 在开 展定 题服务和 试验性 联机 的专题追溯检 索方面取得 了不 少经验 。 同 时为 了弥 补情 报 资源 的 不 足 , 租 用 了国际 终端 , 通过通 讯卫 星 查找 美 国 “ ” 和 “ ” 两大 联机 检 索服务 系统 的数据库 , 开 展 了国际联机检索一 定题检索和追溯 检索 。 定题情 报服务 。 简称 , 是计算机情 报检索系统 的主 要服务方式 之一 。 用 户 根据 科研 、 教学 或生产 中对情报的需求情 况 , 向检索系统预定检索题 目 , 检 索系统每隔一定 时 间 , 根据 用 户 的题 目用 计算机检 索最 新 的文献磁带 , 并将检索结果提供给 用 户 。 这样 , 用 户 不 仅可 以迅速地 获得有关研究课 题 的最 新 资料线索 , 而且还 可 以作为累 积 资料 的一种手段 。 DOI :10.13374/j .issn1001-053x.1982.04.015
北京钢铁学院计算中心设置的HITAC M一150计算机是一台中型通用数据处理计算 机,内存1MB,虚拟存贮16MB。该机除配有大量适用于科学计算的子程序库外,还配有适 于情报检索的面向问题的数据处理语言一COBOL语言,以及实用数据管理系统PDM (Practical Data Manager),为情报检素工作提供了方便。 为了适应冶金系统科研、教学和生产方面的需要,实现情报检索手段现代化,我们利用 M一150计算机及该机所配备的COBOL语言、汇编语言及PDM编制和调试成定题情报检索 系统。这个系统根据建库和检索方式不同而分别编制三个不同的检索程序:即SDI一1,它 的文献数据库、作者名和主题词数据库是在PDM管理下工作的检索程序,本文将着重介绍 这部分内容,SDI一2,其作者名和主题词数据库建在磁盘中,顺序检索用的文献数据库也 意在磁盘中的二次检索程序,SDI一3,它使用文献磁带直接在磁带机上进行顺序检索的程 序。 定题情报检索系统目前可以检索美国金属学会和英国金属学会联合编辑出版的“金属文 摘”磁带(MET ADEX磁带)和“世界铝文摘”磁带(WAA磁带)。报道内容为怡金、 金属材料和工艺。文献来自期刊、研究报告、会议资料和图书。它们每年各有12盘磁带,年 报道量WAA为五千条左右,METADEX为四万条左右。对于其它文献磁带只需将代码转 换的格式稍加改变即可使用该系统进行检索。 目前该系统已经开展试验性定题情报检索服务。用户可以用作者名或主题词(关键词), 并采用逻辑式组配来检索文献。程序系统批处理时每次处理的提问个数不限。每个提问输出 多者可达500条。程序系统可以利用终端进行专题检素。 二、SDI一1系统功能及构成 SDI一1系统采用倒排文件的检索算法,由于M一150计算机具有大容量的可更换磁 盘,所以可以进行批量追湖检索,同时可以利用终端进行提问检索。 整个系统的程序由五部分组成,它包括14个程序,3737条。所用语言为汇编语言、 COBOL语言和PDM系统。五部分组成如下: 1.数据库生成程序, 2.代码转换及格式编辑程序, 3.主题词(关键词)和作者名抽出、分类和编辑程序, 4. 文献数据组作成程序, 5.提问卡片校验、文献检索及编辑输出程序。 图1所示为SDI一1情报检索系统流程总框图。 首先由两个专门的程序对数据库的参数进行定义,生成文献检索数据管理系统。 系统开始运行时,文献原磁带由代码转换格式编辑程序转换成所要求的格式磁带。从格 式磁带,一方面抽出主题词和作者名,建立索引表,这是一个可供检索的倒排文件,另一方 面作成文献数据组,它是可供检索打印输出的文件。用这几个文件组成数据库,由文献检索 数据库管理系统管理。用户的提问以穿孔卡片的形式,经校验程序校验在磁盘中登录,构成 提问文挡。检索时,首先从提问挡中读入一个提问,按主题词或作者名分别处理,并得到每个 主题词或作者名所命中的文献号,再转入逻辑运算及文献号的处理,以得到该提问所命中的 文献进行编辑,直到所有提问处理完毕,转入打印输出。打印的项目有:提问号、提问人姓 141
北京钢 铁学 院计 算中心 设置 的 一 计 算机是 一 台 中型 通 用 数据 处理 计算 机 , 内存 , 虚 拟存贮 。 该 机 除 配有大 量适 用 于科学 计 算的子程 序库 外 , 还 配有适 于情 报检索 的 面 向 问题 的数 据 处理语 言- 语 言 , 以 及实用 数据 管 理 系统 。 , 为情 报检 索工 作提供 了方便 。 为 了适应 冶 全 系统 科 研 、 教学和 生产方面 的需要 , 实现情报检索手段 现代 化 , 我们利用 一 计算机 及该 机所配备的 语 言 、 汇 编语 言及 编制 和 调 试成定题情报检索 系统 。 这个系统 根据建库 和 检索方式不 同而分别编 制三 个不 同的检索程序 即 一 , 它 的文献 数据库 、 作者 名和 主 题词 数据库 是 在 管 理 下工作的检素程 序 , 木文将 着重 介绍 这部分 内容 , 一 , 其作者 名和 主 题词 数据库建在磁盘中 , 顺 序检索用 的 文献数据 库也 建在磁盘 中的二次 检 索程序 , 一 , 它使用 文献磁带直接在磁带机 上进 行顺序检 索的程 序 。 定题情报检 索系统 目前可 以检 索美 国金 属学 会和 英 国金 属学 会联 合编 辑 出版 的 “ 金属文 摘” 磁带 磁带 和 “ 世 界铝文摘” 磁 带 磁带 。 报道 内容为冶金 、 金 属材料和工 艺 。 文献来 自期刊 、 研究报告 、 会议 资料和 图书 。 它们每年各有 盘磁带 , 年 报道量 为五千 条左右 , 为 四万条左右 。 对于 其 它文献磁带只需将代码 转 换 的格 式稍加 改 变 即可使 用该 系统进 行检 索 。 目前该 系统 已经开展试验性定题情 报检 索服务 。 用 户 可以 用 作者 名或主 题词 关键词 , 并采 用逻 辑 式 组配来检索文献 。 程 序 系统批处理时每次处理 的提问个数不限 。 每个提问输出 多者可 达 条 。 程序 系统可 以利 用终端 进 行专题检索 。 二 、 一 系统功能及 构成 一 系统 采 用倒 · 排文件 的检 索算法 , 由于 一 。 计算机具有大 容量 的可更换磁 盘 , 所 以可 以 进行批量 追溯检 索 , 同时可 以利用 终端进行提 问检索 。 整个系统 的程 序 由五 部分组 成 , 它 包括 个程序 , 条 。 所用语 言为 汇编语 言 、 语 言和 系统 。 五部分组 成如下 数据库 生成程 序 , 代码 转换 及格 式 编辑程 序 主 题词 关键词 和 作者 名抽 出 、 分 类和 编辑程 序 , 文献数据组 作成程序 , 提 问卡 片校 验 、 文献检 索及 编辑 输 出程序 。 图 所 示 为 一 情 报检 索系统 流程 总框图 。 首先 由两个专门的程 序 对 数据库 的 参数 进 行定义 , 生成 文献检 索数据管理 系统 。 系统开 始运 行 时 , 文 献原磁带 由代 码转换 格 式 编辑程序 转换 成所要求 的格 式磁带 。 从格 式磁带 , 一方面 抽 出主 题词 和 作者 名 , 建立 索 引表 , 这是一 个可供检 索的倒排文件 , 另一 方 面 作成文 献 数据组 , 它是 可供检 索打印输出 的文件 。 用这几 个文件组成数据库 , 由文献检索 数据库 管 理 系统管 理 。 用 户 的提 问 以 穿孔卡 片 的形式 , 经校验程序校验在磁盘 中登录 , 构成 提 问文挡 。 检素时 , 首先 从提问挡 中读 入一个提问 , 按主 题 词 或作者 名分 别 处理 , 并得 到每 个 主 题词 或作者 名所 命 中的文 献 号 , 再转入 逻 辑运 算及 文 献 号 的处理 , 以得 到该提 问所命 中的 文献进 行编辑 , 直 到所有提间处理 完毕 , 转入 打印输出 。 打印的项 目有 提 问 号 扩 提 问 人姓 工
名、单位、索引词、文献号、题目、文摘、作者名、文献来源以及主题词等。用户也可以用 提问卡直接进矿专题检索,或是利用终端直接提问,提问结果可由终端显示或拷贝,其检紫 过程和上述相同。 文献 原磁带 主题词抽出 作者名 卡片 代码转换格式编辑 提问卡校验程序 分类 错误卡 编辑后 编辑及输出 打印 的磁带 终端提问 提问卡 主题词、作者名 结果 文献数据组作成 数据组作成 文献检常 及输出程序 数据库管理系统 作者名表 定题检求结果 数据库 主题词表 图1SDI-1情报检索系统流程总框图 三、代码转换及格式编辑 程序包括图1中的代码转换程序及格式编辑程序。 1.代码转换程序(TPTRANSE): METADEX和WAA磁带的信息是记录在9磁道磁带上,记录密度为1600/英寸(BPI)。 磁带是无标号的,开始就是文献记录,采用EBCD[C代码。用由汇编语言编成的程序,将 它转换成M一150计算机所用的EBCDIK代码。 2.格式编辑程序(FORMAT): 文献磁带的数据格式为不定长记录,一个记录可由一个物理块或多个物理块组成,每块 长度为1202字节。每个记录的项目之间用“**”来区分,记录结束以“¥¥”为标记。 程序用COBOL语言编成,用它将经过代码变换后的记录(不定长记录),转换成记录 长度为3000字节的固定格式、给后续程序的作成提供方便。 格式编辑程序的流程框图如图2所示。 142
名 、 单位 、 索 引词 、 文献 一 号 、 题 目 、 文摘 、 作者 名 、 文献 来源 以 及主 题词 等 。 用 户也可 以 用 提 问卡直 接进 行 专题检 索 , 或是 利 用终端直接 提 问 , 提 问 结果可 由终端显示 或拷 贝 , 其检索 过 程 和 上述相 同 。 靠馨寰抽出 代码转换格式编辑 “ 淞枷 主题词 、 作者名 数据组作成 一 情报检 索系统 流程 总框 图 代码 转换 及格式 编辑 图 三 程 序 包括 图 中的代码 转换 程 序 及格 式 编 辑程 序 。 代码 转换 程序 和 磁 带 的 信 息是 记 录 在 磁 道磁 带 上 , 记录密度为 英 寸 。 磁带是无 标号的 , 开 始就 是 文献 记 录 , 采 用 代码 。 用 由汇编语 言编成 的程序 , 将 它 转换 成 一 计 算机所 用 的 代码 。 格 式 编辑 程 序 文献磁带 的 数据格 式为不定长 记 录 , 一个记 录可 由一 个物理块 或 多个物 理块 组成 , 每块 长度为 字节 。 每个记录 的项 目之 间用 尹 来 区 分 , 记 录 结束 以 “ ¥ ¥ ” 为标 记 。 程序 用 语 言编成 , 用 它将经过代 码 变换 后 的记 录 ‘ 不定长记录 , 转换 成记 录 长度为 字节的 固定格 式 给后 续程 序 的 作成提 供 方便 。 格式编 辑 程 序 的流程 框 图如 图 所示
START READ AT END 1202 STOP 3090 送轴出记录 =01 =02 03 04 =05 =06 =07 =08 ERR 处理 1202 保 作者 图2格式编辑流程图 四、主题词和作者名数据组作成 这部分均为COBOL语言编成,它由以下几部分程序组成: 1.作者名和主题词的抽出(AUKEOUT): 这个程序是用来从格式编辑后的磁带中,抽出每条文献中的作者名和主题词,并按图3 中的形式排列。 2.作者名和主题词的分类(A UTHSORT、KEYSORT): 对已抽出的作者名和主题词按A、B、C…Z的顺序进行分类。 READ 3000 Byte 文献号主题词 文献号作者名 12 50 12 40 抽出 文献号主题词 文献号作者名 12 50 12 40 分类 文献写A 女献号A 文献糊乙 编辑 主题词, 之献写文献号文献写 主随词文文献文献习 作者名! 文献号文碍文缺写 作者名文献写码文献写 编辑后的 题词、作者名 数据组 图3主题词、作者名数据组作成示意图 149
。 今文 关艘诃 二 分 。 缪 处理 夺抽 夺 。 作者 限来 类索 护 码 出文 瓜 目 文 源 弓 欲 号 图 格 式编辑流 程 图 四 、 主 题 词 和 作者 名数 据组 作 成 这部分均为 语 言编成 , 它 由 以 下几 部分程 序组 成 作者 名和 主 题 词 的抽 出 这个程 序 是 用来 从格式 编辑 后 的磁带 中 , 抽 出每 条文 献 中的作者 名和 七题 词 , 并按 图 中的形 式排列 。 作者 名和 主 题词 的分 类 、 对 巳抽出的 作者 名和 主 题词 按 、 、 ” · … 的 顺 序 进 行 分 类 。 文 徽引主 司 文 献” 主 题 词 一卡叫 压间习 巫匆 主 题 词 、 作 者 名 、 数据 组 图 主题 词 、 作 者名 数 据 组 作成 示 意图
3.作者名和主题词的编辑(AUKEEDIT): 这个程序将一个作者名和主词所带的若干个文献号,按上升顺序排列在作者名或主题词 后面,每个词最多带三个文献号,多于三个时,按三个文献号一组增加,见图3。 A.作者名和主题词编辑后打印(AUKEPRNT): 此程序是对编辑以后的作者名和主题词列表打印,制成作者名表和主题词表,使其所带 文献篇数一目了然。 5.主题词主数据组和可变数据组作成(PDMPGM01): 此程序按数据库管理系统(PDM)作成主题词主数据组(MDS)DMM1和可变数据 组(VDS)DMV1,用以构成数据库,同时打印出主题词表以供查阅。见图4所示的 编集后的 KEY-WORD LIST 史题词 A: B: 按PDM作成DMM1和 了 百 DMVL PROGRAM 打印主题词 MDS VDS 图4DMM1和DMV1数据组作成及词表格式 6.作者名主数据组和可变数据组作成(PDMPGM02): 此程序按数据库管理系统(PDM)作成作者名主数据组(MDS)DMM2和可变数据 组(VDS)DMV2,用以构成数据库,同时打印出作者名表以供查阅。见图5所示。 编集后的 A UTIIOR LIST 著者名 按PDAM作成DMM2 B: 和DA1Y2程序 C: 打印 著者名 MDS VDS 图5IDMM2和DMV2数据组作成及词表格式 144
作者 名和 主题 词 的编辑 这个程 序 将 一 个作者 名和 主 词 所带 的若 干 个文 献 号 , 按 上升顺序 排列 在 作者 名或主题 词 后面 , 每个词最 多带三 个文献 号 , 多于三 个时 , 按三 个文 献号一 组增 加 , 见 图 。 , 作者 名和 主 题 词 编辑后 打 印 此 程序 是 对编辑 以后 的 作者 名和 主题 词 列 表打 印 , 制 成作者 名表和主 题词 表 , 使 其所带 文 献篇数一 目了然 。 主题 词 丰数据 组 和 可 变数据组作成 此 程 序按数据库管理 系统 作成主题词 主 数据组 和 可 变数据 纤 〕 , 用 以 构成数据库 , 同时打 印出主 题 词 表 以供 查阅 。 见 图 所示 的 丈 一 一 · 一 · 一 ·· 一一… 按 作成 和 人 , 气下 二 户 了 了 育 图 和 数 据组 作 成 及 词表 格 式 作者 名主数据组 和 可 变数据组 作成 此 程序按数据库 管理 系统 作成作者 名主 数据组 和 可 变数据 组 , 用 以 构成 数据库 , 同时打 印出作者 名表 以 供 查阅 。 见 图 所示 。 按 作成 水 入 和 入 程序 , 气二二 ,二二 , 二口 … 乐 于 了 图 和 数 据 组 作成及 词表格 式 滚