确定标引源 即确定标引所依据的文献内容(标引源)。标引 源的选择是影响标引质量的一个重要因素。 标题是自动标引的主要标引源。但仅以标题为标 引源,信息量少,标引质量差,难以推广使用。 如果对全文进行扫描,则存在数据量火和截取词 汇太多等问题,为标引带来许多杂音,影响标引 质量和速度
16 确定标引源 ◼ 即确定标引所依据的文献内容(标引源)。标引 源的选择是影响标引质量的一个重要因素。 ◼ 标题是自动标引的主要标引源。但仅以标题为标 引源,信息量少,标引质量差,难以推广使用。 ◼ 如果对全文进行扫描,则存在数据量大和截取词 汇太多等问题,为标引带来许多杂音,影响标引 质量和速度
确定标引源 般选择以下内容作为标引源: 1.标题:包括文章的主标题、章节标题、小结标题 等。这是首选标引源。 2.文摘:较标题而言,信息量较大,一般能够完全 反应文献讨论的主題,但仅利用文摘难以确定5-6 个最重要的词。 3看是章节:科技论文首章节(引言、问题的提出 等)常提出主要内容,尾章节常作总结
17 确定标引源 一般选择以下内容作为标引源: 1.标题:包括文章的主标题、章节标题、小结标题 等。这是首选标引源。 2.文摘:较标题而言,信息量较大,一般能够完全 反应文献讨论的主题,但仅利用文摘难以确定5-6 个最重要的词。 3.首尾章节:科技论文首章节(引言、问题的提出 等)常提出主要内容,尾章节常作总结
确定标引源 4.章节的首尾段:常反映章节讨论的主题,替代 整个章节,节省大量无效动。 5.段落的首尾句:國外有学者对科文献的200 个段落进行了主题句的分析,结果:85%的 段落主题句是段落的第一句,7%的段落主题 句是最后一句。用段落首尾句替代整个段落, 节省工作量,免除许多“杂音
18 确定标引源 4.章节的首尾段:常反映章节讨论的主题,替代 整个章节,节省大量无效劳动。 5.段落的首尾句:国外有学者对科技文献的200 个段落进行了主题句的分析,结果:85%的 段落主题句是段落的第一句,7%的段落主题 句是最后一句。用段落首尾句替代整个段落, 节省工作量,免除许多“杂音”
输入标引源内容 口标引源必须按标引糸统要求的格式输入糸 统,才可能进行自动标引。 ■印刷型文献:手工录入或OCR(光学字符 识别)輪入 电子文档(XML、DOC、TXT等格式):直 接导入
19 输入标引源内容 ◼ 标引源必须按标引系统要求的格式输入系 统,才可能进行自动标引。 ◼ 印刷型文献:手工录入或OCR(光学字符 识别)输入 电子文档(XML、DOC、TXT等格式):直 接导入
文档的预处理 字符内码的检测与转换:BIG5码与GB码的 旬动检测与转换。 文档格式的检测与转换:去掉DOC、XML RTF等格式的文件夹杂的许多无意义的格式 符号,即将不同格式文件转换成于旬动 标引的纯文本格式。 °典型的如:网页清冼
20 文档的预处理 ◼ 字符内码的检测与转换:BIG5码与GB码的 自动检测与转换。 ◼ 文档格式的检测与转换:去掉DOC、XML、 RTF等格式的文件夹杂的许多无意义的格式 符号,即将不同格式文件转换成适于自动 标引的纯文本格式。 • 典型的如:网页清洗