0检索语言墩展前沿 北京大学信管理原马年 分类语言的网络应用 分类语言的网络应用。 主题语言的自然语言化。 传统分类语言网络版的提供 检索语言一体化 传统分类语言在网络组织中的应用 ●关于检索语言使用方式的改进。 自动化 网络分类语言的建立 兼容与互换的应用。 分类自动化。(入自动化) 传统分类语言网络版的提供 传统分类语言网络版的特点 《杜威十进分类法》D 数据完备、及时更新。提供充分数据和更新版本 电子版: Electronic Dewey199, 查寻功能强。如 WebDewey可从分类号、LCSH,相 网络版: WebDerey2000 关索引、注释等多种途径查找 ·《国会图书馆分类法》①C 相关教据充分。LCC网络版允许检索或者浏览完整 电子版:C1 assification Plus1996 的LCSH,并可根据国会馆书目库记录中LCC号与标 题的对应关系,浏览有关数据。 ·《国际十进分类法》C 类号组配标引功能。如UDC注重构造精确的分类 电于版:1987 法,窗口设计上左屏有对3种检索浏览选择(术语、类 网络版:Uc0line2001 号、简表)的简单描述,右边建立有构造类号窗口 如LCC提供复分号计算。 传统分类语言在网络组织中的应用 ·使用比较多的有 DDC ·其他综合性分类法 专业分类法 参见 Beyond Bookmarks
1 检索语言发展前沿 北京大学信息管理系 马张华 z 分类语言的网络应用。 z 主题语言的自然语言化。 z 检索语言一体化。 z 关于检索语言使用方式的改进。 z 自动化。 z 兼容与互换的应用。 分类语言的网络应用 • 传统分类语言网络版的提供; • 传统分类语言在网络组织中的应用; • 网络分类语言的建立; • 分类自动化。(入自动化) 传统分类语言网络版的提供 • 《杜威十进分类法》 (DDC) – 电子版:Electronic Dewey1993, – 网络版:WebDewey2000 • 《国会图书馆分类法》(LCC) – 电子版:Classification Plus 1996 – 网络版:Classification Web。 • 《国际十进分类法》(UDC) – 电子版:1987 – 网络版:UDC Online 2001 传统分类语言网络版的特点 • 数据完备、及时更新。提供充分数据和更新版本。 • 查寻功能强。如WebDewey可从分类号、LCSH,相 关索引、注释等多种途径查找。 • 相关数据充分。LCC网络版允许检索或者浏览完整 的LCSH,并可根据国会馆书目库记录中LCC号与标 题的对应关系,浏览有关数据。 • 类号组配标引功能。如UDC注重构造精确的分类方 法,窗口设计上左屏有对3种检索浏览选择(术语、类 号、简表)的简单描述,右边建立有构造类号窗口, 如LCC提供复分号计算。 传统分类语言在网络组织中的应用 • 使用比较多的有 • DDC • UDC • LCC • 其他综合性分类法 • 专业分类法 参见Beyond Bookmarks Beyond Bookmarks BUBL LINK Catalogue of selected Internet resources Home| Search | Subject Menus | A-Z | Dewey | Countries | Types | Updates | Random | About 000 Generalities 001 Knowledge, humanities and research Includes: scholarship, humanities, research methods, research funding 002 The book Includes: book arts, book history 003 Systems Includes: complexity, cybernetics, simulation 004-006 Computing and the Internet Includes: computer science, data processing, networking, programming, programs. See also software archives, mathematics and computing subject terms 010 Bibliography Includes: guides on citing references 020 Library and information sciences Includes: library home pages, library operations, digital libraries. See also LIS subject terms, library catalogues 030 General encyclopaedic works Includes: encyclopaedia, thesauri, dictionaries 060 General organisations and museology Includes: virtual tours of museum exhibits 070 News media, journalism, publishing Includes: booksellers and electronic publishing 080 General collections Includes: collections of online books, texts, journals and magazines 090 Manuscripts, rare books, other rare printed materials
典型网络分类系统 -、播新*款翻歌让 网络分类与文献分类的不同 歡蠱静八酮 1.体系不同。主题中心结合学科。 nsmn蝸乐、工作与收入、物、计算、人群与聊天,题动、生播方式、算 2.类目特点不同。类目分布的差异,功能 质不同 螽:念文批学是增区同星 3.结拘不同。单维与多维 4.同位类排列方式不同。系统与字顺。 生新服务、就肯就、寶化济,人 5.适用性不同。图书馆用户与终端用户 述、数复德 调梨乐修属海网你备连强疗、女学升 6形式的不同。类目、素引发展了不同显示形 抽立部原、兼,利 超文本在多元展开中应用示例 球类起 主题语言的自然语言化 析辉体 球 各种主题语言增加检索入口 控制语言与自然语言的结合应用; 自然语言标引系统的大量应用 ·文本检索系统自然语言检索成为组织和检 索的主流。 各种主题语言增加检索入口 REference books 控制语言与自然语言的结合应用 2711 UF Bibliegra eference books 为控制语言建立自然语言接口 eference books. English 同时在一个系统中使用控制语言与自然O 语言 T Bibliography Best books 在自然语言标引系统的基础上引入控制 Encyclopedias and d ¨whmB时 rancisce(Calif), Journalism, Shakspeare
2 典型网络分类系统 Yahoo! 艺术与人文、商业经济、计算机与互联网、教育、娱乐、政府、健康 、新闻与媒体、娱乐与运动、参考、地区、科学、社会科学、社会与 文化 Open Directory 艺术、商业、计算机、游戏、健康、家庭、儿童、新闻、娱乐、参考 、地区、科学、购物、社会、运动、世界 LookSmart 娱乐、工作与收入、购物、计算、人群与聊天、运动、生活方式、旅 行 、图书馆 、个人生活 搜狐 娱乐休闲 、工商经济、公司企业、文学、体育健身、卫生健康、生活 服务、社会文化、社会科学、国家地区、电脑网络、教育培训、艺术 、新闻媒体、科学技术、旅游交通、政法军事 、个人主页 新浪 娱乐休闲、计算机与互联网、商业经济、教育就业、文学、艺术、体 育健身、医疗健康、生活服务、社会文化、科学技术、社会科学、政 法军事、新闻媒体、参考资料、个人主页、国家与地区、少儿搜索 蓝帆 计算机与网络、娱乐休闲、医疗健康、旅游交通、体育健身、文学、 艺术、新闻媒体、综合参考、生活服务、教育就业、商业经济、人物 明星、社会文化、科学技术、政治军事、社会科学、国家与地区 网易 娱乐休闲、电脑网络、经济金融、医疗健康、文学作品、艺术分类、 生活资讯、体育竞技、教育学习、情感绿洲、政法军事、少儿乐园、 社会文化、新闻出版、旅游自然、科学技术、公司企业、个人主页 网络分类与文献分类的不同 1.体系不同。主题中心结合学科。 2. 类目特点不同。类目分布的差异,功能、性 质不同。 3. 结构不同。单维与多维。 4.同位类排列方式不同。系统与字顺。 5.适用性不同。图书馆用户与终端用户。 6. 形式的不同。类目、索引发展了不同显示形 式。 超文本在多元展开中应用示例 ———————————————————————————————————— 体育与健身 球类运动 新闻媒体 报 纸 报 纸 足 球 @ 足 球 篮 球 @ 篮 球 ---- 棋 牌 期 刊 A ----- ------- ------ 足 球 期 刊 报 纸 @ 田 径 期 刊 @ 球类运动 俱乐部 足 球 赛 事 篮 球 --- 其 他 篮 球 棋 牌 报 纸 @ ------ 期 刊 @ 电 台 俱乐部 电视台 赛 事 -------- ———————————————————————————————————— 主题语言的自然语言化 • 各种主题语言增加检索入口; • 控制语言与自然语言的结合应用; • 自然语言标引系统的大量应用; • 文本检索系统自然语言检索成为组织和检 索的主流。 各种主题语言增加检索入口 Reference books [Z711] UF Bibliography- Reference books Books, Reference Libraries-- Reference books Reference books,English BT Bibliography Books and reading NT Bibliography--Best books Children’s reference books Encyclopedias and dictionaries -- Bibliography [Z1035 ]----------副标题 NT Bibliography-best books Bibliography -Bibliography -- Chemistry,[San Francisco (Calif.), Journalism,Shakspeare, William,1564-1616, etc] 控制语言与自然语言的结合应用; • 为控制语言建立自然语言接口; • 同时在一个系统中使用控制语言与自然 语言; • 在自然语言标引系统的基础上引入控制 结构;
自然语言标引系统的大量应用;。 自然语言应用的改进与检索语 言控制方式的变化 期刊论文的关键词字段检索一一如中文期刊库; ■检索方法的完善,如包括:简单检索 杂检索、各种类型检索 ·人工自然语言标引一一如一些报纸试验标引系 ■检索结果提供形式的改进 统 查询优化形式的发展 ·自动语词标引 检索语言和词汇控制方式的应用。后控 制;预处理:先其处理:多因素结合 实时处理;概念系统的纳入 Google Google高搜索 一世重认14大金 包吉征下全群的等词 但上指 “言以下字 二贵过复+盒 「cog简单检索界面、类型选择 Google的高级检索 提供形式的改进 Cge墨 排序方式的改进,如结合 PageRank排列; 过滤检索 相关检索,如 Isimilar to 题界后,.一 类型区分提供的探索使用 ·各种检索优化形式的应用等。 Google发展中的项目
3 自然语言标引系统的大量应用; • 期刊论文的关键词字段检索--如中文期刊库; • 人工自然语言标引--如一些报纸试验标引系 统; • 自动语词标引; 自然语言应用的改进与检索语 言控制方式的变化 检索方法的完善,如包括:简单检索、 复杂检索、各种类型检索; 检索结果提供形式的改进; 查询优化形式的发展; 检索语言和词汇控制方式的应用。后控 制;预处理;先其处理;多因素结合; 实时处理;概念系统的纳入; Google简单检索界面、类型选择 Google的高级检索 Google发展中的项目 提供形式的改进 • 排序方式的改进,如结合PageRank排列; • 过滤检索; • 相关检索,如similar to; • 类型区分提供的探索使用; • 各种检索优化形式的应用等
G00显示界面 个韩国网站的显示方式 查询优化形式的发展 查询优化形式的发展 alltheweb p 出其是 上一 天平 ”化速 查询优化形式的发展
4 Google显示界面 一个韩国网站的显示方式 查询优化形式的发展 查询优化形式的发展 查询优化形式的发展
查询优化形式的发展; 文本检索系统中控制以及特点 Yvivisimo' 所谓的自由文本检素系统中充满了控制 控制方式的特点和形式 后控制一一如, 预处遐一一如停用词等的排除 先期处,文本权值的先期计算 多因素结合一一词汇、各种相关因素的结合 实时处一一动态处速 概念系统的纳入;如后控词衰的应用等 检索语言一体化 网络检索中分类主题的结合应用 6e心。 分类主题一体化包括, 传统检索语言系统中的一体化方式,如分类主题 体化词表: 网络系统中的分类与主题的结合应用 语义网络与 Ontology-一类表构建与应用问题 引文与链接因素的引入 如引文索引的采用,一般结合关键词检索 Pagerank与 community的引入 多因素控制的应用 语词、链接、用户因素的结合 主题检索系统中引文检索的结合使用 写引文索引 b中分典斜二 日+口平器 【僧】具 应.中营息是.中同
5 查询优化形式的发展; 文本检索系统中控制以及特点 • 所谓的自由文本检索系统中充满了控制 。 • 控制方式的特点和形式 – 后控制--如,后组 – 预处理--如停用词等的排除 – 先期处理,文本权值的先期计算 – 多因素结合--词汇、各种相关因素的结合 – 实时处理--动态处理; – 概念系统的纳入;如后控词表的应用等 检索语言一体化 • 分类主题一体化包括, – 传统检索语言系统中的一体化方式,如分类主题 一体化词表; – 网络系统中的分类与主题的结合应用; – 语义网络与Ontology--类表构建与应用问题。 • 引文与链接因素的引入, – 如引文索引的采用,一般结合关键词检索; – Pagerank与community的引入。 • 多因素控制的应用。 – 语词、链接、用户因素的结合。 网络检索中分类主题的结合应用 主题检索系统中引文检索的结合使用 【 篇 名】 关于“中文网页自动分类竞赛”结果的分析 CAJ原文下载 PDF原文下载 【作者】 冯是聪. 王继民. 【 刊 名】 中文信息学报 2003年05期 编辑部Email 《中文核心期刊要目总览》来源期刊 ASPT来源刊 CJFD收录期刊 【机构】 北京大学计算机科学与技术系. 北京大学计算机科学与技术系 北京 100871 . 【关键 词】 计算机应用. 中文信息处理. 机器学习. 中文网页自动分类. TREC评测. 【聚类检 索】 同类文献 引用文献 被引用文献 【摘要】 在最近召开的"全国搜索引擎与网上信息挖掘学术研讨会"上,举办了一场"中文网页自动分类竞赛",共 有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果, 从而使我们对于目前中文网页自动分类技术的现状有了一种具体的认识:目前已有分类器的性能没有呈 现出明显的差距,中文网页的分类比普通文本的分类要困难的多。同时,本文还尝试推出一个标准的中文 网页分类的实例样本集,希望通过不断完善,最终作为中文网页分类技术研究的基本语料。 引文索引